वेबसाइट आइकन विशेषज्ञ.डिजिटल

रोबोट और अन्य कृत्रिम बुद्धिमत्ता एजेंटों के लिए: मेटा का V-JEPA 2 कृत्रिम बुद्धिमत्ता मॉडल – वह कृत्रिम बुद्धिमत्ता जो हमारी भौतिक दुनिया को समझती है

रोबोट और अन्य कृत्रिम बुद्धिमत्ता एजेंटों के लिए: मेटा का V-JEPA 2 कृत्रिम बुद्धिमत्ता मॉडल - वह कृत्रिम बुद्धिमत्ता जो हमारी भौतिक दुनिया को समझती है

रोबोट और अन्य एआई एजेंटों के लिए: मेटा का वी-जेईपीए 2 एआई मॉडल – वह एआई जो हमारी भौतिक दुनिया को समझता है – चित्र: Xpert.Digital

मेटा ने V-JEPA 2 प्रस्तुत किया: कृत्रिम बुद्धिमत्ता प्रणाली भौतिक दुनिया के बारे में भविष्यवाणियां करना सीखती है

मेटा ने वी-जेईपीए 2 प्रकाशित किया: कृत्रिम बुद्धिमत्ता के भविष्य के लिए एक क्रांतिकारी एआई विश्व मॉडल।

मेटा ने V-JEPA 2 नामक एक अभूतपूर्व कृत्रिम बुद्धिमत्ता प्रणाली का अनावरण किया है, जो पारंपरिक ग्रैंड लैंग्वेज मॉडल्स से बिल्कुल अलग दृष्टिकोण अपनाती है। 1.2 अरब मापदंडों वाले इस विश्व मॉडल को रोबोट और अन्य कृत्रिम बुद्धिमत्ता एजेंटों को भौतिक दुनिया को समझने और उनकी क्रियाओं पर इसकी प्रतिक्रिया का अनुमान लगाने में मदद करने के लिए विकसित किया गया है।

V-JEPA 2 क्या है और यह भाषा मॉडल से किस प्रकार भिन्न है?

V-JEPA 2 का पूरा नाम “वीडियो जॉइंट एम्बेडिंग प्रेडिक्टिव आर्किटेक्चर 2” है और यह पारंपरिक भाषा मॉडलों से बिल्कुल अलग आर्किटेक्चर पर आधारित है। जबकि ChatGPT या GPT-4 जैसे भाषा मॉडल टेक्स्ट अनुक्रमों के बारे में संभाव्यता संबंधी भविष्यवाणियां करते हैं, V-JEPA 2 एक अमूर्त निरूपण स्थान में कार्य करता है और भौतिक नियमों को समझने पर ध्यान केंद्रित करता है।

मुख्य अंतर सीखने की विधि में निहित है: भाषा मॉडल को बड़ी मात्रा में लेबल किए गए डेटा की आवश्यकता होती है और वे पर्यवेक्षित प्रशिक्षण के माध्यम से सीखते हैं। दूसरी ओर, V-JEPA 2 स्व-पर्यवेक्षित शिक्षण का उपयोग करता है और बिना लेबल वाले वीडियो से ज्ञान प्राप्त करता है, जिससे डेटा तैयार करने की लागत में काफी कमी आती है। यह मॉडल पिक्सेल पुनर्निर्माण के माध्यम से नहीं, बल्कि वीडियो सामग्री के अमूर्त निरूपण के माध्यम से सीखता है।

जेईपीए आर्किटेक्चर: भविष्यवाणी के माध्यम से सीखना

जॉइंट एम्बेडिंग प्रेडिक्टिव आर्किटेक्चर (JEPA) को मेटा के मुख्य AI वैज्ञानिक यान लेकुन ने विकसित किया है और यह जनरेटिव AI मॉडल का एक विकल्प है। जनरेटिव दृष्टिकोणों के विपरीत, जो प्रत्येक लुप्त पिक्सेल को पुनर्निर्मित करने का प्रयास करते हैं, V-JEPA 2 मास्क्ड वीडियो क्षेत्रों के साथ काम करता है और अमूर्त अवधारणाओं की भविष्यवाणी करना सीखता है।

यह प्रणाली दो चरणों वाली प्रशिक्षण पद्धति का उपयोग करती है:

पहला चरण: स्व-पर्यवेक्षित अधिगम

  • दस लाख घंटे से अधिक की वीडियो सामग्री और दस लाख छवियों के साथ प्रशिक्षण
  • मानव टिप्पणी के बिना भौतिक अंतःक्रिया पैटर्न सीखना
  • भौतिक जगत के आंतरिक मॉडल का विकास

दूसरा चरण: क्रिया-प्रेरित अनुकूलन

  • DROID डेटासेट से प्राप्त केवल 62 घंटे के रोबोट नियंत्रण डेटा के साथ फाइन-ट्यूनिंग करना
  • एजेंट की गतिविधियों को पूर्वानुमान क्षमताओं में एकीकृत करना
  • योजना और क्लोज्ड-लूप नियंत्रण को सक्षम करना

व्यवहार में उत्कृष्ट प्रदर्शन

V-JEPA 2 विभिन्न क्षेत्रों में प्रभावशाली प्रदर्शन प्रदर्शित करता है:

वीडियो को समझना और गति का पता लगाना

  • Something-Something v2 डेटासेट में 77.3% की शीर्ष 1 सटीकता
  • एपिक-किचन-100 एक्शन प्रेडिक्शन में 39.7% रिकॉल-एट-5 (पिछले मॉडलों की तुलना में 44% सुधार)
  • विभिन्न वीडियो प्रश्न-उत्तर कार्यों में अत्याधुनिक प्रदर्शन

रोबोट नियंत्रण

  • अपरिचित वातावरण में पिक-एंड-प्लेस कार्यों में 65-80% सफलता दर।
  • पर्यावरण-विशिष्ट प्रशिक्षण के बिना ज़ीरो-शॉट रोबोट नियंत्रण
  • फ्रैंका रोबोट आर्म्स के साथ दो अलग-अलग प्रयोगशालाओं में तैनाती

प्रतिस्पर्धा की तुलना में दक्षता

V-JEPA 2, NVIDIA के Cosmos मॉडल से 30 गुना तेज है और रोबोट की कार्रवाई की योजना बनाने में केवल 16 सेकंड का समय लेता है, जबकि Cosmos को 4 मिनट लगते हैं।

तकनीकी नवाचार और प्रमुख विशेषताएं

इस मॉडल की विशेषता पाँच प्रमुख तकनीकी उपलब्धियाँ हैं:

  1. स्व-पर्यवेक्षित अधिगम: इससे बड़ी मात्रा में लेबल किए गए डेटा की आवश्यकता समाप्त हो जाती है।
  2. मास्किंग तंत्र: छिपे हुए वीडियो क्षेत्रों की भविष्यवाणी करके मॉडल को प्रशिक्षित करता है।
  3. अमूर्त निरूपण अधिगम: पिक्सेल विवरण के बजाय अर्थपरक अर्थों पर ध्यान केंद्रित करना
  4. विश्व मॉडल वास्तुकला: भौतिक नियमों की आंतरिक समझ का निर्माण
  5. कुशल स्थानांतरण अधिगम: उत्कृष्ट शून्य-शॉट अधिगम क्षमताएँ

नए मापदंड वर्तमान एआई की सीमाओं को उजागर करते हैं।

V-JEPA 2 के समानांतर, मेटा ने तीन नए बेंचमार्क जारी किए हैं जो एआई सिस्टम की भौतिक समझ का परीक्षण करते हैं:

इंटफिज़ 2

यह भौतिक रूप से संभव और असंभव परिदृश्यों के बीच अंतर करने की क्षमता का परीक्षण करता है। यहां तक ​​कि उन्नत मॉडल भी इस मामले में लगभग यादृच्छिकता के करीब प्रदर्शन करते हैं।

एमवीपी बेंच

यह एक ही प्रश्न के विपरीत उत्तरों वाले दिखने में समान वीडियो युग्मों का उपयोग करता है। V-JEPA 2 ने 44.5% युग्म सटीकता हासिल की है - जो परीक्षण किए गए सभी प्रणालियों में सर्वश्रेष्ठ प्रदर्शन है।

कारणवीक्यूए

इस अध्ययन में कारण-कार्य संबंध की समझ और काल्पनिक तर्क का विश्लेषण किया गया है। परिणामों से पता चलता है कि वर्तमान एआई प्रणालियाँ जो देखती हैं उसका सटीक वर्णन तो कर सकती हैं, लेकिन वैकल्पिक परिणामों की भविष्यवाणी करने में उन्हें कठिनाई होती है।

डेटा की अत्यधिक खपत के बिना एआई: वी-जेईपीए 2 मशीन लर्निंग को कैसे अधिक कुशल बनाता है

यान लेकुन वी-जेईपीए 2 जैसे विश्व मॉडलों को एआई विकास की अगली पीढ़ी की कुंजी मानते हैं। यह मॉडल विभिन्न अनुप्रयोग क्षेत्रों में क्रांति ला सकता है।

रोबोटिक्स और घरेलू सहायक

विश्व मॉडल रोबोटिक्स के एक नए युग की शुरुआत करने के उद्देश्य से बनाए गए हैं, जिसमें एआई एजेंट भारी मात्रा में प्रशिक्षण डेटा के बिना वास्तविक दुनिया के कार्यों को संभालने में सक्षम होंगे।

स्वायत्त वाहन

वी-जेईपीए 2 की वास्तविक समय की स्थानिक समझ स्वायत्त वाहनों, गोदाम रोबोटों और ड्रोन डिलीवरी सिस्टम के लिए महत्वपूर्ण हो सकती है।

ऑगमेंटेड रियलिटी (AR) और वर्चुअल असिस्टेंट

मेटा की योजना V-JEPA 2 की कार्यक्षमता को बढ़ाने की है, जिसके लिए वह AR ग्लास और वर्चुअल असिस्टेंट के लिए ऑडियो एनालिटिक्स और बेहतर वीडियो समझने की क्षमताओं को एकीकृत करेगी।

ओपन-सोर्स उपलब्धता और अनुसंधान वित्तपोषण

मेटा ने वैश्विक एआई अनुसंधान को बढ़ावा देने के लिए वी-जेईपीए 2 को सीसी-बाय-एनसी लाइसेंस के तहत ओपन सोर्स के रूप में जारी किया है। मॉडल कोड गिटहब पर उपलब्ध है और इसे गूगल कोलाब और कैगल जैसे प्लेटफार्मों पर चलाया जा सकता है। यह खुलापन कई अन्य बड़े एआई मॉडलों से अलग है और इसका उद्देश्य रोबोटिक्स और एम्बोडेड एआई में विश्व मॉडल के विकास को आगे बढ़ाना है।

कृत्रिम बुद्धिमत्ता के विकास में एक प्रतिमान परिवर्तन

V-JEPA 2 विशुद्ध भाषा प्रसंस्करण से भौतिक जगत की गहरी समझ की ओर एक मौलिक बदलाव का प्रतिनिधित्व करता है। जहाँ अधिकांश AI कंपनियाँ जनरेटिव मॉडल पर निर्भर करती हैं, वहीं मेटा अपने विश्व-मॉडल दृष्टिकोण के साथ कृत्रिम बुद्धिमत्ता के भविष्य के लिए एक वैकल्पिक दृष्टिकोण अपनाती है। न्यूनतम डेटा से सीखने और शून्य-शॉट रोबोट नियंत्रण को सक्षम करने की क्षमता बुद्धिमान प्रणालियों की एक नई पीढ़ी का मार्ग प्रशस्त कर सकती है जो न केवल वास्तविक दुनिया को समझ सकती हैं बल्कि उसमें कार्य भी कर सकती हैं।

के लिए उपयुक्त:

 

आपका वैश्विक विपणन और व्यवसाय विकास भागीदार

☑️ हमारी व्यावसायिक भाषा अंग्रेजी या जर्मन है

☑️ नया: आपकी राष्ट्रीय भाषा में पत्राचार!

 

Konrad Wolfenstein

मुझे निजी सलाहकार के रूप में आपकी और मेरी टीम की सेवा करने में खुशी होगी।

संपर्क फ़ॉर्म भरकर मुझसे संपर्क कर सकते हैं +49 89 89 674 804 (म्यूनिख) पर कॉल कर सकते हैं । मेरा ईमेल पता है: वोल्फेंस्टीन xpert.digital

मैं हमारी संयुक्त परियोजना की प्रतीक्षा कर रहा हूं।

 

 

☑️ रणनीति, परामर्श, योजना और कार्यान्वयन में एसएमई का समर्थन

☑️ डिजिटल रणनीति और डिजिटलीकरण का निर्माण या पुनर्संरेखण

☑️ अंतर्राष्ट्रीय बिक्री प्रक्रियाओं का विस्तार और अनुकूलन

☑️ वैश्विक और डिजिटल B2B ट्रेडिंग प्लेटफॉर्म

☑️ पायनियर बिजनेस डेवलपमेंट/मार्केटिंग/पीआर/व्यापार मेले

मोबाइल संस्करण से बाहर निकलें