
रोबोट और अन्य एआई एजेंटों के लिए: मेटा का वी-जेईपीए 2 एआई मॉडल – वह एआई जो हमारी भौतिक दुनिया को समझता है – चित्र: Xpert.Digital
मेटा ने V-JEPA 2 प्रस्तुत किया: कृत्रिम बुद्धिमत्ता प्रणाली भौतिक दुनिया के बारे में भविष्यवाणियां करना सीखती है
मेटा ने वी-जेईपीए 2 प्रकाशित किया: कृत्रिम बुद्धिमत्ता के भविष्य के लिए एक क्रांतिकारी एआई विश्व मॉडल।
मेटा ने V-JEPA 2 नामक एक अभूतपूर्व कृत्रिम बुद्धिमत्ता प्रणाली का अनावरण किया है, जो पारंपरिक ग्रैंड लैंग्वेज मॉडल्स से बिल्कुल अलग दृष्टिकोण अपनाती है। 1.2 अरब मापदंडों वाले इस विश्व मॉडल को रोबोट और अन्य कृत्रिम बुद्धिमत्ता एजेंटों को भौतिक दुनिया को समझने और उनकी क्रियाओं पर इसकी प्रतिक्रिया का अनुमान लगाने में मदद करने के लिए विकसित किया गया है।
V-JEPA 2 क्या है और यह भाषा मॉडल से किस प्रकार भिन्न है?
V-JEPA 2 का पूरा नाम “वीडियो जॉइंट एम्बेडिंग प्रेडिक्टिव आर्किटेक्चर 2” है और यह पारंपरिक भाषा मॉडलों से बिल्कुल अलग आर्किटेक्चर पर आधारित है। जबकि ChatGPT या GPT-4 जैसे भाषा मॉडल टेक्स्ट अनुक्रमों के बारे में संभाव्यता संबंधी भविष्यवाणियां करते हैं, V-JEPA 2 एक अमूर्त निरूपण स्थान में कार्य करता है और भौतिक नियमों को समझने पर ध्यान केंद्रित करता है।
मुख्य अंतर सीखने की विधि में निहित है: भाषा मॉडल को बड़ी मात्रा में लेबल किए गए डेटा की आवश्यकता होती है और वे पर्यवेक्षित प्रशिक्षण के माध्यम से सीखते हैं। दूसरी ओर, V-JEPA 2 स्व-पर्यवेक्षित शिक्षण का उपयोग करता है और बिना लेबल वाले वीडियो से ज्ञान प्राप्त करता है, जिससे डेटा तैयार करने की लागत में काफी कमी आती है। यह मॉडल पिक्सेल पुनर्निर्माण के माध्यम से नहीं, बल्कि वीडियो सामग्री के अमूर्त निरूपण के माध्यम से सीखता है।
जेईपीए आर्किटेक्चर: भविष्यवाणी के माध्यम से सीखना
जॉइंट एम्बेडिंग प्रेडिक्टिव आर्किटेक्चर (JEPA) को मेटा के मुख्य AI वैज्ञानिक यान लेकुन ने विकसित किया है और यह जनरेटिव AI मॉडल का एक विकल्प है। जनरेटिव दृष्टिकोणों के विपरीत, जो प्रत्येक लुप्त पिक्सेल को पुनर्निर्मित करने का प्रयास करते हैं, V-JEPA 2 मास्क्ड वीडियो क्षेत्रों के साथ काम करता है और अमूर्त अवधारणाओं की भविष्यवाणी करना सीखता है।
यह प्रणाली दो चरणों वाली प्रशिक्षण पद्धति का उपयोग करती है:
पहला चरण: स्व-पर्यवेक्षित अधिगम
- दस लाख घंटे से अधिक की वीडियो सामग्री और दस लाख छवियों के साथ प्रशिक्षण
- मानव टिप्पणी के बिना भौतिक अंतःक्रिया पैटर्न सीखना
- भौतिक जगत के आंतरिक मॉडल का विकास
दूसरा चरण: क्रिया-प्रेरित अनुकूलन
- DROID डेटासेट से प्राप्त केवल 62 घंटे के रोबोट नियंत्रण डेटा के साथ फाइन-ट्यूनिंग करना
- एजेंट की गतिविधियों को पूर्वानुमान क्षमताओं में एकीकृत करना
- योजना और क्लोज्ड-लूप नियंत्रण को सक्षम करना
व्यवहार में उत्कृष्ट प्रदर्शन
V-JEPA 2 विभिन्न क्षेत्रों में प्रभावशाली प्रदर्शन प्रदर्शित करता है:
वीडियो को समझना और गति का पता लगाना
- Something-Something v2 डेटासेट में 77.3% की शीर्ष 1 सटीकता
- एपिक-किचन-100 एक्शन प्रेडिक्शन में 39.7% रिकॉल-एट-5 (पिछले मॉडलों की तुलना में 44% सुधार)
- विभिन्न वीडियो प्रश्न-उत्तर कार्यों में अत्याधुनिक प्रदर्शन
रोबोट नियंत्रण
- अपरिचित वातावरण में पिक-एंड-प्लेस कार्यों में 65-80% सफलता दर।
- पर्यावरण-विशिष्ट प्रशिक्षण के बिना ज़ीरो-शॉट रोबोट नियंत्रण
- फ्रैंका रोबोट आर्म्स के साथ दो अलग-अलग प्रयोगशालाओं में तैनाती
प्रतिस्पर्धा की तुलना में दक्षता
V-JEPA 2, NVIDIA के Cosmos मॉडल से 30 गुना तेज है और रोबोट की कार्रवाई की योजना बनाने में केवल 16 सेकंड का समय लेता है, जबकि Cosmos को 4 मिनट लगते हैं।
तकनीकी नवाचार और प्रमुख विशेषताएं
इस मॉडल की विशेषता पाँच प्रमुख तकनीकी उपलब्धियाँ हैं:
- स्व-पर्यवेक्षित अधिगम: इससे बड़ी मात्रा में लेबल किए गए डेटा की आवश्यकता समाप्त हो जाती है।
- मास्किंग तंत्र: छिपे हुए वीडियो क्षेत्रों की भविष्यवाणी करके मॉडल को प्रशिक्षित करता है।
- अमूर्त निरूपण अधिगम: पिक्सेल विवरण के बजाय अर्थपरक अर्थों पर ध्यान केंद्रित करना
- विश्व मॉडल वास्तुकला: भौतिक नियमों की आंतरिक समझ का निर्माण
- कुशल स्थानांतरण अधिगम: उत्कृष्ट शून्य-शॉट अधिगम क्षमताएँ
नए मापदंड वर्तमान एआई की सीमाओं को उजागर करते हैं।
V-JEPA 2 के समानांतर, मेटा ने तीन नए बेंचमार्क जारी किए हैं जो एआई सिस्टम की भौतिक समझ का परीक्षण करते हैं:
इंटफिज़ 2
यह भौतिक रूप से संभव और असंभव परिदृश्यों के बीच अंतर करने की क्षमता का परीक्षण करता है। यहां तक कि उन्नत मॉडल भी इस मामले में लगभग यादृच्छिकता के करीब प्रदर्शन करते हैं।
एमवीपी बेंच
यह एक ही प्रश्न के विपरीत उत्तरों वाले दिखने में समान वीडियो युग्मों का उपयोग करता है। V-JEPA 2 ने 44.5% युग्म सटीकता हासिल की है - जो परीक्षण किए गए सभी प्रणालियों में सर्वश्रेष्ठ प्रदर्शन है।
कारणवीक्यूए
इस अध्ययन में कारण-कार्य संबंध की समझ और काल्पनिक तर्क का विश्लेषण किया गया है। परिणामों से पता चलता है कि वर्तमान एआई प्रणालियाँ जो देखती हैं उसका सटीक वर्णन तो कर सकती हैं, लेकिन वैकल्पिक परिणामों की भविष्यवाणी करने में उन्हें कठिनाई होती है।
डेटा की अत्यधिक खपत के बिना एआई: वी-जेईपीए 2 मशीन लर्निंग को कैसे अधिक कुशल बनाता है
यान लेकुन वी-जेईपीए 2 जैसे विश्व मॉडलों को एआई विकास की अगली पीढ़ी की कुंजी मानते हैं। यह मॉडल विभिन्न अनुप्रयोग क्षेत्रों में क्रांति ला सकता है।
रोबोटिक्स और घरेलू सहायक
विश्व मॉडल रोबोटिक्स के एक नए युग की शुरुआत करने के उद्देश्य से बनाए गए हैं, जिसमें एआई एजेंट भारी मात्रा में प्रशिक्षण डेटा के बिना वास्तविक दुनिया के कार्यों को संभालने में सक्षम होंगे।
स्वायत्त वाहन
वी-जेईपीए 2 की वास्तविक समय की स्थानिक समझ स्वायत्त वाहनों, गोदाम रोबोटों और ड्रोन डिलीवरी सिस्टम के लिए महत्वपूर्ण हो सकती है।
ऑगमेंटेड रियलिटी (AR) और वर्चुअल असिस्टेंट
मेटा की योजना V-JEPA 2 की कार्यक्षमता को बढ़ाने की है, जिसके लिए वह AR ग्लास और वर्चुअल असिस्टेंट के लिए ऑडियो एनालिटिक्स और बेहतर वीडियो समझने की क्षमताओं को एकीकृत करेगी।
ओपन-सोर्स उपलब्धता और अनुसंधान वित्तपोषण
मेटा ने वैश्विक एआई अनुसंधान को बढ़ावा देने के लिए वी-जेईपीए 2 को सीसी-बाय-एनसी लाइसेंस के तहत ओपन सोर्स के रूप में जारी किया है। मॉडल कोड गिटहब पर उपलब्ध है और इसे गूगल कोलाब और कैगल जैसे प्लेटफार्मों पर चलाया जा सकता है। यह खुलापन कई अन्य बड़े एआई मॉडलों से अलग है और इसका उद्देश्य रोबोटिक्स और एम्बोडेड एआई में विश्व मॉडल के विकास को आगे बढ़ाना है।
कृत्रिम बुद्धिमत्ता के विकास में एक प्रतिमान परिवर्तन
V-JEPA 2 विशुद्ध भाषा प्रसंस्करण से भौतिक जगत की गहरी समझ की ओर एक मौलिक बदलाव का प्रतिनिधित्व करता है। जहाँ अधिकांश AI कंपनियाँ जनरेटिव मॉडल पर निर्भर करती हैं, वहीं मेटा अपने विश्व-मॉडल दृष्टिकोण के साथ कृत्रिम बुद्धिमत्ता के भविष्य के लिए एक वैकल्पिक दृष्टिकोण अपनाती है। न्यूनतम डेटा से सीखने और शून्य-शॉट रोबोट नियंत्रण को सक्षम करने की क्षमता बुद्धिमान प्रणालियों की एक नई पीढ़ी का मार्ग प्रशस्त कर सकती है जो न केवल वास्तविक दुनिया को समझ सकती हैं बल्कि उसमें कार्य भी कर सकती हैं।
के लिए उपयुक्त:
आपका वैश्विक विपणन और व्यवसाय विकास भागीदार
☑️ हमारी व्यावसायिक भाषा अंग्रेजी या जर्मन है
☑️ नया: आपकी राष्ट्रीय भाषा में पत्राचार!
मुझे निजी सलाहकार के रूप में आपकी और मेरी टीम की सेवा करने में खुशी होगी।
संपर्क फ़ॉर्म भरकर मुझसे संपर्क कर सकते हैं +49 89 89 674 804 (म्यूनिख) पर कॉल कर सकते हैं । मेरा ईमेल पता है: वोल्फेंस्टीन ∂ xpert.digital
मैं हमारी संयुक्त परियोजना की प्रतीक्षा कर रहा हूं।

