AI मॉडलों के ARC बेंचमार्क पर AI का मुकाबला: GPT-5 बनाम Grok बनाम o3
एक्सपर्ट प्री-रिलीज़
भाषा चयन 📢
प्रकाशित तिथि: 8 अगस्त, 2025 / अद्यतन तिथि: 8 अगस्त, 2025 – लेखक: कोनराड वोल्फेंस्टाइन
महान मोहभंग: क्यों बढ़ते हुए बड़े AI मॉडल महत्वपूर्ण बुद्धिमत्ता परीक्षण में विफल हो जाते हैं
एआरसी-एजीआई बेंचमार्क क्या है और इसे क्यों विकसित किया गया?
एआरसी-एजीआई बेंचमार्क, एआई प्रणालियों की सामान्य बुद्धिमत्ता को मापने के लिए परीक्षणों की एक श्रृंखला है, जिसे 2019 में फ्रांस्वा चॉलेट द्वारा विकसित किया गया था। एआरसी का अर्थ है "कृत्रिम सामान्य बुद्धिमत्ता के लिए अमूर्तता और तर्क कोष"। यह बेंचमार्क एआई प्रणालियों की उन नए कार्यों को समझने और हल करने की क्षमता का मूल्यांकन करने के लिए बनाया गया था जिनके लिए उन्हें स्पष्ट रूप से प्रशिक्षित नहीं किया गया है।
इस बेंचमार्क का विकास चॉलेट द्वारा अपने मौलिक शोधपत्र "ऑन द मेजर ऑफ़ इंटेलिजेंस" में दी गई बुद्धिमत्ता की परिभाषा पर आधारित है। उनका तर्क है कि सच्ची बुद्धिमत्ता विशिष्ट कार्यों में निपुणता में नहीं, बल्कि नए कौशल सीखने की कुशलता में निहित है। इस परीक्षण में रंगीन ग्रिड वाली दृश्य पहेलियाँ शामिल हैं, जहाँ AI प्रणालियों को अंतर्निहित परिवर्तन नियमों को पहचानना होगा और उन्हें नए उदाहरणों पर लागू करना होगा।
ARC-AGI अन्य AI बेंचमार्क से किस प्रकार भिन्न है?
पारंपरिक एआई परीक्षणों के विपरीत, जो अक्सर पूर्व ज्ञान या याद किए गए पैटर्न पर निर्भर करते हैं, एआरसी-एजीआई तथाकथित "मुख्य ज्ञान पूर्वापेक्षाओं" पर केंद्रित है—वस्तु स्थायित्व, गिनती और स्थानिक समझ जैसे – संज्ञानात्मक कौशल। ये कौशल आमतौर पर चार साल की उम्र तक हासिल कर लिए जाते हैं।
मुख्य अंतर यह है कि ARC-AGI को विशेष रूप से शुद्ध स्मरण या डेटा इंटरपोलेशन के माध्यम से हल करने योग्य बनाया गया है। बेंचमार्क में प्रत्येक कार्य अद्वितीय है और विशेष रूप से परीक्षण के लिए विकसित किया गया है, इसलिए इसका कोई उदाहरण ऑनलाइन मौजूद नहीं होना चाहिए। यह परीक्षण को बड़ी मात्रा में प्रशिक्षण डेटा पर आधारित AI प्रणालियों की सामान्य रणनीतियों के प्रति प्रतिरोधी बनाता है।
ARC-AGI बेंचमार्क के विभिन्न संस्करण क्या हैं?
अब बेंचमार्क के तीन मुख्य संस्करण हैं:
एआरसी-एजीआई-1
मूल 2019 संस्करण, जिसमें स्थिर दृश्य पहेलियाँ शामिल हैं, में मनुष्य औसतन 95% प्राप्त कर रहे हैं, जबकि अधिकांश AI प्रणालियाँ लंबे समय से 5% से नीचे हैं।
एआरसी-एजीआई-2
2025 में जारी होने वाला यह उन्नत संस्करण विशेष रूप से आधुनिक तर्क प्रणालियों को भी चुनौती देने के लिए डिज़ाइन किया गया है। जबकि मनुष्य लगभग 100% प्रदर्शन प्राप्त करना जारी रखते हैं, उन्नत AI मॉडल भी केवल 10-20% कार्य ही कर पाते हैं।
एआरसी-एजीआई-3
नवीनतम संस्करण, जो अभी भी विकास के चरण में है, इंटरैक्टिव तत्वों को शामिल करता है। स्थिर पहेलियों के बजाय, एआई एजेंटों को ग्रिड की दुनिया में अन्वेषण और परीक्षण-त्रुटि के माध्यम से सीखना होगा, ठीक उसी तरह जैसे मनुष्य नए वातावरणों का अन्वेषण करते हैं।
ARC-AGI परीक्षणों में विभिन्न AI मॉडल कैसा प्रदर्शन करते हैं?
विभिन्न AI मॉडलों के बीच प्रदर्शन अंतर महत्वपूर्ण हैं:
ARC-AGI-1 पर, Grok 4 लगभग 68% प्राप्त करता है, जबकि GPT-5 65.7% पर है। प्रति कार्य लागत Grok 4 के लिए लगभग $1 और GPT-5 के लिए $0.51 है।
ARC-AGI-2, जो कि अधिक कठिन परीक्षण है, में प्रदर्शन नाटकीय रूप से गिर जाता है: GPT-5 प्रति कार्य $0.73 की लागत पर केवल 9.9% प्राप्त करता है, जबकि Grok 4 (थिंकिंग) लगभग 16% पर बेहतर प्रदर्शन करता है, यद्यपि इसकी लागत $2-4 के काफी अधिक है।
जैसा कि अपेक्षित था, सस्ते मॉडल वेरिएंट कमजोर प्रदर्शन दिखाते हैं: GPT-5 मिनी AGI-1 पर 54.3% और AGI-2 पर 4.4% प्राप्त करता है, जबकि GPT-5 नैनो क्रमशः 16.5% और 2.5% ही प्राप्त करता है।
O3 पूर्वावलोकन मॉडल का रहस्य क्या है?
ओपनएआई का o3-प्रीव्यू मॉडल एक विशेष उदाहरण प्रस्तुत करता है। दिसंबर 2024 में, इसने ARC-AGI-1 पर 75.7% से 87.5% तक की प्रभावशाली उपलब्धि हासिल की, जो प्रयुक्त कंप्यूटिंग शक्ति पर निर्भर करती है। यह पहली बार था जब किसी एआई सिस्टम ने 85% की मानवीय प्रदर्शन सीमा को पार किया।
हालाँकि, एक महत्वपूर्ण सीमा है: o3 का सार्वजनिक रूप से उपलब्ध संस्करण मूल पूर्वावलोकन संस्करण की तुलना में काफ़ी ख़राब प्रदर्शन करता है। ARC पुरस्कार के अनुसार, o3 का जारी किया गया संस्करण ARC-AGI-1 पर केवल 41% (निम्न कंप्यूट) और 53% (मध्यम कंप्यूट) प्राप्त करता है, जबकि पूर्वावलोकन संस्करण 76-88% प्राप्त करता है।
ओपनएआई ने पुष्टि की है कि प्रकाशित मॉडल का आर्किटेक्चर अलग और छोटा है और यह चैट और उत्पाद अनुप्रयोगों के लिए अनुकूलित है। यह विसंगति इसकी वास्तविक क्षमताओं पर सवाल उठाती है और अप्रकाशित मॉडलों के बेंचमार्क परिणामों की आलोचनात्मक जाँच के महत्व को उजागर करती है।
एआरसी पुरस्कार प्रतियोगिता कैसे काम करती है?
एआरसी पुरस्कार एक वार्षिक प्रतियोगिता है जिसकी कुल पुरस्कार राशि एक मिलियन अमेरिकी डॉलर से अधिक है और इसका उद्देश्य एजीआई की दिशा में ओपन-सोर्स प्रगति को बढ़ावा देना है। वर्तमान 2025 प्रतियोगिता 26 मार्च से 3 नवंबर तक कागल प्लेटफ़ॉर्म पर आयोजित की जाएगी।
मूल्य निर्धारण संरचना में शामिल हैं:
- ग्रैंड प्राइज़ (700,000 USD): यह पुरस्कार तब मिलता है जब कोई टीम निजी मूल्यांकन डेटासेट पर 85% सटीकता प्राप्त कर लेती है
- सर्वोच्च स्कोर पुरस्कार (75,000 USD): सर्वोच्च स्कोर वाली टीमों के लिए
- पेपर पुरस्कार (50,000 अमरीकी डॉलर): सर्वाधिक महत्वपूर्ण वैचारिक प्रगति के लिए
- अतिरिक्त पुरस्कार (175,000 USD): अतिरिक्त श्रेणियों की घोषणा जल्द ही की जाएगी
महत्वपूर्ण बात यह है कि सभी विजेताओं को अपने समाधान ओपन सोर्स के रूप में प्रकाशित करने होंगे। यह एआरसी प्राइज़ फ़ाउंडेशन के उस मिशन के अनुरूप है जिसके तहत एजीआई की प्रगति को संपूर्ण शोध समुदाय के लिए सुलभ बनाया जाता है।
एआरसी-एजीआई बेंचमार्क की तकनीकी चुनौतियाँ क्या हैं?
एआरसी-एजीआई में कार्यों के लिए कई संज्ञानात्मक कौशल की आवश्यकता होती है जो मनुष्यों के लिए स्वाभाविक है लेकिन एआई प्रणालियों के लिए बेहद कठिन है:
प्रतीक व्याख्या
एआई को अमूर्त प्रतीकों को समझना होगा और संदर्भ से उनका अर्थ निकालना होगा।
बहु-स्तरीय रचनात्मक सोच
समस्याओं को उप-चरणों में विभाजित किया जाना चाहिए और क्रमिक रूप से हल किया जाना चाहिए।
संदर्भ-निर्भर नियम अनुप्रयोग
संदर्भ के आधार पर एक ही नियम को अलग-अलग तरीके से लागू करने की आवश्यकता हो सकती है।
कुछ उदाहरणों से सामान्यीकरण
आमतौर पर, केवल 2-3 प्रदर्शन जोड़े उपलब्ध होते हैं जिनसे परिवर्तन नियम निकाला जाना चाहिए।
ARC-AGI को हल करने में परीक्षण-समय प्रशिक्षण की क्या भूमिका है?
ARC-AGI पर प्रदर्शन सुधारने के लिए परीक्षण-समय प्रशिक्षण (TTT) एक आशाजनक तरीका साबित हुआ है। यह विधि अनुमान के दौरान मॉडल मापदंडों को वर्तमान इनपुट डेटा के अनुसार गतिशील रूप से अनुकूलित करती है, बजाय केवल पूर्व-प्रशिक्षित ज्ञान पर निर्भर रहने के।
एमआईटी के शोधकर्ताओं ने प्रदर्शित किया है कि टीटीटी, एआरसी-एजीआई पर भाषा मॉडलों के प्रदर्शन में उल्लेखनीय सुधार करता है। यह विधि मॉडलों को कार्य समाधान के दौरान अनुकूलित होने और विशिष्ट उदाहरणों से सीखने की अनुमति देती है। यह मानवीय समस्या-समाधान व्यवहार की नकल करता है, जिसमें हम कठिन समस्याओं पर अधिक समय व्यतीत करते हैं।
EU/DE डेटा सुरक्षा | सभी व्यावसायिक आवश्यकताओं के लिए एक स्वतंत्र और क्रॉस-डेटा स्रोत AI प्लेटफ़ॉर्म का एकीकरण
यूरोपीय कंपनियों के लिए एक रणनीतिक विकल्प के रूप में स्वतंत्र एआई प्लेटफ़ॉर्म – छवि: एक्सपर्ट.डिजिटल
Ki-Gamechanger: सबसे लचीला AI प्लेटफॉर्म – दर्जी समाधान जो लागत को कम करते हैं, उनके निर्णयों में सुधार करते हैं और दक्षता बढ़ाते हैं
स्वतंत्र AI प्लेटफ़ॉर्म: सभी प्रासंगिक कंपनी डेटा स्रोतों को एकीकृत करता है
- फास्ट एआई एकीकरण: महीनों के बजाय घंटों या दिनों में कंपनियों के लिए दर्जी एआई समाधान
- लचीला बुनियादी ढांचा: अपने स्वयं के डेटा सेंटर (जर्मनी, यूरोप, स्थान की मुफ्त पसंद) में क्लाउड-आधारित या होस्टिंग
- उच्चतम डेटा सुरक्षा: कानून फर्मों में उपयोग सुरक्षित साक्ष्य है
- कंपनी डेटा स्रोतों की एक विस्तृत विविधता का उपयोग करें
- अपने स्वयं के या विभिन्न एआई मॉडल का विकल्प (डी, ईयू, यूएसए, सीएन)
इसके बारे में यहां अधिक जानकारी:
पैमाने से परे कृत्रिम बुद्धिमत्ता: एआरसी-एजीआई परीक्षण से अंतर्दृष्टि
एजीआई के विकास के लिए इन परिणामों का क्या अर्थ है?
नतीजे मानव और कृत्रिम बुद्धिमत्ता के बीच एक स्पष्ट अंतर को उजागर करते हैं। जहाँ मनुष्य ARC-AGI कार्यों को सहज रूप से हल कर लेते हैं, वहीं अत्याधुनिक AI प्रणालियाँ भी बुनियादी तर्क कार्यों में विफल हो जाती हैं।
फ़्राँस्वा चोलेट का तर्क है कि एआई विकास का वर्तमान प्रतिमान – अधिक डेटा के साथ लगातार बड़े मॉडलों का प्रशिक्षण – अपनी सीमा तक पहुँच गया है। मॉडल के आकार में तेज़ी से वृद्धि के बावजूद, एआरसी-एजीआई पर खराब परिणाम, उनके विचार से, यह साबित करते हैं कि "तरल बुद्धिमत्ता पूर्व-प्रशिक्षण के पैमाने को बढ़ाने से उत्पन्न नहीं होती है।"
भविष्य परीक्षण-समय अनुकूलन जैसे नए तरीकों में निहित हो सकता है, जहां मॉडल नई परिस्थितियों के अनुकूल होने के लिए रनटाइम पर अपनी स्थिति बदल सकते हैं।
एआरसी-एजीआई बेंचमार्क का भविष्य कैसा दिखता है?
एआरसी प्राइज़ फ़ाउंडेशन इस बेंचमार्क को लगातार विकसित करने की योजना बना रहा है। एआरसी-एजीआई-3, अपने इंटरैक्टिव तत्वों के साथ, 2026 में पूरी तरह से रिलीज़ होने वाला है और इसमें लगभग 100 अद्वितीय वातावरण शामिल होंगे।
फाउंडेशन का लक्ष्य ऐसे मानक विकसित करना है जो एजीआई विकास के लिए "उत्तर सितारा" का काम करें। इसका उद्देश्य न केवल प्रगति को मापना है, बल्कि अनुसंधान को उन दिशाओं में निर्देशित करना भी है जो वास्तविक सामान्य बुद्धिमत्ता की ओर ले जा सकें।
बेंचमार्क प्रदर्शन के आर्थिक निहितार्थ क्या हैं?
एआरसी-एजीआई कार्यों को हल करने की लागत विभिन्न मॉडलों में बहुत भिन्न होती है और इसका व्यावहारिक प्रयोज्यता पर सीधा प्रभाव पड़ता है।
जहाँ साधारण कार्यों को एपीआई लागत के साथ सेंट रेंज में हल किया जा सकता है, वहीं जटिल तर्क कार्यों की लागत तेज़ी से बढ़ती है। उदाहरण के लिए, o3 मॉडल में उच्च कंप्यूटिंग शक्ति पर प्रति कार्य लागत $1,000 तक हो सकती है।
यह लागत संरचना दर्शाती है कि भले ही तकनीकी सफलताएं प्राप्त हो जाएं, फिर भी एजीआई प्रौद्योगिकियों को व्यापक रूप से अपनाने के लिए आर्थिक व्यवहार्यता एक महत्वपूर्ण कारक बनी रहेगी।
एआरसी-एजीआई परिणामों के दार्शनिक निहितार्थ क्या हैं?
ये नतीजे बुद्धि की प्रकृति के बारे में बुनियादी सवाल उठाते हैं। बेंचमार्क दिखाता है कि याद करने के तरीके और सच्ची समझ में बुनियादी अंतर है।
यह तथ्य कि मनुष्य इन कार्यों को सहजता से हल कर लेते हैं जबकि AI प्रणालियाँ विफल हो जाती हैं, यह दर्शाता है कि मानव बुद्धि वर्तमान AI दृष्टिकोणों की तुलना में गुणात्मक रूप से भिन्न रूप से कार्य करती है। यह चॉलेट के इस तर्क का समर्थन करता है कि AGI के लिए केवल बड़े मॉडल और अधिक डेटा से कहीं अधिक की आवश्यकता होती है।
एआरसी-एजीआई एआई अनुसंधान को कैसे प्रभावित करता है?
इस बेंचमार्क ने पहले ही एआई अनुसंधान में पुनर्विचार को प्रेरित किया है। केवल स्केलिंग मॉडल पर ध्यान केंद्रित करने के बजाय, प्रमुख प्रयोगशालाएँ अब टेस्ट-टाइम कंप्यूट और अनुकूली प्रणालियों जैसे वैकल्पिक तरीकों की खोज कर रही हैं।
यह बदलाव निवेश में भी परिलक्षित होता है: कम्पनियां बड़े पैमाने पर प्रशिक्षण के बजाय अधिक कुशल तर्क और समस्या-समाधान के अनुसंधान में निवेश कर रही हैं।
ओपन सोर्स समुदाय क्या भूमिका निभाता है?
एआरसी प्राइज़ फ़ाउंडेशन एजीआई की प्रगति के लिए ओपन-सोर्स विकास के महत्व पर ज़ोर देता है। सभी प्रतियोगिता विजेताओं को अपने समाधान सार्वजनिक रूप से उपलब्ध कराने होंगे।
यह दर्शन इस विश्वास पर आधारित है कि एजीआई इतना महत्वपूर्ण है कि इसे केवल बंद प्रयोगशालाओं में विकसित नहीं किया जा सकता। फ़ाउंडेशन स्वयं को एक सहयोगी, पारदर्शी अनुसंधान समुदाय के उत्प्रेरक के रूप में देखता है।
एआरसी-एजीआई बेंचमार्क की सीमाएँ क्या हैं?
इसके महत्व के बावजूद, एआरसी-एजीआई की भी सीमाएँ हैं। चॉलेट स्वयं इस बात पर ज़ोर देते हैं कि इस परीक्षा में उत्तीर्ण होना एजीआई प्राप्त करने के बराबर नहीं है। यह मानक बुद्धिमत्ता के केवल एक पहलू को मापता है – अमूर्त समस्याओं को हल करने की क्षमता।
रचनात्मकता, भावनात्मक बुद्धिमत्ता, या दीर्घकालिक योजना जैसे अन्य महत्वपूर्ण पहलुओं को मापा नहीं जाता। इसके अलावा, यह भी जोखिम है कि ARC-AGI के लिए विशेष रूप से अनुकूलित प्रणालियाँ विकसित की जाएँगी जो सामान्य रूप से वास्तविक बुद्धिमत्ता के बिना भी परीक्षण में उत्तीर्ण हो जाएँगी।
एआरसी-एजीआई के संदर्भ में एआई मॉडल विकसित करने की लागत कैसी है?
लागत के रुझान दिलचस्प रुझान दिखा रहे हैं। हालाँकि प्रदर्शन में वृद्धि धीमी गति से हो रही है, लेकिन मामूली सुधारों की लागत आसमान छू रही है।
यह लागत गतिशीलता एक महत्वपूर्ण अंतर्दृष्टि की ओर ले जाती है: दक्षता ही मुख्य अंतरक बन रही है। एआरसी प्राइज़ फ़ाउंडेशन इस बात पर ज़ोर देता है कि न केवल सटीकता, बल्कि प्रति हल किए गए कार्य की लागत भी एक महत्वपूर्ण मानदंड है।
कार्य के भविष्य के लिए ARC-AGI का क्या अर्थ है?
ये नतीजे कई व्यवसायों के लिए आश्वस्त करने वाले हैं। बुनियादी तर्क संबंधी कार्यों को हल करने में एआई प्रणालियों की अक्षमता दर्शाती है कि मानव संज्ञानात्मक क्षमताओं को प्रतिस्थापित करना अभी दूर की बात है।
साथ ही, विशिष्ट कार्यों में प्रगति से पता चलता है कि एआई मानव कार्य को पूरी तरह से प्रतिस्थापित करने के बजाय, उसे समर्थन देने वाले उपकरण के रूप में काम करना जारी रखेगा।
एआरसी-एजीआई के माध्यम से कौन से नए शोध दृष्टिकोण उभर रहे हैं?
इस बेंचमार्क ने कई नवीन अनुसंधान दिशाओं को प्रेरित किया है:
कार्यक्रम संश्लेषण
ऐसी प्रणालियाँ जो समस्याओं को हल करने के लिए प्रोग्राम उत्पन्न करती हैं।
न्यूरोसिम्बोलिक दृष्टिकोण
प्रतीकात्मक तर्क के साथ तंत्रिका नेटवर्क का संयोजन।
बहु-एजेंट प्रणालियाँ
कई विशेषज्ञ एजेंट एक साथ काम करते हैं।
विकासवादी एल्गोरिदम
ऐसी प्रणालियाँ जो विकासवादी तरीके से समाधान विकसित करती हैं।
एआरसी पुरस्कार फाउंडेशन का भविष्य के लिए दृष्टिकोण क्या है?
फ़ाउंडेशन का एक स्पष्ट मिशन है: ओपन एजीआई के विकास के लिए एक "उत्तर सितारा" के रूप में कार्य करना। यह केवल तकनीकी मानक स्थापित करने के बारे में नहीं है, बल्कि एक ऐसा पारिस्थितिकी तंत्र बनाने के बारे में है जो नवाचार को बढ़ावा दे और यह सुनिश्चित करे कि एजीआई की प्रगति से पूरी मानवता को लाभ हो।
नए बेंचमार्क संस्करणों के निरंतर विकास का उद्देश्य यह सुनिश्चित करना है कि मानक लगातार ऊँचा होता रहे और अनुसंधान में कोई रुकावट न आए। ARC-AGI-3 और भविष्य के संस्करणों के साथ, फाउंडेशन का लक्ष्य यह पता लगाना है कि AI क्या कर सकता है और इसमें अभी क्या कमी है।
हम आपके लिए हैं – सलाह – योजना – कार्यान्वयन – परियोजना प्रबंधन
☑️ रणनीति, परामर्श, योजना और कार्यान्वयन में एसएमई का समर्थन
Ai एआई रणनीति का निर्माण या पुन: प्रवर्तन
☑️ पायनियर बिजनेस डेवलपमेंट
मुझे आपके निजी सलाहकार के रूप में सेवा करने में खुशी होगी।
आप नीचे दिए गए संपर्क फ़ॉर्म को भरकर मुझसे संपर्क कर सकते हैं या बस मुझे +49 89 89 674 804 (म्यूनिख) ।
मैं हमारी संयुक्त परियोजना की प्रतीक्षा कर रहा हूं।
Xpert.digital – कोनराड वोल्फेंस्टीन
एक्सपर्ट.डिजिटल डिजिटलाइजेशन, मैकेनिकल इंजीनियरिंग, लॉजिस्टिक्स/इंट्रालॉजिस्टिक्स और फोटोवोल्टिक्स पर फोकस के साथ उद्योग का केंद्र है।
अपने 360° व्यवसाय विकास समाधान के साथ, हम नए व्यवसाय से लेकर बिक्री के बाद तक प्रसिद्ध कंपनियों का समर्थन करते हैं।
मार्केट इंटेलिजेंस, स्मार्केटिंग, मार्केटिंग ऑटोमेशन, कंटेंट डेवलपमेंट, पीआर, मेल अभियान, वैयक्तिकृत सोशल मीडिया और लीड पोषण हमारे डिजिटल टूल का हिस्सा हैं।
आप और अधिक पा सकते हैं: www.xpert.digital – www.xpert.solar – www.xpert.plus