مواجهة الذكاء الاصطناعي على معيار ARC لنماذج الذكاء الاصطناعي: GPT-5 مقابل Grok مقابل o3
الإصدار المسبق لـ Xpert
اختيار اللغة 📢
نُشر في: ٨ أغسطس ٢٠٢٥ / حُدِّث في: ٨ أغسطس ٢٠٢٥ – بقلم: كونراد وولفنشتاين
مواجهة الذكاء الاصطناعي على معيار ARC لنماذج الذكاء الاصطناعي: GPT-5 مقابل Grok مقابل o3 – الصورة: Xpert.Digital
خيبة الأمل الكبرى: لماذا تفشل نماذج الذكاء الاصطناعي المتزايدة الحجم في اجتياز اختبار الذكاء الحاسم؟
ما هو معيار ARC-AGI ولماذا تم تطويره؟
معيار ARC-AGI هو سلسلة اختبارات لقياس الذكاء العام لأنظمة الذكاء الاصطناعي، طوّرها فرانسوا شوليت عام ٢٠١٩. ARC هو اختصار لعبارة "مجموعة الاستدلال والتجريد للذكاء الاصطناعي العام". صُمّم هذا المعيار لتقييم قدرة أنظمة الذكاء الاصطناعي على فهم وحل مهام جديدة لم تُدرّب عليها بشكل صريح.
يستند تطوير هذا المعيار إلى تعريف شوليت للذكاء في ورقته البحثية الرائدة "حول مقياس الذكاء". ويجادل شوليت بأن الذكاء الحقيقي لا يكمن في إتقان مهام محددة، بل في كفاءة اكتساب مهارات جديدة. يتكون الاختبار من ألغاز بصرية ذات شبكات ملونة، حيث يتعين على أنظمة الذكاء الاصطناعي التعرف على قواعد التحويل الأساسية وتطبيقها على أمثلة جديدة.
كيف يختلف ARC-AGI عن معايير الذكاء الاصطناعي الأخرى؟
بخلاف اختبارات الذكاء الاصطناعي التقليدية، التي غالبًا ما تعتمد على المعرفة المسبقة أو الأنماط المحفوظة، يُركز اختبار ARC-AGI على ما يُسمى "المعارف الأساسية المسبقة" – مهارات معرفية أساسية مثل ثبات الأشياء، والعد، والفهم المكاني. تُكتسب هذه المهارات عادةً في سن الرابعة.
الفرق الرئيسي هو أن ARC-AGI مصمم خصيصًا ليكون قابلًا للحل من خلال الحفظ البحت أو استيفاء البيانات. كل مهمة في المعيار فريدة من نوعها، وقد طُوّرت خصيصًا للاختبار، لذا لا ينبغي وجود أمثلة لها على الإنترنت. هذا يجعل الاختبار مقاومًا للاستراتيجيات المعتادة لأنظمة الذكاء الاصطناعي القائمة على كميات هائلة من بيانات التدريب.
ما هي الإصدارات المختلفة لمعيار ARC-AGI؟
هناك الآن ثلاثة إصدارات رئيسية للمعيار:
ARC-AGI-1
النسخة الأصلية لعام 2019، والتي تتكون من ألغاز بصرية ثابتة، حققت نسبة نجاح بشرية تبلغ 95% في المتوسط، في حين أن معظم أنظمة الذكاء الاصطناعي كانت منذ فترة طويلة أقل من 5%.
ARC-AGI-2
هذه النسخة المُحسّنة، التي ستُطرح عام ٢٠٢٥، مُصممة خصيصًا لتحدي حتى أنظمة التفكير الحديثة. فبينما يواصل البشر تحقيق أداء يقارب ١٠٠٪، لا تستطيع حتى نماذج الذكاء الاصطناعي المتقدمة إدارة سوى ١٠-٢٠٪ من المهام.
ARC-AGI-3
الإصدار الأحدث، وهو لا يزال قيد التطوير، يُقدّم عناصر تفاعلية. فبدلاً من الألغاز الثابتة، يجب على وكلاء الذكاء الاصطناعي التعلّم من خلال الاستكشاف والتجربة والخطأ في عالم شبكي، على غرار طريقة البشر في استكشاف البيئات الجديدة.
كيف تعمل نماذج الذكاء الاصطناعي المختلفة في اختبارات ARC-AGI؟
إن الاختلافات في الأداء بين نماذج الذكاء الاصطناعي المختلفة كبيرة:
في ARC-AGI-1، يُحقق Grok 4 نسبة نجاح تبلغ حوالي 68%، بينما يُحقق GPT-5 نسبة نجاح تبلغ 65.7%. تبلغ تكلفة المهمة الواحدة حوالي دولار واحد في Grok 4 و0.51 دولار في GPT-5.
في اختبار ARC-AGI-2 الأكثر صعوبة، ينخفض الأداء بشكل كبير: يحقق GPT-5 فقط 9.9% بتكلفة 0.73 دولار لكل مهمة، بينما يحقق Grok 4 (التفكير) أداءً أفضل بنحو 16%، وإن كان بتكلفة أعلى بكثير تتراوح بين 2 و4 دولارات.
كما هو متوقع، أظهرت المتغيرات النموذجية الأرخص أداءً أضعف: حيث حقق GPT-5 Mini نسبة 54.3% على AGI-1 و4.4% على AGI-2، بينما حقق GPT-5 Nano نسبة 16.5% و2.5% فقط على التوالي.
ما هو سر نموذج المعاينة o3؟
يُمثل نموذج معاينة o3 من OpenAI حالةً خاصة. في ديسمبر 2024، حقق النموذج نسبةً رائعةً تتراوح بين 75.7% و87.5% في ARC-AGI-1، وذلك حسب قوة الحوسبة المستخدمة. وكانت هذه أول مرة يتجاوز فيها نظام ذكاء اصطناعي عتبة الأداء البشري البالغة 85%.
مع ذلك، هناك قيد مهم: أداء النسخة المتاحة للجمهور من o3 أسوأ بكثير من النسخة التجريبية الأصلية. وفقًا لجائزة ARC، لا تحقق النسخة المنشورة من o3 سوى 41% (حساب منخفض) و53% (حساب متوسط) على ARC-AGI-1، مقارنةً بنسبة 76-88% للنسخة التجريبية.
أكدت OpenAI أن النموذج المنشور يتميز ببنية مختلفة وأصغر حجمًا، وأنه مُحسّن لتطبيقات الدردشة والمنتجات. يثير هذا التناقض تساؤلات حول قدراته الفعلية، ويُبرز أهمية التدقيق الدقيق في نتائج المعايير من النماذج غير المنشورة.
كيف تعمل مسابقة جائزة ARC؟
جائزة ARC هي مسابقة سنوية بمجموع جوائز يزيد عن مليون دولار أمريكي، تهدف إلى تعزيز التقدم في مجال البرمجيات مفتوحة المصدر نحو الذكاء الاصطناعي العام. تُقام المسابقة الحالية لعام ٢٠٢٥ من ٢٦ مارس إلى ٣ نوفمبر على منصة Kaggle.
يتضمن هيكل التسعير ما يلي:
- الجائزة الكبرى (700,000 دولار أمريكي): تُفتح عندما يحقق الفريق دقة بنسبة 85% في مجموعة بيانات التقييم الخاصة
- جائزة أعلى نتيجة (75000 دولار أمريكي): للفرق الحاصلة على أعلى الدرجات
- جائزة الورقة البحثية (50,000 دولار أمريكي): لأفضل التطورات المفاهيمية
- جوائز إضافية (175,000 دولار أمريكي): سيتم الإعلان عن فئات إضافية
الأهم من ذلك، يجب على جميع الفائزين نشر حلولهم بصيغة مفتوحة المصدر. يتماشى هذا مع مهمة مؤسسة جائزة ARC في جعل تطورات الذكاء الاصطناعي العام متاحةً لجميع مجتمع البحث العلمي.
ما هي التحديات الفنية لمعيار ARC-AGI؟
تتطلب المهام في ARC-AGI العديد من المهارات المعرفية التي تعتبر طبيعية بالنسبة للبشر ولكنها صعبة للغاية بالنسبة لأنظمة الذكاء الاصطناعي:
تفسير الرموز
يجب على الذكاء الاصطناعي أن يفهم الرموز المجردة ويستخلص معناها من السياق.
التفكير التكويني متعدد المستويات
ينبغي تقسيم المشاكل إلى خطوات فرعية وحلها بالتتابع.
تطبيق القاعدة المعتمدة على السياق
قد يكون من الضروري تطبيق نفس القاعدة بشكل مختلف اعتمادًا على السياق.
التعميم من بعض الأمثلة
عادةً، يتوفر فقط 2-3 أزواج توضيحية يجب استخلاص قاعدة التحويل منها.
ما هو الدور الذي يلعبه تدريب وقت الاختبار في حل ARC-AGI؟
أثبت التدريب على وقت الاختبار (TTT) أنه نهج واعد لتحسين الأداء في ARC-AGI. تُكيّف هذه الطريقة معلمات النموذج ديناميكيًا مع بيانات الإدخال الحالية أثناء الاستدلال، بدلًا من الاعتماد كليًا على المعرفة المُدرَّبة مسبقًا.
أثبت باحثو معهد ماساتشوستس للتكنولوجيا (MIT) أن تقنية TTT تُحسّن أداء نماذج اللغة على ARC-AGI بشكل ملحوظ. تُمكّن هذه الطريقة النماذج من التكيف أثناء حل المهام والتعلم من أمثلة محددة. يُحاكي هذا السلوك البشري في حل المشكلات، حيث نقضي وقتًا أطول في حل المشكلات الصعبة.
أمن البيانات في الاتحاد الأوروبي/ألمانيا | دمج منصة الذكاء الاصطناعي المستقلة وعبر مصادر البيانات لجميع احتياجات الأعمال
Ki-Gamechanger: منصة الذكاء الاصطناعى الأكثر مرونة – الحلول المصممة خصيصًا تقلل التكاليف ، وتحسن قراراتها وزيادة الكفاءة
منصة الذكاء الاصطناعى المستقلة: يدمج جميع مصادر بيانات الشركة ذات الصلة
- تكامل FAST AI: حلول الذكاء الاصطناعى المصممة خصيصًا للشركات في ساعات أو أيام بدلاً من أشهر
- البنية التحتية المرنة: قائمة على السحابة أو الاستضافة في مركز البيانات الخاص بك (ألمانيا ، أوروبا ، اختيار مجاني للموقع)
- أعلى أمن البيانات: الاستخدام في شركات المحاماة هو الدليل الآمن
- استخدم عبر مجموعة واسعة من مصادر بيانات الشركة
- اختيار نماذج الذكاء الاصطناعي الخاصة بك أو مختلف (DE ، الاتحاد الأوروبي ، الولايات المتحدة الأمريكية ، CN)
المزيد عنها هنا:
الذكاء الاصطناعي يتجاوز النطاق: رؤى من اختبار ARC-AGI
ماذا تعني النتائج بالنسبة لتطوير الذكاء الاصطناعي العام؟
تكشف النتائج عن فجوة واضحة بين الذكاء البشري والاصطناعي. فبينما يحلّ البشر مهام ARC-AGI بشكل حدسي، تفشل حتى أنظمة الذكاء الاصطناعي المتطورة في أداء مهام التفكير المنطقي الأساسية.
يجادل فرانسوا شوليت بأن النموذج الحالي لتطوير الذكاء الاصطناعي – تدريب نماذج أكبر حجمًا باستخدام بيانات أكبر – قد بلغ حدوده القصوى. وتُثبت النتائج الضعيفة لبرنامج ARC-AGI، على الرغم من الزيادة الهائلة في حجم النموذج، أن "الذكاء المرن لا ينشأ من التدريب المسبق الموسع".
قد يكمن المستقبل في أساليب جديدة مثل التكيف مع وقت الاختبار، حيث يمكن للنماذج تغيير حالاتها الخاصة في وقت التشغيل للتكيف مع المواقف الجديدة.
كيف يبدو مستقبل معيار ARC-AGI؟
تخطط مؤسسة جائزة ARC لتطوير هذا المعيار باستمرار. ومن المقرر إطلاق ARC-AGI-3، بعناصره التفاعلية، بالكامل في عام ٢٠٢٦، وسيتضمن حوالي ١٠٠ بيئة فريدة.
تهدف المؤسسة إلى وضع معايير تُمثّل "نجمًا شماليًا" لتطوير الذكاء الاصطناعي العام. ولا يقتصر هذا على قياس التقدم فحسب، بل يهدف أيضًا إلى توجيه البحث في اتجاهات قد تُفضي إلى ذكاء عام حقيقي.
ما هي الآثار الاقتصادية لأداء المعايير المرجعية؟
تختلف تكلفة حل مهام ARC-AGI بشكل كبير بين النماذج ولها تأثير مباشر على التطبيق العملي.
في حين يُمكن حل المهام البسيطة بتكاليف واجهة برمجة تطبيقات (API) في حدود السنتات، فإن تكاليف مهام التفكير المعقدة ترتفع بسرعة. على سبيل المثال، قد تصل تكلفة نموذج o3 إلى 1000 دولار أمريكي لكل مهمة عند قوة حوسبة عالية.
يوضح هيكل التكلفة هذا أنه حتى لو تم تحقيق اختراقات تقنية، فإن الجدوى الاقتصادية تظل عاملاً حاسماً في اعتماد تقنيات الذكاء الاصطناعي العام على نطاق واسع.
ما هي الآثار الفلسفية لنتائج ARC-AGI؟
تُثير النتائج تساؤلات جوهرية حول طبيعة الذكاء. ويُظهر المعيار وجود فرق جوهري بين حفظ الأنماط والفهم الحقيقي.
إن قدرة البشر على حل هذه المهام بسهولة، بينما تفشل أنظمة الذكاء الاصطناعي، تشير إلى أن الذكاء البشري يعمل بشكل مختلف نوعيًا عن مناهج الذكاء الاصطناعي الحالية. وهذا يدعم حجة شوليت القائلة بأن الذكاء الاصطناعي العام يتطلب أكثر من مجرد نماذج أكبر وبيانات أكثر.
كيف يؤثر ARC-AGI على أبحاث الذكاء الاصطناعي؟
لقد أدى هذا المعيار بالفعل إلى إعادة النظر في أبحاث الذكاء الاصطناعي. فبدلاً من التركيز حصريًا على نماذج التوسع، تستكشف المختبرات الرائدة الآن مناهج بديلة مثل الحوسبة في وقت الاختبار والأنظمة التكيفية.
وينعكس هذا التحول أيضاً في الاستثمارات: إذ تستثمر الشركات بشكل متزايد في الأبحاث المتعلقة بالتفكير وحل المشكلات بشكل أكثر كفاءة بدلاً من الاستثمار في عمليات التدريب الأوسع نطاقاً على نحو متزايد.
ما هو الدور الذي يلعبه مجتمع المصدر المفتوح؟
تُشدد مؤسسة جائزة ARC على أهمية تطوير البرمجيات مفتوحة المصدر في تطوير الذكاء الاصطناعي العام. ويُطلب من جميع الفائزين بالمسابقة إتاحة حلولهم للجمهور.
ترتكز هذه الفلسفة على قناعة راسخة بأن الذكاء الاصطناعي العام بالغ الأهمية، ولا يمكن تطويره في مختبرات مغلقة فحسب. وترى المؤسسة نفسها محفزًا لمجتمع بحثي تعاوني وشفاف.
ما هي حدود معيار ARC-AGI؟
على الرغم من أهميته، فإنّ اختبار ARC-AGI له حدود. يُشدّد شوليت نفسه على أنّ اجتياز الاختبار لا يعني بالضرورة تحقيق الذكاء الاصطناعي العام. يقيس هذا المعيار جانبًا واحدًا فقط من الذكاء – القدرة على حل المشكلات المجردة.
لا تُقاس جوانب مهمة أخرى، مثل الإبداع والذكاء العاطفي والتخطيط طويل المدى. علاوة على ذلك، هناك خطر تطوير أنظمة مُحسّنة خصيصًا للذكاء الاصطناعي العام المُحسّن (ARC-AGI) تجتاز الاختبار دون أن تكون ذكية حقًا بشكل عام.
كيف تتطور تكاليف نماذج الذكاء الاصطناعي في سياق ARC-AGI؟
تُظهر اتجاهات التكلفة اتجاهاتٍ مثيرةً للاهتمام. فبينما يزداد الأداء ببطء، ترتفع تكاليف التحسينات الهامشية ارتفاعًا هائلًا.
تؤدي هذه الديناميكية في التكلفة إلى فهمٍ مهم: أصبحت الكفاءة هي العامل المميز الرئيسي. تُشدد مؤسسة جائزة ARC على أن الدقة، بالإضافة إلى تكلفة كل مهمة مُنجزة، تُمثل معيارًا مهمًا.
ماذا يعني ARC-AGI لمستقبل العمل؟
للنتائج آثارٌ مُطمئنة على العديد من المهن. فعجز أنظمة الذكاء الاصطناعي عن حلِّ مهام التفكير الأساسية يُظهر أن القدرات المعرفية البشرية لا تزال بعيدةً عن الاستبدال.
وفي الوقت نفسه، يشير التقدم في المهام المتخصصة إلى أن الذكاء الاصطناعي سيستمر في العمل كأداة لدعم العمل البشري بدلاً من استبداله بالكامل.
ما هي مناهج البحث الجديدة الناشئة من خلال ARC-AGI؟
لقد ألهم هذا المعيار العديد من الاتجاهات البحثية المبتكرة:
توليف البرنامج
الأنظمة التي تولد برامج لحل المشاكل.
النهج العصبي الرمزي
الجمع بين الشبكات العصبية مع التفكير الرمزي.
أنظمة متعددة الوكلاء
يعمل العديد من الوكلاء المتخصصين معًا.
الخوارزميات التطورية
أنظمة تطور الحلول بطريقة تطورية.
ما هي رؤية مؤسسة جائزة ARC للمستقبل؟
للمؤسسة مهمة واضحة: أن تكون بمثابة "نجم الشمال" لتطوير الذكاء الاصطناعي العام المفتوح. ولا يقتصر الأمر على وضع معايير تقنية فحسب، بل يشمل أيضًا إنشاء منظومة تُعزز الابتكار مع ضمان أن يُفيد تطور الذكاء الاصطناعي العام البشرية جمعاء.
يهدف التطوير المستمر لإصدارات معيارية جديدة إلى ضمان رفع مستوى البحث باستمرار وعدم ركوده. مع ARC-AGI-3 والإصدارات المستقبلية، تهدف المؤسسة إلى استكشاف حدود قدرات الذكاء الاصطناعي وما ينقصه.
نحن هناك من أجلك – نصيحة – التخطيط – التنفيذ – إدارة المشروع
☑️ دعم الشركات الصغيرة والمتوسطة في الإستراتيجية والاستشارات والتخطيط والتنفيذ
☑ إنشاء أو إعادة تنظيم استراتيجية الذكاء الاصطناعي
☑️ رائدة في تطوير الأعمال
سأكون سعيدًا بالعمل كمستشار شخصي لك.
يمكنك الاتصال بي عن طريق ملء نموذج الاتصال أدناه أو ببساطة اتصل بي على +49 89 89 674 804 (ميونخ) .
إنني أتطلع إلى مشروعنا المشترك.
Xpert.Digital – Konrad Wolfenstein
تعد Xpert.Digital مركزًا للصناعة مع التركيز على الرقمنة والهندسة الميكانيكية والخدمات اللوجستية/اللوجستية الداخلية والخلايا الكهروضوئية.
من خلال حل تطوير الأعمال الشامل الذي نقدمه، فإننا ندعم الشركات المعروفة بدءًا من الأعمال الجديدة وحتى خدمات ما بعد البيع.
تعد معلومات السوق والتسويق وأتمتة التسويق وتطوير المحتوى والعلاقات العامة والحملات البريدية ووسائل التواصل الاجتماعي المخصصة ورعاية العملاء المحتملين جزءًا من أدواتنا الرقمية.
يمكنك العثور على المزيد على: www.xpert.digital – www.xpert.solar – www.xpert.plus