أيقونة الموقع الإلكتروني إكسبرت ديجيتال

مواجهة الذكاء الاصطناعي على معيار ARC لنماذج الذكاء الاصطناعي: GPT-5 ضد Grok ضد o3

مواجهة الذكاء الاصطناعي على معيار ARC لنماذج الذكاء الاصطناعي: GPT-5 ضد Grok ضد o3

مواجهة بين نماذج الذكاء الاصطناعي على معيار ARC: GPT-5 ضد Grok ضد o3 – الصورة: Xpert.Digital

خيبة الأمل الكبرى: لماذا تفشل نماذج الذكاء الاصطناعي المتزايدة الحجم في اختبار الذكاء الحاسم؟

ما هو معيار ARC-AGI ولماذا تم تطويره؟

يُعدّ معيار ARC-AGI سلسلة اختبارات لقياس الذكاء العام لأنظمة الذكاء الاصطناعي، وقد طُوّر عام 2019 على يد فرانسوا شوليه. يرمز ARC إلى "مجموعة بيانات التجريد والاستدلال للذكاء الاصطناعي العام". صُمّم هذا المعيار لتقييم قدرة أنظمة الذكاء الاصطناعي على فهم وحلّ مهام جديدة لم تُدرّب عليها بشكل صريح.

يستند تطوير هذا المعيار إلى تعريف شوليه للذكاء الوارد في بحثه الرائد "حول قياس الذكاء". ويجادل شوليه بأن الذكاء الحقيقي لا يكمن في إتقان مهام محددة، بل في كفاءة اكتساب مهارات جديدة. يتألف الاختبار من ألغاز بصرية ذات شبكات ملونة، حيث يتعين على أنظمة الذكاء الاصطناعي تحديد قواعد التحويل الأساسية وتطبيقها على أمثلة جديدة.

كيف يختلف ARC-AGI عن معايير الذكاء الاصطناعي الأخرى؟

بخلاف اختبارات الذكاء الاصطناعي التقليدية، التي تعتمد غالباً على المعرفة المسبقة أو الأنماط المحفوظة، يركز نظام ARC-AGI على ما يُسمى "المعرفة الأساسية المسبقة" - وهي مهارات معرفية أساسية مثل ثبات الكائن، والعد، والاستدلال المكاني. ويكتسب البشر هذه المهارات عادةً في سن الرابعة تقريباً.

يكمن الاختلاف الجوهري في أن نظام ARC-AGI مصمم خصيصًا ليكون غير قابل للحل بمجرد الحفظ أو استيفاء البيانات. كل مهمة في الاختبار المعياري فريدة من نوعها، وقد طُوّرت خصيصًا لهذا الغرض، لذا لا توجد أمثلة لها على الإنترنت. هذا ما يجعل الاختبار مقاومًا للاستراتيجيات التقليدية لأنظمة الذكاء الاصطناعي التي تعتمد على مجموعات بيانات تدريبية ضخمة.

ما هي الإصدارات المختلفة لمعيار ARC-AGI؟

يوجد الآن ثلاثة إصدارات رئيسية من المعيار:

ARC-AGI-1

تتألف النسخة الأصلية لعام 2019 من ألغاز بصرية ثابتة. يحقق البشر متوسط ​​نقاط يبلغ 95% في هذه اللعبة، بينما سجلت معظم أنظمة الذكاء الاصطناعي منذ فترة طويلة أقل من 5%.

ARC-AGI-2

صدرت هذه النسخة المحسّنة عام 2025، وهي مصممة خصيصاً لتشكّل تحدياً حتى لأنظمة الاستدلال الحديثة. فبينما يواصل البشر تحقيق نجاح يقارب 100%، لا تتمكن حتى نماذج الذكاء الاصطناعي المتقدمة من إنجاز سوى 10-20% من المهام.

ARC-AGI-3

يُقدّم الإصدار الأخير، الذي لا يزال قيد التطوير، عناصر تفاعلية. فبدلاً من الألغاز الثابتة، يجب على وكلاء الذكاء الاصطناعي التعلّم من خلال الاستكشاف والتجربة والخطأ في عالم شبكي، تماماً كما يستكشف البشر بيئات جديدة.

كيف تؤدي نماذج الذكاء الاصطناعي المختلفة في اختبارات ARC-AGI؟

تُعدّ اختلافات الأداء بين نماذج الذكاء الاصطناعي المختلفة كبيرة:

بالنسبة لنموذج ARC-AGI-1، حقق Grok 4 نسبة نجاح تقارب 68%، بينما وصل GPT-5 إلى 65.7%. وتبلغ تكلفة المهمة الواحدة حوالي دولار أمريكي واحد لـ Grok 4 و0.51 دولار أمريكي لـ GPT-5.

في اختبار ARC-AGI-2 الأكثر صعوبة، ينخفض ​​الأداء بشكل كبير: يحقق GPT-5 نسبة 9.9% فقط بتكلفة 0.73 دولار لكل مهمة، بينما يحقق Grok 4 (Thinking) أداءً أفضل بنسبة 16% تقريبًا، ولكن بتكلفة أعلى بكثير تتراوح بين 2 و4 دولارات.

وكما هو متوقع، أظهرت نماذج الطراز الأرخص أداءً أضعف: حقق GPT-5 Mini نسبة 54.3% على AGI-1 و4.4% على AGI-2، بينما وصل GPT-5 Nano إلى 16.5% و2.5% على التوالي.

ما هو السر وراء نموذج العرض التجريبي o3؟

يمثل نموذج o3 التجريبي من OpenAI حالةً استثنائية. ففي ديسمبر 2024، حقق أداءً مذهلاً تراوح بين 75.7% و87.5% على مقياس ARC-AGI-1، وذلك تبعًا لقوة الحوسبة المستخدمة. وكانت هذه المرة الأولى التي يتجاوز فيها نظام ذكاء اصطناعي الحد الأقصى للأداء البشري البالغ 85%.

مع ذلك، ثمة قيدٌ هام: فالنسخة المتاحة للعموم من o3 تُقدّم أداءً أسوأ بكثير من النسخة التجريبية الأصلية. فبحسب جائزة ARC، لا تتجاوز نسبة أداء o3 المُتاحة 41% (في حالة الحسابات المنخفضة) و53% (في حالة الحسابات المتوسطة) على جهاز ARC-AGI-1، مقارنةً بنسبة 76-88% التي حققتها النسخة التجريبية.

أكدت OpenAI أن النموذج المنشور يتميز ببنية مختلفة وأصغر حجماً، وهو مُحسَّن لتطبيقات الدردشة والمنتجات. هذا التباين يثير تساؤلات حول قدراته الفعلية، ويُبرز أهمية التقييم النقدي لنتائج الاختبارات المعيارية للنماذج غير المنشورة.

كيف تعمل مسابقة جائزة ARC؟

جائزة ARC هي مسابقة سنوية تبلغ قيمة جوائزها الإجمالية أكثر من مليون دولار أمريكي، وتهدف إلى تشجيع التقدم في مجال البرمجيات مفتوحة المصدر نحو تطوير بنية عامة نشطة (AGI). تُقام مسابقة عام 2025 الحالية في الفترة من 26 مارس إلى 3 نوفمبر على منصة Kaggle.

يشمل هيكل التسعير ما يلي:

  • الجائزة الكبرى (700,000 دولار أمريكي): يتم فتحها عندما يحقق الفريق دقة بنسبة 85٪ على مجموعة بيانات التقييم الخاصة
  • جائزة أعلى نتيجة (75,000 دولار أمريكي): تُمنح للفرق الحاصلة على أعلى الدرجات
  • جائزة البحث (50,000 دولار أمريكي): تُمنح لأهم التطورات المفاهيمية
  • جوائز أخرى (175,000 دولار أمريكي): سيتم الإعلان عن فئات إضافية لاحقًا

من المهم أن ينشر جميع الفائزين حلولهم كمصدر مفتوح. ويتماشى هذا مع مهمة مؤسسة جائزة ARC المتمثلة في إتاحة إنجازات الذكاء الاصطناعي العام لجميع أفراد مجتمع البحث العلمي.

ما هي التحديات التقنية لمعيار ARC-AGI؟

تتطلب المهام في ARC-AGI العديد من القدرات المعرفية التي تبدو بديهية للبشر ولكنها صعبة للغاية بالنسبة لأنظمة الذكاء الاصطناعي:

تفسير الرموز

يجب على الذكاء الاصطناعي أن يفهم الرموز المجردة وأن يستمد معناها من السياق.

التفكير التركيبي متعدد المراحل

يجب تقسيم المشاكل إلى خطوات فرعية وحلها بالتسلسل.

تطبيق القواعد المعتمدة على السياق

قد يلزم تطبيق القاعدة نفسها بشكل مختلف حسب السياق.

التعميم من خلال بعض الأمثلة

عادةً، لا يتوفر سوى 2-3 أزواج توضيحية يجب اشتقاق قاعدة التحويل منها.

ما هو دور التدريب أثناء الاختبار في حل مشكلة الذكاء الاصطناعي العام (ARC-AGI)؟

أثبت التدريب أثناء الاختبار (TTT) أنه نهج واعد لتحسين أداء ARC-AGI. تقوم هذه الطريقة بتعديل معلمات النموذج ديناميكيًا وفقًا لبيانات الإدخال الحالية أثناء الاستدلال، بدلاً من الاعتماد فقط على المعرفة المدربة مسبقًا.

أظهر باحثون من معهد ماساتشوستس للتكنولوجيا أن تقنية TTT تُحسّن بشكل ملحوظ أداء نماذج اللغة على منصة ARC-AGI. تسمح هذه التقنية للنماذج بالتكيف أثناء حل المهام والتعلم من أمثلة محددة، مما يُحاكي سلوك الإنسان في حل المشكلات، حيث نقضي وقتًا أطول في حل المشكلات المعقدة.

 

أمن البيانات في الاتحاد الأوروبي/ألمانيا | دمج منصة ذكاء اصطناعي مستقلة ومتعددة مصادر البيانات لتلبية جميع احتياجات الأعمال

منصات الذكاء الاصطناعي المستقلة كبديل استراتيجي للشركات الأوروبية - الصورة: Xpert.Digital

تقنية الذكاء الاصطناعي الرائدة: منصة الذكاء الاصطناعي الأكثر مرونة - حلول مصممة خصيصًا لتقليل التكاليف وتحسين القرارات وزيادة الكفاءة

منصة ذكاء اصطناعي مستقلة: تدمج جميع مصادر بيانات الشركة ذات الصلة

  • التكامل السريع للذكاء الاصطناعي: حلول ذكاء اصطناعي مصممة خصيصًا للشركات في غضون ساعات أو أيام، بدلاً من شهور
  • بنية تحتية مرنة: قائمة على السحابة أو الاستضافة في مركز البيانات الخاص بك (ألمانيا، أوروبا، حرية اختيار الموقع)
  • أقصى درجات أمان البيانات: استخدامها في مكاتب المحاماة دليل قاطع على ذلك
  • النشر عبر مجموعة واسعة من مصادر بيانات المؤسسة
  • اختيار نماذج الذكاء الاصطناعي الخاصة أو نماذج مختلفة (ألمانيا، الاتحاد الأوروبي، الولايات المتحدة الأمريكية، الصين)

للمزيد من المعلومات، انقر هنا:

 

الذكاء الاصطناعي يتجاوز التوسع: رؤى من اختبار ARC-AGI

ماذا تعني هذه النتائج بالنسبة لتطوير الذكاء الاصطناعي العام؟

تكشف النتائج عن فجوة كبيرة بين الذكاء البشري والذكاء الاصطناعي. فبينما يحل البشر مهام الذكاء الاصطناعي العام (ARC-AGI) بشكل بديهي، حتى أكثر أنظمة الذكاء الاصطناعي تطوراً تفشل في المهام المعرفية الأساسية.

يرى فرانسوا شوليه أن النموذج الحالي لتطوير الذكاء الاصطناعي - تدريب نماذج أكبر فأكبر باستخدام بيانات أكثر - قد بلغ حدوده القصوى. فالنتائج الضعيفة التي حققها نموذج ARC-AGI، على الرغم من الزيادة الهائلة في حجم النموذج، تثبت، من وجهة نظره، أن "الذكاء السائل لا ينشأ من توسيع نطاق التدريب المسبق".

قد يكمن المستقبل في مناهج جديدة مثل التكيف أثناء الاختبار، حيث يمكن للنماذج تغيير حالاتها الخاصة في وقت التشغيل للتكيف مع المواقف الجديدة.

كيف يبدو مستقبل معيار ARC-AGI؟

تعتزم مؤسسة جائزة ARC مواصلة تطوير المعيار. ومن المقرر إطلاق ARC-AGI-3، بعناصره التفاعلية، بشكل كامل في عام 2026، وسيضم حوالي 100 بيئة فريدة.

تهدف المؤسسة إلى وضع معايير مرجعية تُشكل بمثابة "نجمة هادية" لتطوير الذكاء الاصطناعي العام. ولا يقتصر ذلك على قياس التقدم فحسب، بل يشمل أيضاً توجيه البحوث نحو مسارات قد تُفضي إلى ذكاء عام حقيقي.

ما هي الآثار الاقتصادية لأداء المؤشر المرجعي؟

تختلف تكلفة حل مشاكل ARC-AGI اختلافًا كبيرًا بين النماذج ولها تأثير مباشر على التطبيق العملي.

بينما يمكن حلّ المهام البسيطة بتكاليف واجهة برمجة التطبيقات (API) التي تتراوح في حدود السنتات، ترتفع تكاليف مهام الاستدلال المعقدة بسرعة. فعلى سبيل المثال، قد تصل تكلفة نموذج o3 إلى 1000 دولار أمريكي لكل مهمة مع قدرة حاسوبية عالية.

يوضح هيكل التكلفة هذا أنه حتى في حالة تحقيق اختراقات تقنية، تظل الجدوى الاقتصادية عاملاً حاسماً للتطبيق الواسع النطاق لتقنيات الذكاء الاصطناعي العام.

ما هي الآثار الفلسفية لنتائج مشروع ARC-AGI؟

تثير النتائج تساؤلات جوهرية حول طبيعة الذكاء. ويُظهر المعيار وجود فرق جوهري بين حفظ الأنماط والفهم الحقيقي.

إن قدرة البشر على حل هذه المهام بسهولة، بينما تفشل أنظمة الذكاء الاصطناعي، تشير إلى أن الذكاء البشري يعمل بشكل مختلف نوعياً عن مناهج الذكاء الاصطناعي الحالية. وهذا يدعم حجة شوليه بأن الذكاء الاصطناعي العام يتطلب أكثر من مجرد نماذج أكبر وبيانات أكثر.

كيف يؤثر مشروع ARC-AGI على اتجاه أبحاث الذكاء الاصطناعي؟

وقد أدى هذا المعيار بالفعل إلى إعادة النظر في أبحاث الذكاء الاصطناعي. فبدلاً من التركيز فقط على توسيع نطاق النماذج، تستكشف المختبرات الرائدة الآن مناهج بديلة مثل الحوسبة أثناء الاختبار والأنظمة التكيفية.

وينعكس هذا التحول أيضاً في الاستثمارات: حيث تستثمر الشركات بشكل متزايد في الأبحاث المتعلقة بالاستدلال وحل المشكلات بشكل أكثر كفاءة بدلاً من عمليات التدريب الأكبر حجماً.

ما هو الدور الذي يلعبه مجتمع المصادر المفتوحة؟

تؤكد مؤسسة جائزة ARC على أهمية تطوير البرمجيات مفتوحة المصدر لتقدم الذكاء الاصطناعي العام. يجب على جميع الفائزين في المسابقة إتاحة حلولهم للجمهور.

تستند هذه الفلسفة إلى قناعة راسخة بأن الذكاء الاصطناعي العام بالغ الأهمية بحيث لا يمكن تطويره في مختبرات مغلقة فحسب. وتعتبر المؤسسة نفسها محفزاً لمجتمع بحثي تعاوني وشفاف.

ما هي قيود معيار ARC-AGI؟

على الرغم من أهميته، فإنّ اختبار ARC-AGI له حدوده. ويؤكد شوليه نفسه أن اجتياز الاختبار لا يعني بالضرورة تحقيق الذكاء الاصطناعي العام. فالمعيار يقيس جانبًا واحدًا فقط من الذكاء، ألا وهو القدرة على حلّ المشكلات المجردة.

لا يتم تقييم جوانب أخرى مهمة مثل الإبداع والذكاء العاطفي والتخطيط طويل الأجل. علاوة على ذلك، ثمة خطر يتمثل في تطوير أنظمة مُحسَّنة خصيصًا للذكاء الاصطناعي العام المُعزز (ARC-AGI) تجتاز الاختبار دون أن تكون ذكية بشكل عام.

كيف تتطور تكاليف نماذج الذكاء الاصطناعي في سياق ARC-AGI؟

يكشف تطور التكاليف عن اتجاهات مثيرة للاهتمام. فبينما يتحسن الأداء ببطء، تتزايد تكاليف التحسينات الطفيفة بشكل كبير.

تُفضي هذه الديناميكية في التكلفة إلى رؤية بالغة الأهمية: الكفاءة باتت العامل الحاسم في التمييز. وتؤكد مؤسسة جائزة ARC أن الدقة، إلى جانب تكلفة حل المسألة الواحدة، تُعدّ معيارًا بالغ الأهمية.

ماذا يعني مشروع ARC-AGI لمستقبل العمل؟

تُشير النتائج إلى دلالات مطمئنة للعديد من المهن. فعجز أنظمة الذكاء الاصطناعي عن حلّ مهام التفكير الأساسية يُظهر أن القدرات المعرفية البشرية لا تزال بعيدة عن الاستبدال.

وفي الوقت نفسه، يشير التقدم المحرز في المهام المتخصصة إلى أن الذكاء الاصطناعي سيستمر في العمل كأداة لدعم العمل البشري، بدلاً من استبداله تمامًا.

ما هي مناهج البحث الجديدة التي انبثقت من مشروع ARC-AGI؟

وقد ألهم هذا المعيار العديد من التوجهات البحثية المبتكرة:

توليف البرامج

أنظمة تقوم بإنشاء برامج لحل المشكلات.

الأساليب العصبية الرمزية

دمج الشبكات العصبية مع الاستدلال الرمزي.

أنظمة متعددة الوكلاء

يعمل العديد من الوكلاء المتخصصين معاً.

الخوارزميات التطورية

أنظمة تطور الحلول من خلال التطور.

ما هي رؤية مؤسسة جائزة ARC للمستقبل؟

تسعى المؤسسة إلى تحقيق مهمة واضحة: أن تكون بمثابة "نجمة هادية" لتطوير الذكاء الاصطناعي العام المفتوح. ولا يقتصر ذلك على المعايير التقنية فحسب، بل يشمل أيضاً إنشاء بيئة حاضنة تشجع الابتكار مع ضمان أن تعود إنجازات الذكاء الاصطناعي العام بالنفع على البشرية جمعاء.

يهدف التطوير المستمر لإصدارات جديدة من المعايير إلى ضمان رفع مستوى الأداء باستمرار وعدم ركود البحث. ومن خلال ARC-AGI-3 والإصدارات اللاحقة، تسعى المؤسسة إلى استكشاف حدود قدرات الذكاء الاصطناعي وما ينقصه.

 

نحن هنا لخدمتكم - الاستشارات - التخطيط - التنفيذ - إدارة المشاريع

☑️ دعم الشركات الصغيرة والمتوسطة في مجالات الاستراتيجية والاستشارات والتخطيط والتنفيذ

☑️ إنشاء أو إعادة تنظيم استراتيجية الذكاء الاصطناعي

☑️ تطوير الأعمال الرائدة

 

Konrad Wolfenstein

يسعدني أن أكون مستشارك الشخصي.

يمكنك الاتصال بي عن طريق ملء نموذج الاتصال أدناه أو ببساطة الاتصال بي على الرقم +49 7348 4088 965 .

أتطلع إلى مشروعنا المشترك.

 

 

راسلني

 
إكسبرت ديجيتال - Konrad Wolfenstein

Xpert.Digital هو مركز صناعي يركز على الرقمنة والهندسة الميكانيكية والخدمات اللوجستية/الخدمات اللوجستية الداخلية والخلايا الكهروضوئية.

بفضل حلولنا الشاملة لتطوير الأعمال، ندعم الشركات المرموقة من الأعمال الجديدة إلى خدمات ما بعد البيع.

تُعدّ معلومات السوق، والتسويق الموجه، وأتمتة التسويق، وتطوير المحتوى، والعلاقات العامة، وحملات البريد، ووسائل التواصل الاجتماعي الشخصية، ورعاية العملاء المحتملين جزءًا من أدواتنا الرقمية.

يمكنكم الاطلاع على المزيد من المعلومات على المواقع التالية: www.xpert.digital - www.xpert.solar - www.xpert.plus

أبق على اتصال

اترك نسخة الجوال