تاريخ النشر: ١٣ يونيو ٢٠٢٥ / تاريخ التحديث: ١٣ يونيو ٢٠٢٥ - المؤلف: Konrad Wolfenstein

للروبوتات وغيرها من أنظمة الذكاء الاصطناعي: نموذج V-JEPA 2 للذكاء الاصطناعي من شركة Meta – الذكاء الاصطناعي الذي يفهم عالمنا المادي – الصورة: Xpert.Digital
ميتا تقدم V-JEPA 2: نظام ذكاء اصطناعي يتعلم التنبؤ بالعالم المادي
نشرت شركة ميتا V-JEPA 2: نموذج ثوري لعالم الذكاء الاصطناعي لمستقبل الذكاء الاصطناعي
كشفت شركة ميتا النقاب عن نظام الذكاء الاصطناعي الرائد V-JEPA 2، الذي يتبنى نهجًا مختلفًا جذريًا عن نماذج اللغة الكبرى التقليدية. وقد طُوّر هذا النموذج العالمي، الذي يضم 1.2 مليار مُعامل، لمساعدة الروبوتات وغيرها من أنظمة الذكاء الاصطناعي على فهم العالم المادي والتنبؤ بكيفية تفاعله مع أفعالها.
ما هو V-JEPA 2 وكيف يختلف عن نماذج اللغة؟
V-JEPA 2 اختصار لـ "Video Joint Embedding Predictive Architecture 2"، وهو يعتمد على بنية مختلفة تمامًا عن نماذج اللغة التقليدية. فبينما تُجري نماذج اللغة مثل ChatGPT أو GPT-4 تنبؤات احتمالية حول تسلسلات النصوص، يعمل V-JEPA 2 في فضاء تمثيلي مجرد ويركز على فهم القوانين الفيزيائية.
يكمن الاختلاف الجوهري في أسلوب التعلم: تتطلب نماذج اللغة كميات هائلة من البيانات المصنفة وتتعلم من خلال التدريب الخاضع للإشراف. أما V-JEPA 2، فيستخدم التعلم الذاتي الخاضع للإشراف ويستخلص المعرفة من مقاطع الفيديو غير المصنفة، مما يقلل بشكل كبير من تكاليف إعداد البيانات. لا يتعلم النموذج من خلال إعادة بناء البكسل، بل من خلال تمثيلات مجردة لمحتوى الفيديو.
بنية JEPA: التعلم من خلال التنبؤ
طُوِّرت بنية التضمين التنبؤية المشتركة (JEPA) بواسطة يان ليكان، كبير علماء الذكاء الاصطناعي في شركة ميتا، وهي تمثل بديلاً لنماذج الذكاء الاصطناعي التوليدية. على عكس الأساليب التوليدية التي تحاول إعادة بناء كل بكسل مفقود، تعمل V-JEPA 2 مع مناطق الفيديو المقنعة وتتعلم التنبؤ بالمفاهيم المجردة.
يستخدم النظام نهج تدريب من مرحلتين:
المرحلة الأولى: التعلم الذاتي
- تدريب يتضمن أكثر من مليون ساعة من المواد المرئية ومليون صورة
- تعلم أنماط التفاعل الجسدي دون تدخل بشري
- تطوير نموذج داخلي للعالم المادي
المرحلة الثانية: التكيف الناتج عن الفعل
- الضبط الدقيق باستخدام 62 ساعة فقط من بيانات التحكم في الروبوت من مجموعة بيانات DROID
- دمج إجراءات الوكيل في القدرات التنبؤية
- تمكين التخطيط والتحكم ذي الحلقة المغلقة
أداء متميز في الممارسة
يُظهر برنامج V-JEPA 2 أداءً مذهلاً في مجالات متنوعة:
فهم الفيديو واكتشاف الحركة
- 77.3% دقة أعلى 1 في مجموعة بيانات Something-Something v2
- 39.7% نسبة الاستدعاء عند 5 في توقعات إجراءات Epic-Kitchens-100 (تحسن بنسبة 44% مقارنة بالنماذج السابقة)
- أداء متميز في مختلف مهام الأسئلة والأجوبة عبر الفيديو
التحكم في الروبوت
- معدل نجاح يتراوح بين 65 و80% في مهام الالتقاط والوضع في بيئات غير مألوفة
- التحكم في الروبوت بدون تدريب خاص بالبيئة
- نشرها في مختبرين مختلفين باستخدام أذرع روبوت فرانكا
الكفاءة مقارنة بالمنافسة
يُعد V-JEPA 2 أسرع بـ 30 مرة من نموذج Cosmos الخاص بشركة NVIDIA، ويحتاج فقط إلى 16 ثانية لتخطيط حركة الروبوت، بينما يستغرق Cosmos 4 دقائق.
الابتكارات التقنية والميزات الرئيسية
يتميز هذا النموذج بخمسة إنجازات تكنولوجية رئيسية:
- التعلم الذاتي: يلغي الحاجة إلى كميات كبيرة من البيانات المصنفة
- آلية الإخفاء: تقوم بتدريب النموذج من خلال التنبؤ بمناطق الفيديو المخفية
- تعلم التمثيل المجرد: التركيز على المعاني الدلالية بدلاً من تفاصيل البكسل
- هندسة نموذج العالم: بناء فهم داخلي للقوانين الفيزيائية
- التعلم النقل الفعال: قدرات تعلم ممتازة بدون أمثلة
تكشف المعايير الجديدة عن حدود الذكاء الاصطناعي الحالي
بالتوازي مع V-JEPA 2، أصدرت شركة Meta ثلاثة معايير جديدة تختبر الفهم المادي لأنظمة الذكاء الاصطناعي:
IntPhys 2
يختبر هذا الاختبار القدرة على التمييز بين السيناريوهات الممكنة فيزيائياً والسيناريوهات المستحيلة. وحتى النماذج المتقدمة لا تزال تقترب من العشوائية في هذا الصدد.
MVPBench
يستخدم النظام أزواجًا من مقاطع الفيديو المتشابهة بصريًا والتي تقدم إجابات متضاربة لنفس السؤال. يحقق نظام V-JEPA 2 دقة مطابقة بنسبة 44.5%، وهي أعلى نسبة أداء بين جميع الأنظمة التي تم اختبارها.
CausalVQA
تتناول الدراسة الفهم السببي والاستدلال المضاد للواقع. وتُظهر النتائج أن أنظمة الذكاء الاصطناعي الحالية قادرة على وصف ما تراه بدقة، لكنها تواجه صعوبة في التنبؤ بالنتائج البديلة.
الذكاء الاصطناعي بدون نهم البيانات: كيف تجعل اتفاقية V-JEPA 2 التعلم الآلي أكثر كفاءة
يرى يان ليكان أن نماذج عالمية مثل V-JEPA 2 هي مفتاح الجيل القادم من تطوير الذكاء الاصطناعي. ويمكن لهذا النموذج أن يُحدث ثورة في مجالات تطبيقية متعددة
الروبوتات والمساعدين المنزليين
تهدف النماذج العالمية إلى إحداث حقبة جديدة في مجال الروبوتات، حيث ستتمكن وكلاء الذكاء الاصطناعي من التعامل مع مهام العالم الحقيقي دون الحاجة إلى كميات هائلة من بيانات التدريب.
المركبات ذاتية القيادة
قد يكون الفهم المكاني في الوقت الحقيقي الذي يوفره نظام V-JEPA 2 أمراً بالغ الأهمية للمركبات ذاتية القيادة، وروبوتات المستودعات، وأنظمة توصيل الطائرات بدون طيار.
الواقع المعزز والمساعدون الافتراضيون
تخطط شركة ميتا لتوسيع وظائف V-JEPA 2 من خلال دمج تحليلات الصوت وقدرات فهم الفيديو المحسّنة لنظارات الواقع المعزز والمساعدين الافتراضيين.
توافر المصادر المفتوحة وتمويل البحوث
أصدرت شركة ميتا برنامج V-JEPA 2 كمصدر مفتوح بموجب ترخيص CC-BY-NC بهدف دعم أبحاث الذكاء الاصطناعي عالميًا. يتوفر رمز البرنامج على منصة GitHub ويمكن تشغيله على منصات مثل Google Colab وKaggle. تُعدّ هذه الانفتاحية ميزةً فريدةً مقارنةً بالعديد من نماذج الذكاء الاصطناعي الكبيرة الأخرى، وتهدف إلى تطوير نماذج عالمية في مجال الروبوتات والذكاء الاصطناعي المُجسّد.
تحول نموذجي في تطوير الذكاء الاصطناعي
يمثل V-JEPA 2 نقلة نوعية جذرية من معالجة اللغة البحتة إلى فهم أعمق للعالم المادي. فبينما تعتمد معظم شركات الذكاء الاصطناعي على النماذج التوليدية، تسعى شركة ميتا إلى رؤية بديلة لمستقبل الذكاء الاصطناعي من خلال نهجها القائم على نموذج العالم. إن القدرة على التعلم من بيانات قليلة وتمكين التحكم الآلي في الروبوتات دون الحاجة إلى تدريب مسبق، من شأنها أن تمهد الطريق لجيل جديد من الأنظمة الذكية القادرة ليس فقط على فهم العالم الحقيقي، بل والتفاعل معه أيضاً.
مناسب ل:
شريكك العالمي في التسويق وتطوير الأعمال
☑️ لغة العمل لدينا هي الإنجليزية أو الألمانية
☑️ جديد: المراسلات بلغتك الوطنية!
سأكون سعيدًا بخدمتك وفريقي كمستشار شخصي.
يمكنك الاتصال بي عن طريق ملء نموذج الاتصال أو ببساطة اتصل بي على +49 89 89 674 804 (ميونخ) . عنوان بريدي الإلكتروني هو: ولفنشتاين ∂ xpert.digital
إنني أتطلع إلى مشروعنا المشترك.











