סמל אתר Xpert.digital

לרובוטים וסוכני AI אחרים: מודל ה- AI V-JEPA 2 מ- Meta-The AI ​​שמבין את עולמנו הפיזי

לרובוטים וסוכני AI אחרים: מודל ה- AI V-JEPA 2 מ- Meta-The AI ​​שמבין את עולמנו הפיזי

לרובוטים וסוכני AI אחרים: מודל ה- AI V-JEPA 2 של Meta-The AI ​​שמבין את הדימוי העולמי הפיזי שלנו: xpert.digital

מטא מציג את V-JEPA 2: מערכת AI לומדת תחזיות על העולם הפיזי

מטא מפרסמת V-JEPA 2: מודל עולמי מהפכני לעתיד הבינה המלאכותית

עם V-JEPA 2, META הציגה מערכת AI פורצת דרך הנוקטת בגישה מהותית מאשר דגמי קול גדולים קונבנציונליים. המודל העולמי העולמי של 1.2 מיליארד פרמטר פותח כדי לעזור לרובוטים ולסוכני AI אחרים להבין את העולם הפיזי ולחזות כיצד הוא יגיב למעשיו.

מה זה V-JEPA 2 וכיצד הוא שונה מדגמי קול?

V-JEPA 2 מייצג "משותף וידאו הטמעת ארכיטקטורה חזויה 2" ומבוסס על ארכיטקטורה שונה לחלוטין מאשר דגמי קול מסורתיים. בעוד שמודלים קוליים כמו ChatGPT או GPT-4 טוענים תחזיות הסתברותיות לגבי רצפי טקסט, V-JEPA 2 עובד בחדר ייצוג מופשט ומתמקד בהבנת חוקים פיזיים.

ההבדל המכריע טמון בשיטת הלמידה: מודלים של שפה דורשים כמויות גדולות של נתונים שכותרתו ולומדים באמצעות אימונים מנוטרים. לעומת זאת, V-JEPA 2 משתמשת בלמידה מנוגדת עצמית וחילוץ ידע מסרטונים לא מתאימים, מה שמקטין משמעותית את העלויות להכנת נתונים. המודל אינו לומד באמצעות שחזור פיקסל, אלא באמצעות ייצוגים מופשטים של תוכן הווידיאו.

ארכיטקטורת JEPA: למידה לפי חיזוי

הארכיטקטורה החזויה של הטמעת המפרק (JEPA) פותחה על ידי יאן לה, מדען ה- AI הראשי של METAS ומייצג אלטרנטיבה למודלים של AI גנוצרי. בניגוד לגישות גנוציות שמנסות לשחזר כל פיקסל חסר, V-JEPA 2 עובד עם אלוני וידיאו רעולי פנים ולומד לחזות מושגים מופשטים.

המערכת משתמשת בגישת אימונים של שתי שלבים:

שלב ראשון: למידה עצמית -פיקוד

  • אימונים עם למעלה ממיליון שעות של חומר וידיאו ומיליון תמונות
  • למד דפוסי אינטראקציה גופניים ללא הערה אנושית
  • פיתוח מודל פנימי של העולם הפיזי

שלב שני: הסתגלות הקשורה לפעולה

  • כוונון עדין עם 62 שעות של נתוני בקרת רובוט בלבד מערך הנתונים של DROID
  • שילוב פעולות סוכן בכישורי החיזוי
  • הפעלת תכנון ובקרת בקרת סגורה

ביצועים מעולים בפועל

V-JEPA 2 מדגים ביצועים מרשימים באזורים שונים:

הבנת וידאו וגילוי תנועה

  • 77.3% הדיוק הראשון במשהו במשהו v2 מערך נתונים
  • 39.7% זיכרון-5 עבור תחזית פעולה של Epic-Kitchens-100 (שיפור של 44% בהשוואה למודלים קודמים)
  • ביצוע עדכני במשימות תגובה של שאלות וידאו שונות

בקרת רובוט

  • אחוזי הצלחה של 65-80% למשימות איסוף ומקום בסביבות לא ידועות
  • בקרת רובוט אפס-צילום ללא אימונים ספציפיים לסביבה
  • השתמש בשתי מעבדות שונות עם נשק רובוט פרנקה

יעילות בהשוואה לתחרות

V-JEPA 2 מהיר פי 30 מהמודל הקוסמוס של NVIDIA וצריך רק 16 שניות כדי לתכנן פעולת רובוט, בעוד שקוסמוס זקוק ל -4 דקות.

חידושים טכניים ומאפייני מפתח

המודל מאופיין בחמש פריצות דרך טכניות מרכזיות:

  1. למידה עצמית: מבטל את הצורך בכמויות גדולות של נתונים מסומנים
  2. מנגנון מיסוך: מכשיר את המודל על ידי ניבוי אזורי וידיאו נסתרים
  3. למידה ייצוגית מופשטת: התמקדו במשמעויות סמנטיות במקום בפרטי פיקסל
  4. ארכיטקטורת מודל עולמית: הקמת הבנה פנימית של חוקים פיזיים
  5. למידה יעילה להעברה: כישורי למידה אפס-אפס מצטיינים

מדדי מידה חדשים גבולות לכאורה של AI הנוכחי

מטא פרסמה שלושה מדדים חדשים במקביל ל- V-JEPA 2 הבודקים את ההבנה הפיזית של מערכות AI:

Intphys 2

בודק את היכולת להבחין בין תרחישים מתקבלים על הדעת ובלתי אפשרי. אפילו דגמים מתקדמים עדיין קרובים לרמה אקראית כאן.

Mvpbench

ויזואלית משתמשת במכוניות וידיאו דומות עם תשובות מנוגדות לאותה שאלה. V-JEPA 2 מגיע ל -44.5% דיוק מזווג-הביצועים הטובים ביותר של כל המערכות שנבדקו.

סיבתיות

בוחן הבנה סיבתית וחשיבה פעילה. התוצאות מראות שמערכות AI הנוכחיות יכולות לתאר היטב את מה שהן רואות אך מתקשות לחזות קורסים אלטרנטיביים.

AI ללא רעב לנתונים: כיצד למידת מכונה V-JEPA 2 מייעדת יותר

יאן לקון רואה את המפתח לדור הבא של פיתוח AI במודלים עולמיים כמו V-JEPA 2. המודל יכול לחולל מהפכה בתחומי היישום השונים:

רובוטיקה ועוזרי תקציב

דוגמניות עולמיות אמורות לבשר עידן חדש של רובוטיקה בו סוכני AI יכולים לנהל משימות אמיתיות ללא כמויות אסטרונומיות של נתוני אימונים.

כלי רכב אוטונומיים

ההבנה המרחבית של זמן אמת מ- V-JEPA 2 יכולה להיות מכריעה לרכבים אוטונומיים, רובוטים של מחסנים ומערכות משלוח מל"טים.

מציאות מורחבת (AR) ועוזרים וירטואליים

מטא מתכננת להרחיב את הפונקציות של V-JEPA 2 על ידי שילוב ניתוח שמע והבנת וידאו מורחבת עבור משקפי AR ועוזרים וירטואליים.

זמינות קוד פתוח וקידום מחקר

מטא פרסמה את V-JEPA 2 תחת רישיון CC-BY-NC כקוד פתוח לקידום מחקר AI גלובלי. קוד הדגם זמין ב- GitHub וניתן לבצע אותו בפלטפורמות כמו Google Colab ו- Kaggle. פתיחות זו מנוגדת לדגמי AI גדולים רבים אחרים ונועדה לקדם פיתוח מודלים עולמיים ברובוטיקה ומגולם AI.

שינוי פרדיגמה בפיתוח AI

V-JEPA 2 מייצג מעבר פרדיגמה מהותי מעיבוד שפה טהור להבנה עמוקה יותר של העולם הפיזי. בעוד שרוב חברות ה- AI מסתמכות על מודלים גנריים, מטא עוקב אחר חזון אלטרנטיבי לעתיד הבינה המלאכותית בגישה המודלית העולמית שלה. היכולת ללמוד מנתונים מינימליים ולאפשר בקרת רובוט אפס-צילום עשויה לסלול את הדרך לדור חדש של מערכות חכמות שלא רק מבינות אלא יכולות גם לפעול בעולם האמיתי.

מתאים לכך:

 

השותף הגלובלי שלך לשיווק ופיתוח עסקי

☑️ השפה העסקית שלנו היא אנגלית או גרמנית

☑️ חדש: התכתבויות בשפה הלאומית שלך!

 

קונרד וולפנשטיין

אני שמח להיות זמין לך ולצוות שלי כיועץ אישי.

אתה יכול ליצור איתי קשר על ידי מילוי טופס יצירת הקשר או פשוט להתקשר אליי בטלפון +49 89 674 804 (מינכן) . כתובת הדוא"ל שלי היא: וולפנשטיין xpert.digital

אני מצפה לפרויקט המשותף שלנו.

 

 

☑️ תמיכה ב- SME באסטרטגיה, ייעוץ, תכנון ויישום

☑️ יצירה או התאמה מחדש של האסטרטגיה הדיגיטלית והדיגיטציה

☑️ הרחבה ואופטימיזציה של תהליכי המכירה הבינלאומיים

Platforms פלטפורמות מסחר B2B גלובליות ודיגיטליות

Pioneeer פיתוח עסקי / שיווק / יחסי ציבור / מדד

השאירו את הגרסה הניידת