לרובוטים וסוכני AI אחרים: מודל ה- AI V-JEPA 2 מ- Meta-The AI שמבין את עולמנו הפיזי

Konrad Wolfenstein

לפני 7 חודשים

לרובוטים וסוכני AI אחרים: מודל ה- AI V-JEPA 2 מ- Meta-The AI שמבין את עולמנו הפיזי

עבור רובוטים וסוכני בינה מלאכותית אחרים: מודל הבינה המלאכותית V-JEPA 2 מבית Meta – הבינה המלאכותית שמבינה את עולמנו הפיזי – תמונה: Xpert.Digital

מטא מציגה את V-JEPA 2: מערכת בינה מלאכותית לומדת לבצע תחזיות לגבי העולם הפיזי

מטא מפרסמת את V-JEPA 2: מודל עולמי מהפכני של בינה מלאכותית לעתיד הבינה המלאכותית

מטא חשפה את V-JEPA 2, מערכת בינה מלאכותית פורצת דרך הנוקטת בגישה שונה באופן מהותי ממודלים קונבנציונליים של שפות גדולות. מודל עולם זה, עם 1.2 מיליארד פרמטרים, פותח כדי לעזור לרובוטים ולסוכני בינה מלאכותית אחרים להבין את העולם הפיזי ולחזות כיצד הוא יגיב לפעולותיהם.

מהו V-JEPA 2 וכיצד הוא שונה ממודלים של שפה?

V-JEPA 2 הוא ראשי תיבות של "Video Joint Embedding Predictive Architecture 2" והוא מבוסס על ארכיטקטורה שונה לחלוטין מזו של מודלי שפה מסורתיים. בעוד שמודלי שפה כמו ChatGPT או GPT-4 מבצעים תחזיות הסתברותיות לגבי רצפי טקסט, V-JEPA 2 פועל במרחב ייצוגי מופשט ומתמקד בהבנת חוקים פיזיקליים.

ההבדל המכריע טמון בשיטת הלמידה: מודלים של שפה דורשים כמויות גדולות של נתונים מתויגים ולומדים באמצעות אימון מודרך. לעומת זאת, V-JEPA 2 משתמש בלמידה מודרכת עצמית ומפיק ידע מסרטונים לא מתויגים, ובכך מפחית משמעותית את עלויות הכנת הנתונים. המודל לומד לא באמצעות שחזור פיקסלים, אלא באמצעות ייצוגים מופשטים של תוכן הווידאו.

ארכיטקטורת JEPA: למידה באמצעות חיזוי

ארכיטקטורת ההטמעה החיזויה המשותפת (JEPA) פותחה על ידי יאן לקון, המדען הראשי של מטה בתחום הבינה המלאכותית, והיא מייצגת אלטרנטיבה למודלים גנרטיביים של בינה מלאכותית. בניגוד לגישות גנרטיביות, המנסות לשחזר כל פיקסל חסר, V-JEPA 2 עובד עם אזורי וידאו מוסווים ולומד לחזות מושגים מופשטים.

המערכת משתמשת בגישת אימון דו-שלבית:

שלב ראשון: למידה בהנחיית עצמית

אימון עם למעלה ממיליון שעות של חומרי וידאו ומיליון תמונות
לימוד דפוסי אינטראקציה פיזית ללא ביאור אנושי
פיתוח מודל פנימי של העולם הפיזי

שלב שני: הסתגלות מושרה על ידי פעולה

כוונון עדין עם 62 שעות בלבד של נתוני בקרת רובוטים ממערך הנתונים DROID
שילוב פעולות סוכן ביכולות חיזוי
מאפשר תכנון ובקרה בלולאה סגורה

ביצועים מעולים בפועל

V-JEPA 2 מדגים ביצועים מרשימים בתחומים שונים:

הבנת וידאו וזיהוי תנועה

77.3% דיוק ראשון במערך הנתונים Something-Something גרסה 2
39.7% זיכרון-ב-5 בתחזית פעולה של Epic-Kitchens-100 (שיפור של 44% לעומת מודלים קודמים)
ביצועים חדישים במגוון משימות שאלות ותשובות בווידאו

בקרת רובוטים

65-80% שיעור הצלחה במשימות איסוף והצבה בסביבות לא מוכרות
בקרת רובוטים ללא הכשרה ספציפית לסביבה
פריסה בשתי מעבדות שונות עם זרועות רובוטיות של פרנקה

יעילות בהשוואה למתחרים

V-JEPA 2 מהיר פי 30 מדגם Cosmos של NVIDIA וזקוק רק ל-16 שניות כדי לתכנן פעולת רובוט, בעוד ש-Cosmos לוקח לו 4 דקות.

חידושים טכניים ותכונות מרכזיות

המודל מאופיין בחמש פריצות דרך טכנולוגיות מרכזיות:

למידה בפיקוח עצמי: מבטלת את הצורך בכמויות גדולות של נתונים מתויגים
מנגנון מיסוך: מאמן את המודל על ידי חיזוי אזורי וידאו נסתרים
למידת ייצוג מופשט: התמקדות במשמעויות סמנטיות במקום בפרטי פיקסלים
ארכיטקטורת מודל עולמי: בניית הבנה פנימית של חוקים פיזיקליים
למידה יעילה בהעברה: יכולות למידה יוצאות דופן ללא תקלות

מדדי ביצועים חדשים חושפים את מגבלות הבינה המלאכותית הנוכחית

במקביל ל-V-JEPA 2, Meta פרסמה שלושה מדדי ביצועים חדשים שבודקים את ההבנה הפיזית של מערכות בינה מלאכותית:

אינטפיז 2

זה בוחן את היכולת להבחין בין תרחישים אפשריים פיזיקלית לבין תרחישים בלתי אפשריים. אפילו מודלים מתקדמים עדיין מתפקדים בצורה כמעט אקראית בהקשר זה.

MVPBench

הוא משתמש בזוגות וידאו דומים מבחינה ויזואלית עם תשובות הפוכות לאותה שאלה. V-JEPA 2 משיג דיוק זוגי של 44.5% - הביצועים הטובים ביותר מבין כל המערכות שנבדקו.

VQA סיבתי

המחקר בוחן הבנה סיבתית והנמקה נגדית. התוצאות מראות שמערכות בינה מלאכותית עכשוויות יכולות לתאר היטב את מה שהן רואות, אך מתקשות לחזות תוצאות חלופיות.

בינה מלאכותית ללא רעב לנתונים: כיצד V-JEPA 2 הופך את למידת המכונה ליעילה יותר

יאן לקון רואה במודלים עולמיים כמו V-JEPA 2 את המפתח לדור הבא של פיתוח בינה מלאכותית. המודל יכול לחולל מהפכה בתחומי יישומים שונים:

רובוטיקה ועוזרי בית

מודלים עולמיים נועדו לבשר עידן חדש של רובוטיקה, שבו סוכני בינה מלאכותית יוכלו להתמודד עם משימות מהעולם האמיתי ללא כמויות אסטרונומיות של נתוני אימון.

כלי רכב אוטונומיים

ההבנה המרחבית בזמן אמת של V-JEPA 2 עשויה להיות קריטית עבור כלי רכב אוטונומיים, רובוטים למחסנים ומערכות משלוח באמצעות רחפנים.

מציאות רבודה (AR) ועוזרים וירטואליים

מטא מתכננת להרחיב את הפונקציונליות של V-JEPA 2 על ידי שילוב ניתוחי אודיו ויכולות משופרות של הבנת וידאו עבור משקפי מציאות רבודה ועוזרים וירטואליים.

זמינות קוד פתוח ומימון מחקר

חברת Meta פרסמה את V-JEPA 2 כקוד פתוח תחת רישיון CC-BY-NC כדי לקדם מחקר בינה מלאכותית עולמית. קוד המודל זמין ב-GitHub וניתן להריץ אותו בפלטפורמות כמו Google Colab ו-Kaggle. פתיחות זו עומדת בניגוד למודלים גדולים רבים אחרים של בינה מלאכותית ונועדה לקדם את פיתוחם של מודלים עולמיים ברובוטיקה ובינה מלאכותית מגולמת.

שינוי פרדיגמה בפיתוח בינה מלאכותית

V-JEPA 2 מייצג שינוי פרדיגמה מהותי מעיבוד שפה טהורה להבנה עמוקה יותר של העולם הפיזי. בעוד שרוב חברות הבינה המלאכותית מסתמכות על מודלים גנרטיביים, Meta חותרת לחזון חלופי לעתיד הבינה המלאכותית עם גישת מודל העולם שלה. היכולת ללמוד מנתונים מינימליים ולאפשר בקרת רובוטים ללא תקלות עשויה לסלול את הדרך לדור חדש של מערכות חכמות שיכולות לא רק להבין אלא גם לפעול בעולם האמיתי.

מתאים לכך:

השותף הגלובלי שלך לשיווק ופיתוח עסקי

☑️ השפה העסקית שלנו היא אנגלית או גרמנית

☑️ חדש: התכתבויות בשפה הלאומית שלך!

Konrad Wolfenstein

אני שמח להיות זמין לך ולצוות שלי כיועץ אישי.

אתה יכול ליצור איתי קשר על ידי מילוי טופס יצירת הקשר או פשוט להתקשר אליי בטלפון +49 89 674 804 (מינכן) . כתובת הדוא"ל שלי היא: וולפנשטיין ∂ xpert.digital

אני מצפה לפרויקט המשותף שלנו.

לרובוטים וסוכני AI אחרים: מודל ה- AI V-JEPA 2 מ- Meta-The AI שמבין את עולמנו הפיזי

מטא מציגה את V-JEPA 2: מערכת בינה מלאכותית לומדת לבצע תחזיות לגבי העולם הפיזי

מטא מפרסמת את V-JEPA 2: מודל עולמי מהפכני של בינה מלאכותית לעתיד הבינה המלאכותית