עימות בין בינה מלאכותית על מדד ה-ARC של דגמי בינה מלאכותית: GPT-5 מול Grok מול o3

Konrad Wolfenstein

לפני 12 חודשים

עימות בין בינה מלאכותית על מדד ה-ARC של דגמי בינה מלאכותית: GPT-5 מול Grok מול o3 – תמונה: Xpert.Digital

האכזבה הגדולה: מדוע מודלים של בינה מלאכותית הולכים וגדלים נכשלים במבחן האינטליגנציה המכריע

מהו מדד ARC-AGI ומדוע הוא פותח?

מדד ARC-AGI הוא סדרת בדיקות למדידת האינטליגנציה הכללית של מערכות בינה מלאכותית, שפותחה בשנת 2019 על ידי פרנסואה שולט. ARC הוא ראשי תיבות של "Abstraction and Reasoning Corpus for Artificial General Intelligence" (קורפוס הפשטה והנמקה לבינה כללית מלאכותית). מדד זה נוצר כדי להעריך את יכולתן של מערכות בינה מלאכותית להבין ולפתור משימות חדשות שלא אומנו עבורן במפורש.

פיתוח מדד הייחוס מבוסס על הגדרתו של שולט לאינטליגנציה ממאמרו פורץ הדרך "על מדד האינטליגנציה". הוא טוען שאינטליגנציה אמיתית אינה טמונה בשליטה במשימות ספציפיות, אלא ביעילות של רכישת מיומנויות חדשות. המבחן מורכב מחידות חזותיות עם רשתות צבעוניות, שבהן מערכות בינה מלאכותית חייבות לזהות את כללי הטרנספורמציה הבסיסיים וליישם אותם על דוגמאות חדשות.

במה שונה ARC-AGI מתחמדי ביצועים אחרים של בינה מלאכותית?

בניגוד למבחני בינה מלאכותית קונבנציונליים, אשר לרוב מסתמכים על ידע קודם או דפוסים ששיננו, ARC-AGI מתמקד במה שמכונה "ידע ליבה מוקדם" - מיומנויות קוגניטיביות בסיסיות כמו קביעות אובייקט, ספירה וחשיבה מרחבית. מיומנויות אלו נרכשות בדרך כלל על ידי בני אדם בסביבות גיל ארבע.

ההבדל המכריע טמון בעובדה ש-ARC-AGI תוכנן במיוחד כך שיהיה בלתי פתיר באמצעות שינון או אינטרפולציה של נתונים בלבד. כל משימה במבחן היא ייחודית ופותחה במיוחד עבור הבדיקה, ולכן לא אמורות להיות דוגמאות שלה באינטרנט. זה הופך את הבדיקה לעמידה לאסטרטגיות אופייניות של מערכות בינה מלאכותית המסתמכות על מערכי נתונים גדולים של אימון.

מהן הגרסאות השונות של מדד ARC-AGI?

כיום ישנן שלוש גרסאות עיקריות של מדד הייחוס:

ARC-AGI-1

הגרסה המקורית משנת 2019 מורכבת מחידות ויזואליות סטטיות. בני אדם משיגים ציון ממוצע של 95% במשחק זה, בעוד שרוב מערכות הבינה המלאכותית משיגות זה מכבר ציון נמוך מ-5%.

ARC-AGI-2

גרסה משופרת זו שוחררה בשנת 2025 ותוכננה במיוחד להוות אתגר אפילו למערכות חשיבה מודרניות. בעוד שבני אדם ממשיכים להשיג כמעט 100% הצלחה, אפילו מודלים מתקדמים של בינה מלאכותית מנהלים רק 10-20% מהמשימות.

ARC-AGI-3

הגרסה האחרונה, שעדיין נמצאת בפיתוח, מציגה אלמנטים אינטראקטיביים. במקום פאזלים סטטיים, סוכני בינה מלאכותית חייבים ללמוד באמצעות חקירה וניסוי וטעייה בעולם רשת, בדומה לבני אדם שחוקרים סביבות חדשות.

כיצד מודלים שונים של בינה מלאכותית מתפקדים במבחני ARC-AGI?

הבדלי הביצועים בין דגמי בינה מלאכותית שונים הם משמעותיים:

עבור ARC-AGI-1, Grok 4 משיג כ-68%, בעוד ש-GPT-5 מגיע ל-65.7%. העלות למשימה היא כ-1 דולר עבור Grok 4 ו-0.51 דולר עבור GPT-5.

במבחן ARC-AGI-2, המבחן הקשה יותר, הביצועים יורדים באופן דרסטי: GPT-5 משיג רק 9.9% בעלות של 0.73 דולר למשימה, בעוד ש-Grok 4 (חשיבה) משיג ביצועים טובים יותר עם כ-16%, אך בעלות גבוהה משמעותית של 2-4 דולר.

כצפוי, גרסאות דגם זולות יותר מציגות ביצועים חלשים יותר: GPT-5 Mini משיג 54.3% ב-AGI-1 ו-4.4% ב-AGI-2, בעוד ש-GPT-5 Nano מגיע רק ל-16.5% ו-2.5% בהתאמה.

מה הסוד מאחורי דגם התצוגה המקדימה של O3?

מודל התצוגה המקדימה של o3 של OpenAI מייצג מקרה מיוחד. בדצמבר 2024, הוא השיג ציוני ביצועים מרשימים של 75.7% עד 87.5% ב-ARC-AGI-1, בהתאם לכוח המחשוב בו נעשה שימוש. זו הייתה הפעם הראשונה שמערכת בינה מלאכותית עברה את מגבלת הביצועים האנושיים של 85%.

עם זאת, יש מגבלה חשובה אחת: הגרסה הזמינה לציבור של o3 מציגה ביצועים גרועים משמעותית מגרסת התצוגה המקדימה המקורית. לפי ARC Prize, ה-o3 שיצא משיג רק 41% (חישוב נמוך) ו-53% (חישוב בינוני) ב-ARC-AGI-1, בהשוואה ל-76-88% בגרסת התצוגה המקדימה.

OpenAI אישרה כי למודל שפורסם יש ארכיטקטורה שונה וקטנה יותר, והוא מותאם במיוחד ליישומי צ'אט ומוצרים. פער זה מעלה שאלות לגבי יכולותיו בפועל ומדגיש את החשיבות של הערכה ביקורתית של תוצאות מדד ממודלים שלא פורסמו.

איך עובדת תחרות פרסי ARC?

פרס ARC הוא תחרות שנתית עם סכום פרסים כולל של למעלה ממיליון דולר אמריקאי, שמטרתה לקדם את התקדמות הקוד הפתוח לקראת AGI (ארכיטקטורה גנרית אקטיבית). התחרות הנוכחית לשנת 2025 תתקיים בין ה-26 במרץ ל-3 בנובמבר בפלטפורמת Kaggle.

מבנה התמחור כולל:

פרס גדול (700,000 דולר): יינתן כאשר צוות משיג דיוק של 85% במערך הנתונים הפרטי של ההערכה
פרס הניקוד הגבוה ביותר (75,000 דולר): לקבוצות עם הניקוד הגבוה ביותר
פרס מאמר (50,000 דולר): עבור ההתקדמות הקונספטואלית המשמעותית ביותר
פרסים נוספים (175,000 דולר): קטגוריות נוספות יפורסמו בהמשך

חשוב שכל הזוכים יפרסמו את פתרונותיהם בקוד פתוח. זה תואם את משימתה של קרן פרס ARC להנגיש את ההתקדמות בתחום ה-AGI לכל קהילת המחקר.

מהם האתגרים הטכניים של מדד ARC-AGI?

המשימות ב-ARC-AGI דורשות מספר יכולות קוגניטיביות שהן מובנות מאליהן לבני אדם אך קשות ביותר עבור מערכות בינה מלאכותית:

פירוש סמלים

בינה מלאכותית חייבת להבין סמלים מופשטים ולגזור את משמעותם מההקשר.

חשיבה קומפוזיציונית רב-שלבית

יש לחלק את הבעיות לתת-שלבים ולפתור אותן ברצף.

יישום כלל תלוי-הקשר

ייתכן שיהיה צורך ליישם את אותו כלל בצורה שונה בהתאם להקשר.

הכללה מכמה דוגמאות

בדרך כלל, רק 2-3 זוגות הדגמה זמינים שמהם יש לגזור את כלל הטרנספורמציה.

איזה תפקיד ממלא אימון בזמן מבחן בפתרון ARC-AGI?

אימון בזמן בדיקה (TTT) הוכח כגישה מבטיחה לשיפור ביצועים ב-ARC-AGI. שיטה זו מתאימה באופן דינמי את פרמטרי המודל לנתוני הקלט הנוכחיים במהלך הסקה, במקום להסתמך אך ורק על ידע שאומן מראש.

חוקרים ב-MIT הראו ש-TTT משפר משמעותית את ביצועי מודלי השפה ב-ARC-AGI. השיטה מאפשרת למודלים להסתגל במהלך פתרון משימות וללמוד מדוגמאות ספציפיות. זה מחקה התנהגות אנושית של פתרון בעיות, שבה אנו מקדישים זמן רב יותר לבעיות קשות.

אבטחת מידע באיחוד האירופי/גרמניה | שילוב פלטפורמת בינה מלאכותית עצמאית וחוצת מקורות נתונים לכל צרכי העסק

פלטפורמות בינה מלאכותית עצמאיות כחלופה אסטרטגית לחברות אירופאיות - תמונה: Xpert.Digital

משנה את כללי המשחק של בינה מלאכותית: פלטפורמת הבינה המלאכותית הגמישה ביותר - פתרונות מותאמים אישית שמפחיתים עלויות, משפרים את ההחלטות שלכם ומגבירים את היעילות

פלטפורמת בינה מלאכותית עצמאית: משלבת את כל מקורות הנתונים הרלוונטיים של החברה

שילוב מהיר של בינה מלאכותית: פתרונות בינה מלאכותית מותאמים אישית לעסקים תוך שעות או ימים, במקום חודשים
תשתית גמישה: מבוססת ענן או אירוח במרכז נתונים משלכם (גרמניה, אירופה, בחירה חופשית של מיקום)

אבטחת מידע מקסימלית: השימוש בו במשרדי עורכי דין הוא הוכחה חד משמעית
פריסה על פני מגוון רחב של מקורות נתונים ארגוניים
בחירה בין מודלים משלהם של בינה מלאכותית או מודלים שונים (גרמניה, האיחוד האירופי, ארה"ב, קנזס)

מידע נוסף כאן:

פלטפורמות בינה מלאכותית עצמאיות לעומת היפר-סקיילרים: איזה פתרון הוא המתאים ביותר?

בינה מלאכותית מעבר להרחבה: תובנות ממבחן ARC-AGI

מה המשמעות של התוצאות עבור פיתוח AGI?

התוצאות חושפות פער משמעותי בין בינה אנושית לבינה מלאכותית. בעוד שבני אדם פותרים משימות ARC-AGI באופן אינטואיטיבי, אפילו מערכות הבינה המלאכותית המתקדמות ביותר נכשלות במשימות קוגניטיביות בסיסיות.

פרנסואה שולט טוען שהפרדיגמה הנוכחית של פיתוח בינה מלאכותית - אימון מודלים גדולים יותר ויותר עם יותר נתונים - הגיעה לגבולותיה. התוצאות הגרועות ב-ARC-AGI, למרות עלייה אקספוננציאלית בגודל המודל, מוכיחות, לדעתו, ש"אינטליגנציה זורמת אינה נובעת מהרחבת קנה המידה של אימון מקדים".

העתיד יכול להיות טמון בגישות חדשות כמו הסתגלות בזמן בדיקה, שבהן מודלים יכולים לשנות את המצבים שלהם בזמן ריצה כדי להסתגל למצבים חדשים.

מה צופן העתיד עבור מדד ARC-AGI?

קרן פרס ARC מתכננת פיתוח מתמשך של מדד הייחוס. ARC-AGI-3, עם האלמנטים האינטראקטיביים שלו, מתוכנן לצאת לשוק במלואו בשנת 2026 ויכלול כ-100 סביבות ייחודיות.

הקרן שואפת לפתח מדדים שישמשו כ"כוכב הצפון" לפיתוח AGI. זה כרוך לא רק במדידת התקדמות אלא גם בהכוונת המחקר לכיוונים שיכולים להוביל לאינטליגנציה כללית אמיתית.

מהן ההשלכות הכלכליות של ביצועי מדד הייחוס?

עלות פתרון בעיות ARC-AGI משתנה מאוד בין מודלים שונים ויש לה השפעה ישירה על היישום המעשי.

בעוד שמשימות פשוטות ניתנות לפתרון עם עלויות API בטווח של סנט, העלויות עבור משימות חשיבה מורכבות עולות במהירות. מודל o3, לדוגמה, יכול לעלות עד 1,000 דולר למשימה עם כוח מחשוב גבוה.

מבנה עלויות זה מראה שגם אם יושגו פריצות דרך טכנולוגיות, היתכנות כלכלית נותרה גורם מכריע ליישום נרחב של טכנולוגיות AGI.

מהן ההשלכות הפילוסופיות של תוצאות ARC-AGI?

התוצאות מעלות שאלות יסודיות לגבי טבעה של האינטליגנציה. מבחן הייחוס מראה שיש הבדל מהותי בין שינון דפוסים לבין הבנה אמיתית.

העובדה שבני אדם פותרים משימות אלה ללא מאמץ, בעוד שמערכות בינה מלאכותית נכשלות, מרמזת על כך שהאינטליגנציה האנושית מתפקדת בצורה שונה מבחינה איכותית מגישות הבינה המלאכותית הנוכחיות. עובדה זו תומכת בטענתו של שולט שבינה מלאכותית דורשת יותר ממודלים גדולים יותר ויותר נתונים.

כיצד משפיעה ARC-AGI על כיוון מחקר הבינה המלאכותית?

מדד הייחוס כבר הוביל לחשיבה מחודשת במחקר בינה מלאכותית. במקום להתמקד אך ורק במודלים של קנה מידה, מעבדות מובילות בוחנות כעת גישות חלופיות כגון מחשוב בזמן בדיקה ומערכות אדפטיביות.

שינוי זה בא לידי ביטוי גם בהשקעות: חברות משקיעות יותר ויותר במחקר על חשיבה יעילה יותר ופתרון בעיות במקום סבבי הכשרה גדולים יותר ויותר.

איזה תפקיד ממלאת קהילת הקוד הפתוח?

קרן פרס ARC מדגישה את חשיבות פיתוח קוד פתוח להתקדמות AGI. כל הזוכים בתחרות חייבים להנגיש את פתרונותיהם לציבור.

פילוסופיה זו מבוססת על האמונה ש-AGI חשוב מדי מכדי שפותח אך ורק במעבדות סגורות. הקרן רואה את עצמה כזרז לקהילת מחקר שיתופית ושקופה.

מהן המגבלות של מדד ARC-AGI?

למרות חשיבותו, ל-ARC-AGI יש גם מגבלות. שולט עצמו מדגיש כי מעבר המבחן אינו שם נרדף להשגת AGI. מדד זה מודד רק היבט אחד של אינטליגנציה - היכולת לפתור בעיות מופשטות.

היבטים חשובים אחרים כמו יצירתיות, אינטליגנציה רגשית או תכנון לטווח ארוך אינם מוערכים. יתר על כן, קיים סיכון שיפותחו מערכות המותאמות במיוחד ל-ARC-AGI אשר יעברו את המבחן מבלי להיות באמת אינטליגנטיות באופן כללי.

כיצד מתפתחות העלויות עבור מודלים של בינה מלאכותית בהקשר של ARC-AGI?

התפתחות העלויות מגלה מגמות מעניינות. בעוד שהביצועים עולים רק באיטיות, העלויות עבור שיפורים שוליים עולות בקצב מסחרר.

דינמיקת עלויות זו מובילה לתובנה חשובה: יעילות הופכת לגורם מבדיל מכריע. קרן פרס ARC מדגישה כי לא רק דיוק, אלא גם העלות לבעיה פתורה היא קריטריון מכריע.

מה המשמעות של ARC-AGI לעתיד העבודה?

לתוצאות יש השלכות מרגיעות עבור מקצועות רבים. חוסר היכולת של מערכות בינה מלאכותית לפתור משימות חשיבה בסיסיות מראה כי יכולות קוגניטיביות אנושיות רחוקות מלהיות מוחלפות.

במקביל, ההתקדמות במשימות ייעודיות מצביעה על כך שבינה מלאכותית תמשיך לשמש ככלי לתמיכה בעבודה אנושית, ולא תחליף אותה לחלוטין.

אילו גישות מחקר חדשות נובעות מ-ARC-AGI?

מדד הייחוס נתן השראה למספר כיווני מחקר חדשניים:

סינתזת תוכניות

מערכות שמייצרות תוכניות לפתרון בעיות.

גישות נוירו-סימבוליות

שילוב של רשתות עצביות עם חשיבה סימבולית.

מערכות מרובות סוכנים

מספר סוכנים מומחים עובדים יחד.

אלגוריתמים אבולוציוניים

מערכות המפתחות פתרונות באמצעות אבולוציה.

מהו החזון של קרן פרס ARC לעתיד?

הקרן חותרת למשימה ברורה: לשמש כ"כוכב הצפון" לפיתוח גישה גלובלית פתוחה (AGI). זה כרוך לא רק במדדי ייחוס טכניים, אלא גם ביצירת מערכת אקולוגית המטפחת חדשנות תוך הבטחה שההתקדמות בגישה גלובלית פתוחה תועיל לכלל האנושות.

הפיתוח המתמיד של גרסאות חדשות של בדיקות ייחוס נועד להבטיח שהרף יועלה ללא הרף והמחקר לא יתקע. בעזרת ARC-AGI-3 וגרסאות עתידיות, הקרן שואפת לחקור עוד יותר את גבולות מה שבינה מלאכותית יכולה לעשות ומה עדיין חסר לה.

אנחנו כאן בשבילכם - ייעוץ - תכנון - יישום - ניהול פרויקטים

☑️ תמיכה לעסקים קטנים ובינוניים באסטרטגיה, ייעוץ, תכנון ויישום

☑️ יצירה או התאמה מחדש של אסטרטגיית הבינה המלאכותית

☑️ פיתוח עסקי חלוצי

Konrad Wolfenstein

אשמח לשמש כיועץ האישי שלך.

ניתן ליצור איתי קשר על ידי מילוי טופס יצירת הקשר למטה או פשוט להתקשר אליי למספר 49 7348 4088 965+ .

אני מצפה בקוצר רוח לפרויקט המשותף שלנו.

כתבו לי

➡️ בקשה לשיחת וידאו 👩👱

אקספרט.דיגיטל - Konrad Wolfenstein

Xpert.Digital הוא מרכז לתעשייה המתמקד בדיגיטציה, הנדסת מכונות, לוגיסטיקה/תוך-לוגיסטיקה ופוטו-וולטאית.

עם פתרון פיתוח עסקי 360° שלנו, אנו תומכים בחברות ידועות, החל מעסקים חדשים ועד לשירותי לאחר המכירה.

מודיעין שוק, שיווק סמיילי, אוטומציה שיווקית, פיתוח תוכן, יחסי ציבור, קמפיינים בדואר, מדיה חברתית מותאמת אישית וטיפוח לידים הם חלק מהכלים הדיגיטליים שלנו.

ניתן למצוא מידע נוסף בכתובות הבאות: www.xpert.digital - www.xpert.solar - www.xpert.plus

שמור על קשר

האכזבה הגדולה: מדוע מודלים של בינה מלאכותית הולכים וגדלים נכשלים במבחן האינטליגנציה המכריע

מהו מדד ARC-AGI ומדוע הוא פותח?

במה שונה ARC-AGI מתחמדי ביצועים אחרים של בינה מלאכותית?

מהן הגרסאות השונות של מדד ARC-AGI?

ARC-AGI-1

ARC-AGI-2

ARC-AGI-3

כיצד מודלים שונים של בינה מלאכותית מתפקדים במבחני ARC-AGI?

מה הסוד מאחורי דגם התצוגה המקדימה של O3?

איך עובדת תחרות פרסי ARC?

מהם האתגרים הטכניים של מדד ARC-AGI?

פירוש סמלים

חשיבה קומפוזיציונית רב-שלבית

יישום כלל תלוי-הקשר

הכללה מכמה דוגמאות

איזה תפקיד ממלא אימון בזמן מבחן בפתרון ARC-AGI?

אבטחת מידע באיחוד האירופי/גרמניה | שילוב פלטפורמת בינה מלאכותית עצמאית וחוצת מקורות נתונים לכל צרכי העסק

משנה את כללי המשחק של בינה מלאכותית: פלטפורמת הבינה המלאכותית הגמישה ביותר - פתרונות מותאמים אישית שמפחיתים עלויות, משפרים את ההחלטות שלכם ומגבירים את היעילות

פלטפורמת בינה מלאכותית עצמאית: משלבת את כל מקורות הנתונים הרלוונטיים של החברה

בינה מלאכותית מעבר להרחבה: תובנות ממבחן ARC-AGI

מה המשמעות של התוצאות עבור פיתוח AGI?

מה צופן העתיד עבור מדד ARC-AGI?

מהן ההשלכות הכלכליות של ביצועי מדד הייחוס?

מהן ההשלכות הפילוסופיות של תוצאות ARC-AGI?

כיצד משפיעה ARC-AGI על כיוון מחקר הבינה המלאכותית?

איזה תפקיד ממלאת קהילת הקוד הפתוח?

מהן המגבלות של מדד ARC-AGI?

כיצד מתפתחות העלויות עבור מודלים של בינה מלאכותית בהקשר של ARC-AGI?

מה המשמעות של ARC-AGI לעתיד העבודה?

אילו גישות מחקר חדשות נובעות מ-ARC-AGI?

סינתזת תוכניות

גישות נוירו-סימבוליות

מערכות מרובות סוכנים

אלגוריתמים אבולוציוניים

מהו החזון של קרן פרס ARC לעתיד?

☑️ תמיכה לעסקים קטנים ובינוניים באסטרטגיה, ייעוץ, תכנון ויישום

☑️ יצירה או התאמה מחדש של אסטרטגיית הבינה המלאכותית

☑️ פיתוח עסקי חלוצי

נושאים אחרים