עימות בין בינה מלאכותית על מדד ה-ARC של דגמי בינה מלאכותית: GPT-5 מול Grok מול o3

שחרור מראש של Xpert

יצירת קשר מקוונת (Konrad Wolfenstein)

Available in 27 languages 📢

העדיפו את Xpert.Digital בגוגלⓘ

פורסם בתאריך: 8 באוגוסט, 2025 / עודכן בתאריך: 8 באוגוסט, 2025 – מחבר: Konrad Wolfenstein

עימות בין בינה מלאכותית על מדד ה-ARC של דגמי בינה מלאכותית: GPT-5 מול Grok מול o3 – תמונה: Xpert.Digital

האכזבה הגדולה: מדוע מודלים של בינה מלאכותית הולכים וגדלים נכשלים במבחן האינטליגנציה המכריע

מהו מדד ARC-AGI ומדוע הוא פותח?

מדד ARC-AGI הוא סדרת בדיקות למדידת האינטליגנציה הכללית של מערכות בינה מלאכותית, שפותחה בשנת 2019 על ידי פרנסואה שולט. ARC הוא ראשי תיבות של "Abstraction and Reasoning Corpus for Artificial General Intelligence" (קורפוס הפשטה והנמקה לבינה כללית מלאכותית). מדד זה נוצר כדי להעריך את יכולתן של מערכות בינה מלאכותית להבין ולפתור משימות חדשות שלא אומנו עבורן במפורש.

פיתוח מדד הייחוס מבוסס על הגדרתו של שולט לאינטליגנציה ממאמרו פורץ הדרך, "על מדד האינטליגנציה". הוא טוען שאינטליגנציה אמיתית אינה טמונה בשליטה במשימות ספציפיות, אלא ביעילות של רכישת מיומנויות חדשות. המבחן מורכב מחידות חזותיות עם רשתות צבעוניות, שבהן מערכות בינה מלאכותית חייבות לזהות את כללי הטרנספורמציה הבסיסיים וליישם אותם על דוגמאות חדשות.

במה שונה ARC-AGI מתחמדי ביצועים אחרים של בינה מלאכותית?

בניגוד למבחני בינה מלאכותית קונבנציונליים, אשר לרוב מסתמכים על ידע קודם או דפוסים ששיננו, ARC-AGI מתמקד במה שמכונה "ידע ליבה מוקדם" - מיומנויות קוגניטיביות בסיסיות כמו קביעות אובייקט, ספירה וחשיבה מרחבית. מיומנויות אלו נרכשות בדרך כלל על ידי בני אדם בסביבות גיל ארבע.

ההבדל המכריע טמון בעובדה ש-ARC-AGI תוכנן במיוחד כך שיהיה בלתי פתיר באמצעות שינון או אינטרפולציה של נתונים בלבד. כל משימה במבחן היא ייחודית ופותחה במיוחד עבור הבדיקה, ולכן לא אמורות להיות דוגמאות שלה באינטרנט. זה הופך את הבדיקה לעמידה לאסטרטגיות אופייניות של מערכות בינה מלאכותית המסתמכות על מערכי נתונים גדולים של אימון.

מהן הגרסאות השונות של מדד ARC-AGI?

כיום ישנן שלוש גרסאות עיקריות של מדד הייחוס:

ARC-AGI-1

הגרסה המקורית משנת 2019 מורכבת מחידות ויזואליות סטטיות. בני אדם משיגים ציון ממוצע של 95% במשחק זה, בעוד שרוב מערכות הבינה המלאכותית משיגות זה מכבר ציון נמוך מ-5%.

ARC-AGI-2

גרסה משופרת זו שוחררה בשנת 2025 ותוכננה במיוחד להוות אתגר אפילו למערכות חשיבה מודרניות. בעוד שבני אדם ממשיכים להשיג כמעט 100% הצלחה, אפילו מודלים מתקדמים של בינה מלאכותית מנהלים רק 10-20% מהמשימות.

ARC-AGI-3

הגרסה האחרונה, שעדיין נמצאת בפיתוח, מציגה אלמנטים אינטראקטיביים. במקום פאזלים סטטיים, סוכני בינה מלאכותית חייבים ללמוד באמצעות חקירה וניסוי וטעייה בעולם רשת, בדומה לבני אדם שחוקרים סביבות חדשות.

כיצד מודלים שונים של בינה מלאכותית מתפקדים במבחני ARC-AGI?

הבדלי הביצועים בין דגמי בינה מלאכותית שונים הם משמעותיים:

עבור ARC-AGI-1, Grok 4 משיג כ-68%, בעוד ש-GPT-5 מגיע ל-65.7%. העלות למשימה היא כ-1 דולר עבור Grok 4 ו-0.51 דולר עבור GPT-5.

במבחן ARC-AGI-2, המבחן הקשה יותר, הביצועים יורדים באופן דרסטי: GPT-5 משיג רק 9.9% בעלות של 0.73 דולר למשימה, בעוד ש-Grok 4 (חשיבה) משיג ביצועים טובים יותר עם כ-16%, אך בעלות גבוהה משמעותית של 2-4 דולר.

כצפוי, גרסאות דגם זולות יותר מציגות ביצועים חלשים יותר: GPT-5 Mini משיג 54.3% ב-AGI-1 ו-4.4% ב-AGI-2, בעוד ש-GPT-5 Nano מגיע רק ל-16.5% ו-2.5% בהתאמה.

מה הסוד מאחורי דגם התצוגה המקדימה של O3?

מודל התצוגה המקדימה של o3 של OpenAI מייצג מקרה מיוחד. בדצמבר 2024, הוא השיג ציוני ביצועים מרשימים של 75.7% עד 87.5% ב-ARC-AGI-1, בהתאם לכוח המחשוב בו נעשה שימוש. זו הייתה הפעם הראשונה שמערכת בינה מלאכותית עברה את מגבלת הביצועים האנושיים של 85%.

עם זאת, יש מגבלה חשובה אחת: הגרסה הזמינה לציבור של o3 מציגה ביצועים גרועים משמעותית מגרסת התצוגה המקדימה המקורית. לפי ARC Prize, ה-o3 שיצא משיג רק 41% (חישוב נמוך) ו-53% (חישוב בינוני) ב-ARC-AGI-1, בהשוואה ל-76-88% בגרסת התצוגה המקדימה.

OpenAI אישרה כי למודל שפורסם יש ארכיטקטורה שונה וקטנה יותר, והוא מותאם במיוחד ליישומי צ'אט ומוצרים. פער זה מעלה שאלות לגבי יכולותיו בפועל ומדגיש את החשיבות של הערכה ביקורתית של תוצאות מדד ממודלים שלא פורסמו.

איך עובדת תחרות פרסי ARC?

פרס ARC הוא תחרות שנתית עם סכום פרסים כולל של למעלה ממיליון דולר אמריקאי, שמטרתה לקדם את התקדמות הקוד הפתוח לקראת AGI (ארכיטקטורה גנרית אקטיבית). התחרות הנוכחית לשנת 2025 תתקיים בין ה-26 במרץ ל-3 בנובמבר בפלטפורמת Kaggle.

מבנה התמחור כולל:

פרס גדול (700,000 דולר): יינתן כאשר צוות משיג דיוק של 85% במערך הנתונים הפרטי של ההערכה
פרס הניקוד הגבוה ביותר (75,000 דולר): לקבוצות עם הניקוד הגבוה ביותר
פרס מאמר (50,000 דולר): עבור ההתקדמות הקונספטואלית המשמעותית ביותר
פרסים נוספים (175,000 דולר): קטגוריות נוספות יפורסמו בהמשך

חשוב שכל הזוכים יפרסמו את פתרונותיהם בקוד פתוח. זה תואם את משימתה של קרן פרס ARC להנגיש את ההתקדמות בתחום ה-AGI לכל קהילת המחקר.

מהם האתגרים הטכניים של מדד ARC-AGI?

המשימות ב-ARC-AGI דורשות מספר יכולות קוגניטיביות שהן מובנות מאליהן לבני אדם אך קשות ביותר עבור מערכות בינה מלאכותית:

פירוש סמלים

בינה מלאכותית חייבת להבין סמלים מופשטים ולגזור את משמעותם מההקשר.

חשיבה קומפוזיציונית רב-שלבית

יש לחלק את הבעיות לתת-שלבים ולפתור אותן ברצף.

יישום כלל תלוי-הקשר

ייתכן שיהיה צורך ליישם את אותו כלל בצורה שונה בהתאם להקשר.

הכללה מכמה דוגמאות

בדרך כלל, רק 2-3 זוגות הדגמה זמינים שמהם יש לגזור את כלל הטרנספורמציה.

איזה תפקיד ממלא אימון בזמן מבחן בפתרון ARC-AGI?

אימון בזמן בדיקה (TTT) הוכח כגישה מבטיחה לשיפור ביצועים ב-ARC-AGI. שיטה זו מתאימה באופן דינמי את פרמטרי המודל לנתוני הקלט הנוכחיים במהלך הסקה, במקום להסתמך אך ורק על ידע שאומן מראש.

חוקרים ב-MIT הראו ש-TTT משפר משמעותית את ביצועי מודלי השפה ב-ARC-AGI. השיטה מאפשרת למודלים להסתגל במהלך פתרון משימות וללמוד מדוגמאות ספציפיות. זה מחקה התנהגות אנושית של פתרון בעיות, שבה אנו מקדישים זמן רב יותר לבעיות קשות.

אבטחת מידע מהאיחוד האירופי/גרמניה | שילוב פלטפורמת בינה מלאכותית עצמאית וחוצת מקורות נתונים לכל צרכי העסק

פלטפורמות בינה מלאכותית עצמאיות כחלופה אסטרטגית לחברות אירופאיות - תמונה: Xpert.Digital

Ki-GameChanger: הפתרונות הגמישים ביותר של פלטפורמת AI-Tailor, המפחיתים עלויות, משפרים את החלטותיהם ומגדילים את היעילות

פלטפורמת AI עצמאית: משלבת את כל מקורות נתוני החברה הרלוונטיים

שילוב AI מהיר: פתרונות AI בהתאמה אישית לחברות בשעות או ימים במקום חודשים
תשתית גמישה: מבוססת ענן או אירוח במרכז הנתונים שלך (גרמניה, אירופה, בחירה חופשית של מיקום)

אבטחת מידע גבוהה ביותר: שימוש במשרדי עורכי דין הוא הראיות הבטוחות
השתמש במגוון רחב של מקורות נתונים של החברה
בחירה משלך או דגמי AI שונים (DE, EU, USA, CN)

עוד על זה כאן:

פלטפורמות בינה מלאכותית עצמאיות לעומת פלטפורמות היפר-סקיילר: איזה פתרון מתאים לך?

בינה מלאכותית מעבר להרחבה: תובנות ממבחן ARC-AGI

מה המשמעות של התוצאות עבור פיתוח AGI?

התוצאות חושפות פער משמעותי בין בינה אנושית לבינה מלאכותית. בעוד שבני אדם פותרים משימות ARC-AGI באופן אינטואיטיבי, אפילו מערכות הבינה המלאכותית המתקדמות ביותר נכשלות במשימות קוגניטיביות בסיסיות.

פרנסואה שולט טוען שהפרדיגמה הנוכחית של פיתוח בינה מלאכותית - אימון מודלים גדולים יותר ויותר עם יותר נתונים - הגיעה לגבולותיה. התוצאות הגרועות ב-ARC-AGI, למרות עלייה אקספוננציאלית בגודל המודל, מוכיחות, לדעתו, ש"אינטליגנציה זורמת אינה נובעת מהרחבת קנה המידה של אימון מקדים".

העתיד יכול להיות טמון בגישות חדשות כמו הסתגלות בזמן בדיקה, שבהן מודלים יכולים לשנות את המצבים שלהם בזמן ריצה כדי להסתגל למצבים חדשים.

מה צופן העתיד עבור מדד ARC-AGI?

קרן פרס ARC מתכננת פיתוח מתמשך של מדד הייחוס. ARC-AGI-3, עם האלמנטים האינטראקטיביים שלו, מתוכנן לצאת לשוק במלואו בשנת 2026 ויכלול כ-100 סביבות ייחודיות.

הקרן שואפת לפתח נקודות ייחוס שישמשו כ"כוכב צפון" לפיתוח תחומי מידע ארגוניים (AGI). זה כרוך לא רק במדידת התקדמות אלא גם בהכוונת המחקר לכיוונים שיכולים להוביל לאינטליגנציה כללית אמיתית.

מהן ההשלכות הכלכליות של ביצועי מדד הייחוס?

עלות פתרון בעיות ARC-AGI משתנה מאוד בין מודלים שונים ויש לה השפעה ישירה על היישום המעשי.

בעוד שמשימות פשוטות ניתנות לפתרון עם עלויות API בטווח של סנט, העלויות עבור משימות חשיבה מורכבות עולות במהירות. מודל o3, לדוגמה, יכול לעלות עד 1,000 דולר למשימה עם כוח מחשוב גבוה.

מבנה עלויות זה מראה שגם אם יושגו פריצות דרך טכנולוגיות, היתכנות כלכלית נותרה גורם מכריע ליישום נרחב של טכנולוגיות AGI.

מהן ההשלכות הפילוסופיות של תוצאות ARC-AGI?

התוצאות מעלות שאלות יסודיות לגבי טבעה של האינטליגנציה. מבחן הייחוס מראה שיש הבדל מהותי בין שינון דפוסים לבין הבנה אמיתית.

העובדה שבני אדם פותרים משימות אלה ללא מאמץ, בעוד שמערכות בינה מלאכותית נכשלות, מרמזת על כך שהאינטליגנציה האנושית מתפקדת בצורה שונה מבחינה איכותית מגישות הבינה המלאכותית הנוכחיות. עובדה זו תומכת בטענתו של שולט שבינה מלאכותית דורשת יותר ממודלים גדולים יותר ויותר נתונים.

כיצד משפיעה ARC-AGI על כיוון מחקר הבינה המלאכותית?

מדד הייחוס כבר הוביל לחשיבה מחודשת במחקר בינה מלאכותית. במקום להתמקד אך ורק במודלים של קנה מידה, מעבדות מובילות בוחנות כעת גישות חלופיות כגון מחשוב בזמן בדיקה ומערכות אדפטיביות.

שינוי זה בא לידי ביטוי גם בהשקעות: חברות משקיעות יותר ויותר במחקר על חשיבה יעילה יותר ופתרון בעיות במקום סבבי הכשרה גדולים יותר ויותר.

איזה תפקיד ממלאת קהילת הקוד הפתוח?

קרן פרס ARC מדגישה את חשיבות פיתוח קוד פתוח להתקדמות AGI. כל הזוכים בתחרות חייבים להנגיש את פתרונותיהם לציבור.

פילוסופיה זו מבוססת על האמונה ש-AGI חשוב מדי מכדי שפותח אך ורק במעבדות סגורות. הקרן רואה את עצמה כזרז לקהילת מחקר שיתופית ושקופה.

מהן המגבלות של מדד ARC-AGI?

למרות חשיבותו, ל-ARC-AGI יש גם מגבלות. שולט עצמו מדגיש כי מעבר המבחן אינו שם נרדף להשגת AGI. מדד זה מודד רק היבט אחד של אינטליגנציה - היכולת לפתור בעיות מופשטות.

היבטים חשובים אחרים כמו יצירתיות, אינטליגנציה רגשית או תכנון לטווח ארוך אינם מוערכים. יתר על כן, קיים סיכון שיפותחו מערכות המותאמות במיוחד ל-ARC-AGI אשר יעברו את המבחן מבלי להיות באמת אינטליגנטיות באופן כללי.

כיצד מתפתחות העלויות עבור מודלים של בינה מלאכותית בהקשר של ARC-AGI?

התפתחות העלויות מגלה מגמות מעניינות. בעוד שהביצועים עולים רק באיטיות, העלויות עבור שיפורים שוליים עולות בקצב מסחרר.

דינמיקת עלויות זו מובילה לתובנה חשובה: יעילות הופכת לגורם מבדיל מכריע. קרן פרס ARC מדגישה כי לא רק דיוק, אלא גם העלות לבעיה פתורה היא קריטריון מכריע.

מה המשמעות של ARC-AGI לעתיד העבודה?

לתוצאות יש השלכות מרגיעות עבור מקצועות רבים. חוסר היכולת של מערכות בינה מלאכותית לפתור משימות חשיבה בסיסיות מראה כי יכולות קוגניטיביות אנושיות רחוקות מלהיות מוחלפות.

במקביל, ההתקדמות במשימות ייעודיות מצביעה על כך שבינה מלאכותית תמשיך לשמש ככלי לתמיכה בעבודה אנושית, ולא תחליף אותה לחלוטין.

אילו גישות מחקר חדשות נובעות מ-ARC-AGI?

מדד הייחוס נתן השראה למספר כיווני מחקר חדשניים:

סינתזת תוכניות

מערכות שמייצרות תוכניות לפתרון בעיות.

גישות נוירו-סימבוליות

שילוב של רשתות עצביות עם חשיבה סימבולית.

מערכות מרובות סוכנים

מספר סוכנים מומחים עובדים יחד.

אלגוריתמים אבולוציוניים

מערכות המפתחות פתרונות באמצעות אבולוציה.

מהו החזון של קרן פרס ARC לעתיד?

הקרן חותרת למשימה ברורה: לשמש כ"כוכב הצפון" לפיתוח גישה גלובלית פתוחה (AGI). זה כרוך לא רק במדדי ייחוס טכניים, אלא גם ביצירת מערכת אקולוגית המטפחת חדשנות תוך הבטחה שההתקדמות בגישה גלובלית פתוחה תועיל לכלל האנושות.

הפיתוח המתמיד של גרסאות חדשות של בדיקות ייחוס נועד להבטיח שהרף יועלה ללא הרף והמחקר לא יתקע. בעזרת ARC-AGI-3 וגרסאות עתידיות, הקרן שואפת לחקור עוד יותר את גבולות מה שבינה מלאכותית יכולה לעשות ומה עדיין חסר לה.

אנחנו שם בשבילך - ייעוץ - תכנון - יישום - ניהול פרויקטים

☑️ תמיכה ב- SME באסטרטגיה, ייעוץ, תכנון ויישום

☑️ יצירה או התאמה מחדש של אסטרטגיית AI

פיתוח עסקי חלוץ

Konrad Wolfenstein

אני שמח לעזור לך כיועץ אישי.

אתה יכול ליצור איתי קשר על ידי מילוי טופס יצירת הקשר למטה או פשוט להתקשר אליי בטלפון +49 89 674 804 (מינכן) .

אני מצפה לפרויקט המשותף שלנו.

כתוב לי

➡️ בקשת שיחת וידאו 👩👱

אקספרט.דיגיטל - Konrad Wolfenstein

Xpert.Digital הוא מוקד לתעשייה עם מיקוד, דיגיטציה, הנדסת מכונות, לוגיסטיקה/אינטרלוגיסטיקה ופוטו -וולטאים.

עם פיתרון הפיתוח העסקי של 360 ° שלנו, אנו תומכים בחברות ידועות מעסקים חדשים למכירות.

מודיעין שוק, סמוקינג, אוטומציה שיווקית, פיתוח תוכן, יחסי ציבור, קמפיינים בדואר, מדיה חברתית בהתאמה אישית וטיפוח עופרת הם חלק מהכלים הדיגיטליים שלנו.

אתה יכול למצוא עוד בכתובת: www.xpert.digital - www.xpert.solar - www.xpert.plus

שמור על קשר