עימות בין בינה מלאכותית על מדד ה-ARC של דגמי בינה מלאכותית: GPT-5 מול Grok מול o3
שחרור מראש של Xpert
בחירת קול 📢
פורסם בתאריך: 8 באוגוסט, 2025 / עודכן בתאריך: 8 באוגוסט, 2025 – מחבר: קונרד וולפנשטיין
עימות בין בינה מלאכותית על מדד ה-ARC של דגמי בינה מלאכותית: GPT-5 מול Grok מול o3 – תמונה: Xpert.Digital
האכזבה הגדולה: מדוע מודלים של בינה מלאכותית הולכים וגדלים נכשלים במבחן האינטליגנציה המכריע
מהו מדד ARC-AGI ומדוע הוא פותח?
מדד ARC-AGI הוא סדרת מבחנים למדידת האינטליגנציה הכללית של מערכות בינה מלאכותית, שפותחה על ידי פרנסואה שולט בשנת 2019. ARC הוא ראשי תיבות של "Abstraction and Reasoning Corpus for Artificial General Intelligence" (קורפוס הפשטה והנמקה לבינה כללית מלאכותית). מדד זה נוצר כדי להעריך את יכולתן של מערכות בינה מלאכותית להבין ולפתור משימות חדשות שעבורן לא אומנו במפורש.
פיתוח מדד הייחוס מבוסס על הגדרתו של שולט לאינטליגנציה ממאמרו פורץ הדרך "על מדד האינטליגנציה". הוא טוען שאינטליגנציה אמיתית אינה טמונה בשליטה במשימות ספציפיות, אלא ביעילות של רכישת מיומנויות חדשות. המבחן מורכב מחידות חזותיות עם רשתות צבעוניות, שבהן מערכות בינה מלאכותית חייבות לזהות את כללי הטרנספורמציה הבסיסיים וליישם אותם על דוגמאות חדשות.
במה שונה ARC-AGI מתחמדי ביצועים אחרים של בינה מלאכותית?
בניגוד למבחני בינה מלאכותית קונבנציונליים, אשר מסתמכים לעתים קרובות על ידע קודם או דפוסים ששיננו, ARC-AGI מתמקד במה שמכונה "ידע ליבה קודם" – מיומנויות קוגניטיביות בסיסיות כגון קביעות אובייקטים, ספירה והבנה מרחבית. מיומנויות אלו נרכשות בדרך כלל עד גיל ארבע.
ההבדל העיקרי הוא ש-ARC-AGI תוכנן במיוחד להיות פתיר באמצעות שינון טהור או אינטרפולציה של נתונים. כל משימה במבחן היא ייחודית ופותחה במיוחד עבור הבדיקה, כך שלא אמורות להיות דוגמאות שלה באינטרנט. זה הופך את הבדיקה לעמידה לאסטרטגיות הרגילות של מערכות בינה מלאכותית המבוססות על כמויות גדולות של נתוני אימון.
מהן הגרסאות השונות של מדד ARC-AGI?
כיום ישנן שלוש גרסאות עיקריות של מדד הייחוס:
ARC-AGI-1
בגרסה המקורית של 2019, המורכבת מחידות ויזואליות סטטיות, בני אדם משיגים ממוצע של 95%, בעוד שרוב מערכות הבינה המלאכותית נמצאות מזמן מתחת ל-5%.
ARC-AGI-2
גרסה משופרת זו, שיצאה בשנת 2025, תוכננה במיוחד כדי לאתגר אפילו מערכות חשיבה מודרניות. בעוד שבני אדם ממשיכים להשיג ביצועים של כמעט 100%, אפילו מודלים מתקדמים של בינה מלאכותית יכולים לנהל רק 10-20% מהמשימות.
ARC-AGI-3
הגרסה האחרונה, שעדיין נמצאת בפיתוח, מציגה אלמנטים אינטראקטיביים. במקום פאזלים סטטיים, סוכני בינה מלאכותית חייבים ללמוד באמצעות חקירה וניסוי וטעייה בעולם רשת, בדומה לאופן שבו בני אדם חוקרים סביבות חדשות.
כיצד מודלים שונים של בינה מלאכותית מתפקדים במבחני ARC-AGI?
הבדלי הביצועים בין דגמי בינה מלאכותית שונים הם משמעותיים:
ב-ARC-AGI-1, Grok 4 משיג כ-68%, בעוד ש-GPT-5 עומד על 65.7%. העלות למשימה היא כ-$1 עבור Grok 4 ו-$0.51 עבור GPT-5.
במבחן ARC-AGI-2, המבחן הקשה יותר, הביצועים יורדים באופן דרמטי: GPT-5 משיג רק 9.9% בעלות של 0.73 דולר למשימה, בעוד ש-Grok 4 (חשיבה) משיג ביצועים טובים יותר עם כ-16%, אם כי בעלות גבוהה משמעותית של 2-4 דולר.
כצפוי, גרסאות דגם זולות יותר מציגות ביצועים חלשים יותר: GPT-5 Mini משיג 54.3% ב-AGI-1 ו-4.4% ב-AGI-2, בעוד ש-GPT-5 Nano משיג רק 16.5% ו-2.5% בהתאמה.
מה הסוד של מודל התצוגה המקדימה של O3?
מודל ה-o3-preview של OpenAI מייצג מקרה מיוחד. בדצמבר 2024, הוא השיג יחס מרשים של 75.7% ל-87.5% ב-ARC-AGI-1, בהתאם לכוח המחשוב בו נעשה שימוש. זו הייתה הפעם הראשונה שמערכת בינה מלאכותית עברה את סף הביצועים האנושיים של 85%.
עם זאת, יש מגבלה חשובה אחת: הגרסה הזמינה לציבור של o3 מציגה ביצועים גרועים משמעותית מגרסת התצוגה המקדימה המקורית. על פי פרס ARC, הגרסה הפורסמת של o3 משיגה רק 41% (חישוב נמוך) ו-53% (חישוב בינוני) ב-ARC-AGI-1, בהשוואה ל-76-88% בגרסת התצוגה המקדימה.
OpenAI אישרה כי למודל שפורסם יש ארכיטקטורה שונה וקטנה יותר, והוא מותאם במיוחד ליישומי צ'אט ומוצרים. פער זה מעלה שאלות לגבי יכולותיו בפועל ומדגיש את החשיבות של בחינה ביקורתית של תוצאות מדד ממודלים שלא פורסמו.
איך עובדת תחרות פרסי ARC?
פרס ARC הוא תחרות שנתית עם קרן פרסים כוללת של למעלה ממיליון דולר אמריקאי, שמטרתה לקדם התקדמות בקוד פתוח לקראת AGI. התחרות הנוכחית לשנת 2025 תתקיים בין ה-26 במרץ ל-3 בנובמבר בפלטפורמת Kaggle.
מבנה התמחור כולל:
- פרס גדול (700,000 דולר): יינתן כאשר צוות משיג דיוק של 85% במערך הנתונים הפרטי של ההערכה.
- פרס הניקוד הגבוה ביותר (75,000 דולר): לקבוצות עם הניקוד הגבוה ביותר
- פרס מאמר (50,000 דולר): עבור ההתקדמות הקונספטואלית המשמעותית ביותר
- פרסים נוספים (175,000 דולר): קטגוריות נוספות יפורסמו בהמשך
חשוב לציין, כל הזוכים חייבים לפרסם את פתרונותיהם כקוד פתוח. זה תואם את משימתה של קרן פרס ARC להנגיש את ההתקדמות בתחום ה-AGI לכל קהילת המחקר.
מהם האתגרים הטכניים של מדד ARC-AGI?
המשימות ב-ARC-AGI דורשות מספר מיומנויות קוגניטיביות שהן טבעיות לבני אדם אך קשות ביותר עבור מערכות בינה מלאכותית:
פירוש סמלים
בינה מלאכותית חייבת להבין סמלים מופשטים ולגזור את משמעותם מההקשר.
חשיבה קומפוזיציונית רב-מפלסית
יש לחלק את הבעיות לתת-שלבים ולפתור אותן ברצף.
יישום כלל תלוי-הקשר
ייתכן שיהיה צורך ליישם את אותו כלל בצורה שונה בהתאם להקשר.
הכללה מכמה דוגמאות
בדרך כלל, רק 2-3 זוגות הדגמה זמינים שמהם יש לגזור את כלל הטרנספורמציה.
איזה תפקיד ממלא אימון בזמן מבחן בפתרון ARC-AGI?
אימון בזמן בדיקה (TTT) הוכח כגישה מבטיחה לשיפור ביצועים ב-ARC-AGI. שיטה זו מתאימה באופן דינמי את פרמטרי המודל לנתוני הקלט הנוכחיים במהלך הסקה, במקום להסתמך אך ורק על ידע שאומן מראש.
חוקרים ב-MIT הוכיחו כי TTT משפר משמעותית את ביצועי מודלי השפה ב-ARC-AGI. השיטה מאפשרת למודלים להסתגל במהלך פתרון משימות וללמוד מדוגמאות ספציפיות. זה מחקה התנהגות אנושית של פתרון בעיות, שבה אנו מקדישים זמן רב יותר לבעיות קשות.
אבטחת מידע מהאיחוד האירופי/גרמניה | שילוב פלטפורמת בינה מלאכותית עצמאית וחוצת מקורות נתונים לכל צרכי העסק
Ki-GameChanger: פלטפורמת ה- AI הגמישה ביותר – פתרונות בהתאמה אישית המפחיתים עלויות, משפרים את החלטותיהם ומגדילים את היעילות
פלטפורמת AI עצמאית: משלבת את כל מקורות נתוני החברה הרלוונטיים
- שילוב AI מהיר: פתרונות AI בהתאמה אישית לחברות בשעות או ימים במקום חודשים
- תשתית גמישה: מבוססת ענן או אירוח במרכז הנתונים שלך (גרמניה, אירופה, בחירה חופשית של מיקום)
- אבטחת מידע גבוהה ביותר: שימוש במשרדי עורכי דין הוא הראיות הבטוחות
- השתמש במגוון רחב של מקורות נתונים של החברה
- בחירה משלך או דגמי AI שונים (DE, EU, USA, CN)
עוד על זה כאן:
בינה מלאכותית מעבר לקנה מידה: תובנות ממבחן ARC-AGI
מה המשמעות של התוצאות עבור פיתוח AGI?
התוצאות חושפות פער ברור בין בינה אנושית לבינה מלאכותית. בעוד שבני אדם פותרים משימות ARC-AGI באופן אינטואיטיבי, אפילו מערכות בינה מלאכותית חדישות נכשלות במשימות חשיבה בסיסיות.
פרנסואה שולט טוען שהפרדיגמה הנוכחית של פיתוח בינה מלאכותית – אימון מודלים גדולים יותר ויותר עם יותר נתונים – הגיעה לגבולותיה. התוצאות הגרועות ב-ARC-AGI, למרות גודל המודל הגדל באופן אקספוננציאלי, מוכיחות, לדעתו, ש"אינטליגנציה זורמת אינה נובעת מהרחבת טרום-אימון".
העתיד יכול להיות טמון בגישות חדשות כמו אדפטציה בזמן בדיקה, שבהן מודלים יכולים לשנות את המצבים שלהם בזמן ריצה כדי להסתגל למצבים חדשים.
איך נראה עתיד מדד ARC-AGI?
קרן פרס ARC מתכננת לפתח באופן רציף את מדד הייחוס. ARC-AGI-3, עם האלמנטים האינטראקטיביים שלו, מתוכנן לצאת לשוק במלואו בשנת 2026 ויכלול כ-100 סביבות ייחודיות.
מטרת הקרן היא לפתח מדדים שישמשו כ"כוכב הצפון" לפיתוח AGI. מטרה זו לא רק למדוד התקדמות, אלא גם להנחות את המחקר בכיוונים שיכולים להוביל למודיעין כללי אמיתי.
מהן ההשלכות הכלכליות של ביצועי מדד הייחוס?
עלות פתרון משימות ARC-AGI משתנה מאוד בין מודלים שונים ויש לה השפעה ישירה על היישום המעשי.
בעוד שמשימות פשוטות ניתנות לפתרון עם עלויות API בטווח של סנט, העלויות עבור משימות חשיבה מורכבות עולות במהירות. מודל o3, לדוגמה, יכול לעלות עד 1,000 דולר למשימה בכוח מחשוב גבוה.
מבנה עלויות זה מדגים שגם אם יושגו פריצות דרך טכנולוגיות, היתכנות כלכלית נותרה גורם מכריע לאימוץ נרחב של טכנולוגיות AGI.
מהן ההשלכות הפילוסופיות של תוצאות ARC-AGI?
התוצאות מעלות שאלות יסודיות לגבי טבעה של האינטליגנציה. מבחן הייחוס מראה שיש הבדל מהותי בין שינון דפוסים לבין הבנה אמיתית.
העובדה שבני אדם פותרים משימות אלה ללא מאמץ בעוד שמערכות בינה מלאכותית כושלות, מצביעה על כך שהאינטליגנציה האנושית מתפקדת בצורה שונה מבחינה איכותית מגישות הבינה המלאכותית הנוכחיות. עובדה זו תומכת בטענתו של שולט ש-AGI דורש יותר ממודלים גדולים יותר ויותר נתונים.
כיצד משפיעה ARC-AGI על מחקר בינה מלאכותית?
מדד הייחוס כבר הוביל לחשיבה מחודשת במחקר בינה מלאכותית. במקום להתמקד אך ורק במודלים של קנה מידה, מעבדות מובילות בוחנות כעת גישות חלופיות כגון מחשוב בזמן בדיקה ומערכות אדפטיביות.
שינוי זה בא לידי ביטוי גם בהשקעות: חברות משקיעות יותר ויותר במחקר על חשיבה ופתרון בעיות יעילים יותר במקום בסבבי הכשרה גדולים יותר ויותר.
איזה תפקיד ממלאת קהילת הקוד הפתוח?
קרן פרס ARC מדגישה את חשיבות פיתוח קוד פתוח לקידום AGI. כל הזוכים בתחרות נדרשים להנגיש את פתרונותיהם לציבור.
פילוסופיה זו מבוססת על האמונה ש-AGI חשוב מדי מכדי שפותח אך ורק במעבדות סגורות. הקרן רואה את עצמה כזרז לקהילת מחקר שיתופית ושקופה.
מהן המגבלות של מדד ARC-AGI?
למרות חשיבותו, ל-ARC-AGI יש גם מגבלות. שולט עצמו מדגיש כי מעבר המבחן אינו שקולה להשגת AGI. מדד זה מודד רק היבט אחד של אינטליגנציה – היכולת לפתור בעיות מופשטות.
היבטים חשובים אחרים כמו יצירתיות, אינטליגנציה רגשית או תכנון לטווח ארוך אינם נמדדים. יתר על כן, קיים סיכון שיפותחו מערכות המותאמות במיוחד ל-ARC-AGI אשר יעברו את המבחן מבלי להיות באמת אינטליגנטיות באופן כללי.
כיצד מתפתחות עלויות מודלי בינה מלאכותית בהקשר של ARC-AGI?
מגמות העלויות מראות מגמות מעניינות. בעוד שהביצועים עולים רק באיטיות, העלויות עבור שיפורים שוליים עולות בקצב מסחרר.
דינמיקת עלויות זו מובילה לתובנה חשובה: יעילות הופכת לגורם המבדיל העיקרי. קרן פרס ARC מדגישה כי לא רק דיוק אלא גם העלות למשימה שנפתרה היא קריטריון חשוב.
מה המשמעות של ARC-AGI לעתיד העבודה?
לתוצאות יש השלכות מרגיעות עבור מקצועות רבים. חוסר היכולת של מערכות בינה מלאכותית לפתור משימות חשיבה בסיסיות מדגים כי יכולות קוגניטיביות אנושיות רחוקות מלהיות מוחלפות.
במקביל, ההתקדמות במשימות ייעודיות מצביעה על כך שבינה מלאכותית תמשיך לשמש ככלי לתמיכה בעבודה אנושית ולא תחליף אותה לחלוטין.
אילו גישות מחקר חדשות צצות באמצעות ARC-AGI?
מדד הייחוס נתן השראה למספר כיווני מחקר חדשניים:
סינתזת תוכניות
מערכות שמייצרות תוכניות לפתרון בעיות.
גישות נוירו-סימבוליות
שילוב של רשתות עצביות עם חשיבה סימבולית.
מערכות מרובות סוכנים
מספר סוכנים מומחים פועלים יחד.
אלגוריתמים אבולוציוניים
מערכות המפתחות פתרונות באופן אבולוציוני.
מהו החזון של קרן פרס ARC לעתיד?
לקרן יש משימה ברורה: לשמש כ"כוכב הצפון" לפיתוח גישה גלובלית פתוחה (AGI). זה לא רק קביעת סטנדרטים טכניים, אלא יצירת מערכת אקולוגית המטפחת חדשנות תוך הבטחה שההתקדמות בגישה גלובלית מועילה לכלל האנושות.
הפיתוח המתמשך של גרסאות חדשות של בדיקות ייחוס נועד להבטיח שהרף יועלה ללא הרף והמחקר לא יתקע. בעזרת ARC-AGI-3 וגרסאות עתידיות, הקרן שואפת לחקור עוד יותר את גבולות מה שבינה מלאכותית יכולה לעשות ואת מה שעדיין חסר לה.
אנחנו שם בשבילך – ייעוץ – תכנון – יישום – ניהול פרויקטים
☑️ תמיכה ב- SME באסטרטגיה, ייעוץ, תכנון ויישום
☑️ יצירה או התאמה מחדש של אסטרטגיית AI
פיתוח עסקי חלוץ
אני שמח לעזור לך כיועץ אישי.
אתה יכול ליצור איתי קשר על ידי מילוי טופס יצירת הקשר למטה או פשוט להתקשר אליי בטלפון +49 89 674 804 (מינכן) .
אני מצפה לפרויקט המשותף שלנו.
Xpert.digital – קונראד וולפנשטיין
Xpert.Digital הוא מוקד לתעשייה עם מיקוד, דיגיטציה, הנדסת מכונות, לוגיסטיקה/אינטרלוגיסטיקה ופוטו -וולטאים.
עם פיתרון הפיתוח העסקי של 360 ° שלנו, אנו תומכים בחברות ידועות מעסקים חדשים למכירות.
מודיעין שוק, סמוקינג, אוטומציה שיווקית, פיתוח תוכן, יחסי ציבור, קמפיינים בדואר, מדיה חברתית בהתאמה אישית וטיפוח עופרת הם חלק מהכלים הדיגיטליים שלנו.
אתה יכול למצוא עוד בכתובת: www.xpert.digital – www.xpert.solar – www.xpert.plus