Web sitesi simgesi Xpert.Dijital

ARC yapay zeka modelleri kıyaslama testinde yapay zeka kapışması: GPT-5, Grok ve o3

ARC yapay zeka modelleri kıyaslama testinde yapay zeka kapışması: GPT-5, Grok ve o3

ARC yapay zeka modelleri kıyaslama testinde yapay zeka kapışması: GPT-5, Grok ve o3 – Resim: Xpert.Digital

Büyük hayal kırıklığı: Giderek büyüyen yapay zeka modelleri neden kritik zeka testinde başarısız oluyor?

ARC-AGI kıyaslama testi nedir ve neden geliştirilmiştir?

ARC-AGI kıyaslama testi, 2019 yılında François Chollet tarafından geliştirilen, yapay zeka sistemlerinin genel zekasını ölçmek için kullanılan bir test serisidir. ARC, "Yapay Genel Zeka için Soyutlama ve Akıl Yürütme Veri Kümesi" anlamına gelir. Bu kıyaslama testi, yapay zeka sistemlerinin açıkça eğitilmedikleri yeni görevleri anlama ve çözme yeteneklerini değerlendirmek için oluşturulmuştur.

Bu kıyaslama testinin geliştirilmesi, Chollet'in çığır açan "Zekanın Ölçülmesi Üzerine" adlı makalesindeki zekâ tanımına dayanmaktadır. Chollet, gerçek zekânın belirli görevlerde ustalaşmakta değil, yeni beceriler edinme verimliliğinde yattığını savunmaktadır. Test, yapay zekâ sistemlerinin altta yatan dönüşüm kurallarını belirlemesi ve bunları yeni örneklere uygulaması gereken renkli ızgaralara sahip görsel bulmacalardan oluşmaktadır.

ARC-AGI diğer yapay zeka kıyaslama testlerinden nasıl farklılaşıyor?

Genellikle önceden edinilen bilgilere veya ezberlenmiş kalıplara dayanan geleneksel yapay zeka testlerinin aksine, ARC-AGI, nesne kalıcılığı, sayma ve mekansal akıl yürütme gibi temel bilişsel beceriler olan "Temel Bilgi Öncelikleri"ne odaklanır. Bu beceriler genellikle insanlar tarafından dört yaş civarında edinilir.

En önemli fark, ARC-AGI'nin yalnızca ezberleme veya veri enterpolasyonu yoluyla çözülemeyecek şekilde özel olarak tasarlanmış olmasıdır. Karşılaştırma testindeki her görev benzersizdir ve özellikle test için geliştirilmiştir, bu nedenle çevrimiçi olarak hiçbir örneği bulunmamalıdır. Bu durum, testi büyük eğitim veri kümelerine dayanan yapay zeka sistemlerinin tipik stratejilerine karşı dirençli hale getirir.

ARC-AGI kıyaslama testinin farklı sürümleri nelerdir?

Şu anda kıyaslama testinin üç ana sürümü bulunmaktadır:

ARC-AGI-1

Orijinal 2019 sürümü, statik görsel bulmacalardan oluşmaktadır. İnsanlar bu oyunda ortalama %95'lik bir puan elde ederken, çoğu yapay zeka sistemi uzun zamandır %5'in altında puan almaktadır.

ARC-AGI-2

Bu geliştirilmiş sürüm 2025 yılında piyasaya sürüldü ve özellikle modern mantık sistemleri için bile bir meydan okuma oluşturmak üzere tasarlandı. İnsanlar neredeyse %100 başarı oranına ulaşmaya devam ederken, gelişmiş yapay zeka modelleri bile görevlerin yalnızca %10-20'sini başarabiliyor.

ARC-AGI-3

Halen geliştirme aşamasında olan en son sürüm, etkileşimli unsurlar sunuyor. Statik bulmacalar yerine, yapay zeka ajanları, tıpkı insanların yeni ortamları keşfetmesi gibi, ızgara şeklinde bir dünyada keşif ve deneme yanılma yoluyla öğrenmelidir.

Farklı yapay zeka modelleri ARC-AGI testlerinde nasıl bir performans sergiliyor?

Farklı yapay zeka modelleri arasındaki performans farklılıkları oldukça önemlidir:

ARC-AGI-1 için Grok 4 yaklaşık %68, GPT-5 ise %65,7 oranında başarı elde etmektedir. Görev başına maliyet Grok 4 için yaklaşık 1 ABD doları, GPT-5 için ise 0,51 ABD dolarıdır.

Daha zorlu olan ARC-AGI-2 testinde performans ciddi şekilde düşüyor: GPT-5, görev başına 0,73 dolarlık bir maliyetle yalnızca %9,9'luk bir başarı elde ederken, Grok 4 (Düşünme) yaklaşık %16'lık bir başarı oranıyla daha iyi performans gösteriyor, ancak maliyeti 2-4 dolar arasında değişiyor.

Beklendiği gibi, daha ucuz model varyantları daha düşük performans gösteriyor: GPT-5 Mini, AGI-1'de %54,3 ve AGI-2'de %4,4 başarı elde ederken, GPT-5 Nano sırasıyla yalnızca %16,5 ve %2,5'e ulaşıyor.

O3 önizleme modelinin sırrı nedir?

OpenAI'nin o3 önizleme modeli özel bir durumu temsil ediyor. Aralık 2024'te, kullanılan işlem gücüne bağlı olarak ARC-AGI-1 üzerinde %75,7 ile %87,5 arasında etkileyici performans puanları elde etti. Bu, bir yapay zeka sisteminin %85'lik insan performans sınırını ilk kez aşmasıydı.

Ancak önemli bir sınırlama var: o3'ün herkese açık sürümü, orijinal önizleme sürümüne göre önemli ölçüde daha kötü performans gösteriyor. ARC Prize'a göre, yayınlanan o3, önizleme sürümünün %76-88'lik performansına kıyasla ARC-AGI-1 üzerinde yalnızca %41 (düşük hesaplama) ve %53 (orta hesaplama) başarı oranına ulaşıyor.

OpenAI, yayınlanan modelin farklı, daha küçük bir mimariye sahip olduğunu ve sohbet ve ürün uygulamaları için optimize edildiğini doğruladı. Bu tutarsızlık, modelin gerçek yetenekleri hakkında soruları gündeme getiriyor ve yayınlanmamış modellerden elde edilen kıyaslama sonuçlarının eleştirel bir şekilde değerlendirilmesinin önemini vurguluyor.

ARC Ödülü yarışması nasıl işliyor?

ARC Ödülü, toplamda bir milyon ABD dolarının üzerinde ödül havuzuna sahip, açık kaynaklı yazılımların AGI'ye (Aktif Olarak Genel Mimari) doğru ilerlemesini teşvik etmeyi amaçlayan yıllık bir yarışmadır. Mevcut 2025 yarışması, 26 Mart - 3 Kasım tarihleri ​​arasında Kaggle platformunda düzenlenmektedir.

Fiyatlandırma yapısı şunları içerir:

  • Büyük Ödül (700.000 ABD Doları): Bir ekip özel değerlendirme veri setinde %85 doğruluk oranına ulaştığında açılır
  • En Yüksek Puan Ödülü (75.000 ABD Doları): En yüksek puanı alan takımlar için
  • Makale Ödülü (50.000 ABD Doları): En önemli kavramsal ilerlemeler için
  • Diğer ödüller (175.000 ABD Doları): Ek kategoriler daha sonra duyurulacaktır

Tüm kazananların çözümlerini açık kaynak olarak yayınlamaları önemlidir. Bu, ARC Ödülü Vakfı'nın yapay genel zeka (AGI) alanındaki ilerlemeleri tüm araştırma topluluğuna erişilebilir kılma misyonuyla uyumludur.

ARC-AGI kıyaslama testinin teknik zorlukları nelerdir?

ARC-AGI'deki görevler, insanlar için son derece açık olan ancak yapay zeka sistemleri için son derece zor olan çeşitli bilişsel yetenekler gerektirir:

Sembol yorumu

Yapay zekâ, soyut sembolleri anlamalı ve anlamlarını bağlamdan çıkarmalıdır.

Çok aşamalı kompozisyonel düşünme

Sorunlar alt adımlara ayrılmalı ve sırayla çözülmelidir.

Bağlama bağlı kural uygulaması

Aynı kural, bağlama bağlı olarak farklı şekilde uygulanması gerekebilir.

Birkaç örnekten genelleme

Genellikle, dönüşüm kuralının türetilmesi gereken yalnızca 2-3 gösterim çifti mevcuttur.

ARC-AGI problemini çözmede test zamanı eğitiminin rolü nedir?

Test Zamanı Eğitimi (TTT), ARC-AGI'de performansı iyileştirmek için umut vadeden bir yaklaşım olduğunu kanıtlamıştır. Bu yöntem, yalnızca önceden eğitilmiş bilgilere güvenmek yerine, çıkarım sırasında model parametrelerini mevcut girdi verilerine dinamik olarak ayarlar.

MIT araştırmacıları, TTT'nin ARC-AGI'deki dil modellerinin performansını önemli ölçüde iyileştirdiğini gösterdi. Bu yöntem, modellerin görev çözme sırasında uyum sağlamasına ve belirli örneklerden öğrenmesine olanak tanır. Bu, zor problemler üzerinde daha fazla zaman harcadığımız insan problem çözme davranışını taklit eder.

 

AB/Almanya Veri Güvenliği | Tüm iş ihtiyaçları için bağımsız ve veri kaynakları arası yapay zeka platformunun entegrasyonu

Avrupa şirketleri için stratejik bir alternatif olarak bağımsız yapay zeka platformları - Görsel: Xpert.Digital

Yapay Zeka Oyun Değiştirici: En esnek yapay zeka platformu - Maliyetleri düşüren, kararlarınızı iyileştiren ve verimliliği artıran özel çözümler

Bağımsız yapay zeka platformu: Şirketin ilgili tüm veri kaynaklarını entegre eder

  • Hızlı yapay zeka entegrasyonu: Aylar yerine saatler veya günler içinde işletmeler için özel olarak tasarlanmış yapay zeka çözümleri
  • Esnek altyapı: Bulut tabanlı veya kendi veri merkezinizde barındırma (Almanya, Avrupa, konum seçimi serbest)
  • Maksimum veri güvenliği: Hukuk bürolarında kullanımı bunun tartışılmaz bir kanıtıdır
  • Çeşitli kurumsal veri kaynaklarında dağıtım
  • Kendi yapay zeka modelinizi veya farklı yapay zeka modellerini seçme imkanı (DE, EU, USA, CN)

Daha fazla bilgi burada:

 

Ölçeklendirmenin ötesinde yapay zeka: ARC-AGI testinden elde edilen bilgiler

Bu sonuçlar yapay genel zekanın (AGI) gelişimi açısından ne anlama geliyor?

Sonuçlar, insan ve yapay zekâ arasında önemli bir uçurum olduğunu ortaya koyuyor. İnsanlar ARC-AGI görevlerini sezgisel olarak çözerken, en gelişmiş yapay zekâ sistemleri bile temel bilişsel görevlerde başarısız oluyor.

François Chollet, yapay zekâ geliştirmenin mevcut paradigmasının -giderek daha büyük modelleri daha fazla veriyle eğitmek- sınırlarına ulaştığını savunuyor. Model boyutundaki üstel artışlara rağmen ARC-AGI'deki zayıf sonuçlar, ona göre, "akıcı zekanın ön eğitimi ölçeklendirmekten kaynaklanmadığını" kanıtlıyor.

Gelecek, modellerin yeni durumlara uyum sağlamak için çalışma zamanında kendi durumlarını değiştirebildiği Test Zamanı Uyarlaması gibi yeni yaklaşımlarda yatıyor olabilir.

ARC-AGI kıyaslama testinin geleceği ne olacak?

ARC Ödülü Vakfı, kıyaslama ölçütünün sürekli geliştirilmesini planlamaktadır. Etkileşimli unsurları içeren ARC-AGI-3'ün 2026 yılında tam olarak piyasaya sürülmesi planlanmaktadır ve yaklaşık 100 benzersiz ortam içerecektir.

Vakfın amacı, yapay genel zeka (AGI) gelişimi için bir "Kuzey Yıldızı" görevi görecek ölçütler geliştirmektir. Bu, yalnızca ilerlemeyi ölçmeyi değil, aynı zamanda gerçek genel zekaya yol açabilecek yönlerde araştırmalara rehberlik etmeyi de içerir.

Kıyaslama performansının ekonomik etkileri nelerdir?

ARC-AGI problemlerinin çözüm maliyeti modeller arasında büyük farklılıklar göstermekte ve pratik uygulanabilirliği doğrudan etkilemektedir.

Basit görevler API maliyetleriyle birkaç sent civarında çözülebilirken, karmaşık mantıksal çıkarım gerektiren görevlerin maliyeti hızla artmaktadır. Örneğin, yüksek işlem gücüne sahip o3 modeli, görev başına 1.000 dolara kadar mal olabilir.

Bu maliyet yapısı, teknik atılımlar gerçekleştirilse bile, AGI teknolojilerinin yaygın uygulanması için ekonomik fizibilitenin kritik bir faktör olmaya devam ettiğini göstermektedir.

ARC-AGI sonuçlarının felsefi çıkarımları nelerdir?

Sonuçlar, zekanın doğası hakkında temel soruları gündeme getiriyor. Bu kıyaslama, kalıpları ezberlemek ile gerçek anlama arasında temel bir fark olduğunu gösteriyor.

İnsanların bu görevleri zahmetsizce çözerken yapay zeka sistemlerinin başarısız olması, insan zekasının mevcut yapay zeka yaklaşımlarından niteliksel olarak farklı işlediğini göstermektedir. Bu durum, Chollet'in yapay genel zekanın sadece daha büyük modeller ve daha fazla veri gerektirmediği yönündeki argümanını desteklemektedir.

ARC-AGI yapay zeka araştırmalarının yönünü nasıl etkiliyor?

Bu kıyaslama, yapay zeka araştırmalarında bir yeniden düşünme sürecine yol açtı. Önde gelen laboratuvarlar, yalnızca ölçeklenebilir modellere odaklanmak yerine, test zamanı hesaplama ve uyarlanabilir sistemler gibi alternatif yaklaşımları araştırıyorlar.

Bu değişim yatırımlara da yansıyor: şirketler, giderek daha büyük eğitim kamplarına yatırım yapmak yerine, daha verimli akıl yürütme ve problem çözme üzerine araştırmalara daha fazla yatırım yapıyor.

Açık kaynak topluluğunun rolü nedir?

ARC Prize Vakfı, yapay genel zeka (AGI) alanındaki ilerleme için açık kaynaklı geliştirmenin önemini vurgulamaktadır. Tüm yarışma kazananları çözümlerini kamuya açık hale getirmek zorundadır.

Bu felsefe, yapay genel zekanın (AGI) yalnızca kapalı laboratuvarlarda geliştirilemeyecek kadar önemli olduğu inancına dayanmaktadır. Vakıf, kendisini işbirlikçi ve şeffaf bir araştırma topluluğu için bir katalizör olarak görmektedir.

ARC-AGI kıyaslama testinin sınırlamaları nelerdir?

Önemine rağmen, ARC-AGI'nin de sınırlamaları var. Chollet'in kendisi de testi geçmenin yapay genel zekaya ulaşmakla eş anlamlı olmadığını vurguluyor. Bu kıyaslama testi, zekanın yalnızca bir yönünü, yani soyut problemleri çözme yeteneğini ölçüyor.

Yaratıcılık, duygusal zeka veya uzun vadeli planlama gibi diğer önemli yönler değerlendirilmemektedir. Dahası, ARC-AGI için özel olarak optimize edilmiş sistemlerin, genel olarak zeki olmasalar bile testi geçme riski bulunmaktadır.

ARC-AGI bağlamında yapay zeka modelleri geliştirmenin maliyetleri nasıl?

Maliyet gelişimi ilginç trendleri ortaya koyuyor. Performans artışı yavaş seyrederken, ufak iyileştirmelerin maliyeti hızla artıyor.

Bu maliyet dinamiği önemli bir içgörüye yol açıyor: verimlilik belirleyici farklılaştırıcı unsur haline geliyor. ARC Ödülü Vakfı, yalnızca doğruluğun değil, çözülen problem başına maliyetin de çok önemli bir kriter olduğunu vurguluyor.

ARC-AGI, çalışma hayatının geleceği için ne anlama geliyor?

Sonuçlar birçok meslek için güven verici çıkarımlar içeriyor. Yapay zekâ sistemlerinin temel düşünme görevlerini çözememesi, insan bilişsel yeteneklerinin yerini almanın henüz çok uzak olduğunu gösteriyor.

Aynı zamanda, uzmanlaşmış görevlerdeki ilerleme, yapay zekanın insan emeğinin yerini tamamen almaktan ziyade, onu destekleyen bir araç olarak hizmet etmeye devam edeceğini göstermektedir.

ARC-AGI'den hangi yeni araştırma yaklaşımları ortaya çıkıyor?

Bu kıyaslama ölçütü, çeşitli yenilikçi araştırma yönlerine ilham kaynağı olmuştur:

Program Sentezi

Sorunları çözmek için programlar üreten sistemler.

Nörosimbolik yaklaşımlar

Sinir ağlarının sembolik akıl yürütme ile birleştirilmesi.

Çoklu ajan sistemleri

Çeşitli uzman ajanlar birlikte çalışıyor.

Evrimsel algoritmalar

Evrim yoluyla çözümler geliştiren sistemler.

ARC Ödülü Vakfı'nın geleceğe yönelik vizyonu nedir?

Vakfın net bir misyonu var: Açık yapay genel zekanın (AGI) geliştirilmesi için bir "Kuzey Yıldızı" görevi görmek. Bu, yalnızca teknik ölçütleri değil, aynı zamanda AGI gelişmelerinin tüm insanlığa fayda sağlamasını güvence altına alırken yeniliği teşvik eden bir ekosistem oluşturmayı da içeriyor.

Yeni kıyaslama sürümlerinin sürekli geliştirilmesi, çıtanın sürekli yükseltilmesini ve araştırmanın durgunlaşmamasını sağlamayı amaçlamaktadır. ARC-AGI-3 ve gelecekteki sürümlerle Vakıf, yapay zekanın yapabileceklerinin sınırlarını ve henüz eksiklerini daha da keşfetmeyi hedeflemektedir.

 

Biz sizin için buradayız - Danışmanlık - Planlama - Uygulama - Proje Yönetimi

☑️ KOBİ'lere strateji, danışmanlık, planlama ve uygulama konularında destek

☑️ Yapay zeka stratejisinin oluşturulması veya yeniden düzenlenmesi

☑️ Öncü İş Geliştirme

 

Konrad Wolfenstein

Kişisel danışmanınız olarak hizmet vermekten mutluluk duyarım.

Aşağıdaki iletişim formunu doldurarak veya +49 7348 4088 965 .

Ortak projemizi sabırsızlıkla bekliyorum.

 

 

Bana yaz

 
Xpert.Digital - Konrad Wolfenstein

Xpert.Digital, dijitalleşme, makine mühendisliği, lojistik/iç lojistik ve fotovoltaik alanlarına odaklanan bir endüstri merkezidir.

360° İş Geliştirme çözümümüzle, tanınmış şirketlere yeni iş geliştirme aşamasından satış sonrası hizmetlere kadar destek sağlıyoruz.

Pazar istihbaratı, dijital pazarlama, pazarlama otomasyonu, içerik geliştirme, halkla ilişkiler, e-posta kampanyaları, kişiselleştirilmiş sosyal medya ve potansiyel müşteri yetiştirme, dijital araçlarımızın bir parçasıdır.

Daha fazla bilgi için şu adresleri ziyaret edebilirsiniz: www.xpert.digital - www.xpert.solar - www.xpert.plus

İletişimi koparmamak

Mobil sürümden çıkın