큰 환멸: 점점 더 커져가는 AI 모델이 중요한 지능 테스트에 실패하는 이유
ARC-AGI 벤치마크는 무엇이고, 왜 개발되었나요?
ARC-AGI 벤치마크는 프랑수아 숄레가 2019년에 개발한 AI 시스템의 일반 지능을 측정하기 위한 일련의 테스트입니다. ARC는 "인공 일반 지능을 위한 추상화 및 추론 코퍼스(Abstraction and Reasoning Corpus for Artificial General Intelligence)"의 약자입니다. 이 벤치마크는 AI 시스템이 명시적으로 훈련되지 않은 새로운 작업을 이해하고 해결하는 능력을 평가하기 위해 개발되었습니다.
이 벤치마크는 숄레가 그의 주요 논문 "지능 측정에 관하여(On the Measure of Intelligence)"에서 제시한 지능 정의에 기반합니다. 그는 진정한 지능은 특정 과제의 숙달이 아니라 새로운 기술을 습득하는 효율성에 있다고 주장합니다. 이 테스트는 색상 격자가 있는 시각적 퍼즐로 구성되며, AI 시스템은 이 퍼즐에서 기본 변환 규칙을 인식하고 새로운 사례에 적용해야 합니다.
ARC-AGI는 다른 AI 벤치마크와 어떻게 다릅니까?
사전 지식이나 암기된 패턴에 의존하는 기존 AI 테스트와 달리, ARC-AGI는 사물 영속성, 계산, 공간 이해와 같은 – 인지 능력인 소위 "핵심 지식 사전 지식"에 중점을 둡니다. 이러한 능력은 일반적으로 4세까지 습득됩니다.
주요 차이점은 ARC-AGI가 순수 암기 또는 데이터 보간을 통해 해결 가능하도록 특별히 설계되었다는 것입니다. 벤치마크의 각 작업은 고유하며 테스트를 위해 특별히 개발되었으므로 온라인에 해당 작업의 예시가 존재하지 않아야 합니다. 따라서 이 테스트는 방대한 양의 학습 데이터를 기반으로 하는 AI 시스템의 일반적인 전략에 대한 내성을 갖습니다.
ARC-AGI 벤치마크에는 어떤 버전이 있나요?
현재 벤치마크에는 세 가지 주요 버전이 있습니다.
아크-AGI-1
정적인 시각적 퍼즐로 구성된 2019년 원본 버전에서 인간은 평균 95%를 달성했지만, 대부분 AI 시스템은 오랫동안 5% 미만을 기록했습니다.
아크-AGI-2
2025년에 출시될 이 강화된 버전은 현대의 추론 시스템조차 감당할 수 있도록 특별히 설계되었습니다. 인간은 거의 100%의 성능을 지속적으로 달성하는 반면, 고급 AI 모델조차도 전체 작업의 10~20%만 처리할 수 있습니다.
아크-AGI-3
아직 개발 중인 최신 버전에는 인터랙티브 요소가 도입되었습니다. AI 에이전트는 정적인 퍼즐 대신, 마치 인간이 새로운 환경을 탐험하는 것처럼 격자형 세계에서 탐험과 시행착오를 통해 학습해야 합니다.
다양한 AI 모델은 ARC-AGI 테스트에서 어떤 성능을 보입니까?
다양한 AI 모델 간의 성능 차이는 상당합니다.
ARC-AGI-1에서 Grok 4는 약 68%, GPT-5는 65.7%를 달성했습니다. 작업당 비용은 Grok 4의 경우 약 1달러, GPT-5의 경우 0.51달러입니다.
더 어려운 테스트인 ARC-AGI-2에서는 성능이 극적으로 떨어집니다. GPT-5는 작업당 0.73달러의 비용으로 9.9%만 달성하는 반면, Grok 4(생각)는 2~4달러의 상당히 높은 비용으로도 약 16%의 더 나은 성능을 보입니다.
예상대로 가격이 저렴한 모델일수록 성능이 약했습니다. GPT-5 Mini는 AGI-1에서 54.3%, AGI-2에서 4.4%를 달성한 반면, GPT-5 Nano는 각각 16.5%와 2.5%에 그쳤습니다.
o3 미리보기 모델의 비밀은 무엇인가?
OpenAI의 o3-preview 모델은 특별한 사례입니다. 2024년 12월, 이 모델은 사용된 컴퓨팅 성능에 따라 ARC-AGI-1에서 75.7%에서 87.5%라는 놀라운 성능을 달성했습니다. 이는 AI 시스템이 인간의 성능 한계인 85%를 넘어선 최초의 사례였습니다.
하지만 한 가지 중요한 한계가 있습니다. o3의 공개 버전은 기존 프리뷰 버전보다 성능이 현저히 떨어진다는 것입니다. ARC Prize에 따르면, 출시된 o3 버전은 ARC-AGI-1에서 41%(낮은 연산량)와 53%(중간 연산량)의 성능만 달성하는 반면, 프리뷰 버전은 76~88%의 성능을 보였습니다.
OpenAI는 공개된 모델이 기존 모델과 다르고 더 작은 아키텍처를 가지고 있으며 채팅 및 제품 애플리케이션에 최적화되어 있음을 확인했습니다. 이러한 불일치는 모델의 실제 성능에 대한 의문을 제기하며, 미공개 모델의 벤치마크 결과를 비판적으로 검토하는 것의 중요성을 강조합니다.
ARC Prize 대회는 어떻게 진행되나요?
ARC Prize는 총 상금이 백만 달러가 넘는 연례 경연 대회로, AGI를 향한 오픈소스 진전을 촉진하는 것을 목표로 합니다. 현재 2025년 경연 대회는 3월 26일부터 11월 3일까지 Kaggle 플랫폼에서 진행됩니다.
가격 구조에는 다음이 포함됩니다.
- 대상(70만 달러): 팀이 비공개 평가 데이터 세트에서 85%의 정확도를 달성하면 잠금 해제됩니다.
- 최고 점수 상금(75,000 USD): 가장 높은 점수를 획득한 팀에게
- 논문상(50,000 USD): 가장 중요한 개념적 발전에 대해
- 추가 상금(175,000 USD): 추가 카테고리는 추후 발표
중요한 점은 모든 수상자가 자신의 솔루션을 오픈 소스로 공개해야 한다는 것입니다. 이는 AGI 발전의 성과를 모든 연구 커뮤니티가 활용할 수 있도록 한다는 ARC Prize Foundation의 사명에 부합합니다.
ARC-AGI 벤치마크의 기술적 과제는 무엇입니까?
ARC-AGI의 작업에는 인간에게는 자연스러운 여러 가지 인지 기술이 필요하지만 AI 시스템에서는 매우 어렵습니다.
상징 해석
AI는 추상적인 기호를 이해하고 맥락에서 그 의미를 도출해야 합니다.
다단계 구성적 사고
문제는 하위 단계로 나누어 순차적으로 해결해야 합니다.
컨텍스트에 따른 규칙 적용
동일한 규칙이라도 맥락에 따라 다르게 적용해야 할 수도 있습니다.
몇 가지 예를 통한 일반화
일반적으로 변환 규칙을 도출하는 데 사용할 수 있는 시범 쌍은 2~3개뿐입니다.
ARC-AGI 문제를 해결하는 데 테스트 시간 훈련은 어떤 역할을 합니까?
테스트 시간 학습(TTT)은 ARC-AGI 성능 향상에 유망한 접근법으로 입증되었습니다. 이 방법은 사전 학습된 지식에만 의존하는 대신, 추론 과정에서 현재 입력 데이터에 맞춰 모델 매개변수를 동적으로 조정합니다.
MIT 연구진은 TTT가 ARC-AGI에서 언어 모델의 성능을 크게 향상시킨다는 것을 입증했습니다. 이 방법을 통해 모델은 과제 해결 과정에서 적응하고 특정 사례를 통해 학습할 수 있습니다. 이는 어려운 문제에 더 많은 시간을 할애하는 인간의 문제 해결 행동을 모방한 것입니다.
EU/DE 데이터 보안 | 모든 비즈니스 요구 사항에 맞는 독립적이고 교차 데이터 소스 AI 플랫폼 통합
Ki-Gamechanger : 가장 유연한 AI 플랫폼 – 비용을 줄이고 결정을 개선하며 효율성을 높이는 맞춤형 솔루션
독립 AI 플랫폼 : 모든 관련 회사 데이터 소스를 통합합니다
- 빠른 AI 통합 : 몇 달이 아닌 몇 시간 또는 며칠 내에 회사를위한 맞춤형 AI 솔루션
- 유연한 인프라 : 자체 데이터 센터에서 클라우드 기반 또는 호스팅 (독일, 유럽, 무료 위치 선택)
- 가장 높은 데이터 보안 : 법률 회사에서의 사용은 안전한 증거입니다.
- 다양한 회사 데이터 소스에서 사용하십시오
- 자신 또는 다양한 AI 모델 선택 (De, EU, USA, CN)
자세한 내용은 여기를 참조하세요.
규모를 넘어서는 인공지능: ARC-AGI 테스트에서 얻은 통찰력
이 결과는 AGI 개발에 어떤 의미를 갖는가?
결과는 인간과 인공지능 사이에 명확한 격차를 보여줍니다. 인간은 ARC-AGI 작업을 직관적으로 해결하는 반면, 최첨단 AI 시스템조차도 기본적인 추론 작업에는 실패합니다.
프랑수아 숄레는 더 많은 – 로 더 큰 모델을 훈련 – 현재의 AI 개발 패러다임이 한계에 도달했다고 주장합니다. 모델 크기가 기하급수적으로 증가했음에도 불구하고 ARC-AGI에서 저조한 결과는 "유동 지능은 사전 훈련의 확장에서 비롯되지 않는다"는 것을 증명한다고 그는 주장합니다.
미래는 테스트 시간 적응과 같은 새로운 접근 방식에 달려 있을 수 있습니다. 이를 통해 모델은 런타임에 자체 상태를 변경하여 새로운 상황에 적응할 수 있습니다.
ARC-AGI 벤치마크의 미래는 어떻게 될까요?
ARC Prize Foundation은 벤치마크를 지속적으로 개발할 계획입니다. 인터랙티브 요소를 갖춘 ARC-AGI-3는 2026년에 정식 출시될 예정이며, 약 100개의 고유한 환경을 포함할 예정입니다.
재단의 목표는 AGI 개발의 "북극성" 역할을 하는 벤치마크를 개발하는 것입니다. 이는 단순히 진행 상황을 측정하는 데 그치지 않고, 진정한 범용 지능으로 이어질 수 있는 연구 방향으로 나아가도록 안내하는 것을 목표로 합니다.
벤치마크 성과의 경제적 의미는 무엇인가?
ARC-AGI 작업을 해결하는 데 드는 비용은 모델마다 크게 다르며 실제 적용 가능성에 직접적인 영향을 미칩니다.
간단한 작업은 API 비용이 센트 단위까지 소요될 수 있지만, 복잡한 추론 작업의 비용은 급격히 증가합니다. 예를 들어, o3 모델은 높은 컴퓨팅 성능에서 작업당 최대 1,000달러의 비용이 발생할 수 있습니다.
이러한 비용 구조는 기술적 혁신이 달성되더라도 경제적 타당성이 AGI 기술의 광범위한 채택에 있어 여전히 중요한 요소임을 보여줍니다.
ARC-AGI 결과의 철학적 의미는 무엇인가?
이 결과는 지능의 본질에 대한 근본적인 의문을 제기합니다. 이 기준은 패턴을 암기하는 것과 진정한 이해 사이에 근본적인 차이가 있음을 보여줍니다.
인간이 이러한 작업을 손쉽게 해결하는 반면 AI 시스템은 실패한다는 사실은 인간의 지능이 현재의 AI 접근 방식과는 질적으로 다르게 기능함을 시사합니다. 이는 AGI가 단순히 더 큰 모델과 더 많은 데이터 이상을 필요로 한다는 숄레의 주장을 뒷받침합니다.
ARC-AGI는 AI 연구에 어떤 영향을 미치는가?
이 벤치마크는 이미 AI 연구에 대한 재고를 불러일으켰습니다. 선도적인 연구실들은 확장 모델에만 집중하는 대신, 이제 테스트 시간 컴퓨팅 및 적응형 시스템과 같은 대안적인 접근 방식을 모색하고 있습니다.
이러한 변화는 투자에도 반영됩니다. 기업들은 규모를 크게 키우는 대신, 보다 효율적인 추론과 문제 해결을 위한 연구에 점점 더 투자하고 있습니다.
오픈소스 커뮤니티는 어떤 역할을 하나요?
ARC Prize Foundation은 AGI 발전을 위한 오픈소스 개발의 중요성을 강조합니다. 모든 대회 수상자는 자신의 솔루션을 공개적으로 제공해야 합니다.
이러한 철학은 AGI가 폐쇄된 실험실에서만 개발되기에는 너무나 중요하다는 확신에 기반합니다. 재단은 스스로를 협력적이고 투명한 연구 공동체의 촉진자로 여깁니다.
ARC-AGI 벤치마크의 한계는 무엇입니까?
ARC-AGI는 그 중요성에도 불구하고 한계를 가지고 있습니다. 숄레는 이 시험에 합격한다고 해서 AGI를 달성하는 것은 아니라고 강조합니다. 이 벤치마크는 지능의 한 측면 – 추상적인 문제를 해결하는 능력만을 측정합니다.
창의성, 감성 지능, 장기 계획과 같은 다른 중요한 측면들은 측정되지 않습니다. 더 나아가, ARC-AGI에 특별히 최적화된 시스템이 개발되더라도 전반적으로 진정한 지능을 갖추지 못한 채 테스트를 통과할 위험이 있습니다.
ARC-AGI 맥락에서 AI 모델 비용은 어떻게 발전하고 있습니까?
비용 추세는 흥미로운 추세를 보이고 있습니다. 성과는 느리게 증가하는 반면, 미미한 개선에 드는 비용은 폭발적으로 증가하고 있습니다.
이러한 비용 역학은 중요한 통찰력을 제공합니다. 효율성이 핵심 차별화 요인이 되고 있다는 것입니다. ARC Prize Foundation은 정확성뿐만 아니라 해결된 과제당 비용 또한 중요한 기준이라고 강조합니다.
ARC-AGI는 미래의 업무에 어떤 영향을 미칠까?
이러한 결과는 여러 직업군에 안도감을 줍니다. AI 시스템이 기본적인 추론 과제를 해결하지 못한다는 사실은 인간의 인지 능력이 결코 대체될 수 없음을 보여줍니다.
동시에, 전문화된 작업의 진전은 AI가 인간의 작업을 완전히 대체하기보다는 오히려 인간의 작업을 지원하는 도구로 계속 사용될 것임을 시사합니다.
ARC-AGI를 통해 어떤 새로운 연구 접근 방식이 등장하고 있나요?
이 벤치마크는 여러 가지 혁신적인 연구 방향에 영감을 주었습니다.
프로그램 합성
문제를 해결하기 위한 프로그램을 생성하는 시스템.
신경 상징적 접근 방식
신경망과 기호 추론의 결합.
다중 에이전트 시스템
여러 전문 요원이 함께 일합니다.
진화 알고리즘
진화적 방식으로 솔루션을 개발하는 시스템입니다.
ARC Prize Foundation의 미래 비전은 무엇입니까?
재단은 명확한 사명을 가지고 있습니다. 바로 개방형 AGI 개발의 "북극성" 역할을 하는 것입니다. 이는 단순히 기술적 기준을 설정하는 것이 아니라, AGI 발전이 인류 전체에 이롭게 작용하도록 혁신을 촉진하는 생태계를 구축하는 것입니다.
새로운 벤치마크 버전의 지속적인 개발은 연구 수준을 지속적으로 높이고 연구가 정체되지 않도록 하기 위한 것입니다. 재단은 ARC-AGI-3 및 향후 버전을 통해 AI의 한계와 아직 부족한 부분을 더욱 탐구하고자 합니다.
우리는 당신을 위해 있습니다 – 조언 – 계획 – 구현 – 프로젝트 관리
✓ 전략, 컨설팅, 계획 및 구현에 대한 중소기업 지원
AI 전략의 생성 또는 재정렬
✔️ 선구적인 사업 개발
저는 귀하의 개인 조언자로 기꺼이 봉사하겠습니다.
아래 문의 양식을 작성하여 저에게 연락하시거나 +49 89 89 674 804 (뮌헨) .
나는 우리의 공동 프로젝트를 기대하고 있습니다.
Xpert.Digital – Wolfenstein
Xpert.Digital은 디지털화, 기계 공학, 물류/내부 물류 및 태양광 발전에 중점을 둔 산업 허브입니다.
360° 비즈니스 개발 솔루션을 통해 우리는 신규 비즈니스부터 판매 후까지 유명 기업을 지원합니다.
시장 정보, 마케팅, 마케팅 자동화, 콘텐츠 개발, PR, 메일 캠페인, 개인화된 소셜 미디어 및 리드 육성은 당사 디지털 도구의 일부입니다.
www.xpert.digital – – 에서 찾을 수 있습니다 .