ARC 벤치마크에서 펼쳐지는 AI 모델 대결: GPT-5 vs. Grok vs. o3

Konrad Wolfenstein

10개월 전

ARC 벤치마크에서 펼쳐지는 AI 모델 대결: GPT-5 vs. Grok vs. o3

ARC 벤치마크에서 펼쳐진 AI 모델들의 대결: GPT-5 vs. Grok vs. o3 – 이미지: Xpert.Digital

거대한 환멸: 점점 더 커지는 AI 모델들이 왜 중요한 지능 테스트에 실패하는가

ARC-AGI 벤치마크란 무엇이며, 왜 개발되었습니까?

ARC-AGI 벤치마크는 2019년 프랑수아 숄레가 개발한 인공지능 시스템의 일반 지능을 측정하는 테스트 시리즈입니다. ARC는 "인공 일반 지능을 위한 추상화 및 추론 코퍼스(Abstraction and Reasoning Corpus for Artificial General Intelligence)"의 약자입니다. 이 벤치마크는 인공지능 시스템이 명시적으로 훈련받지 않은 새로운 작업을 이해하고 해결하는 능력을 평가하기 위해 만들어졌습니다.

이 벤치마크는 숄레가 그의 획기적인 논문 "지능 측정에 관하여"에서 제시한 지능 정의를 기반으로 개발되었습니다. 그는 진정한 지능은 특정 작업을 숙달하는 데 있는 것이 아니라 새로운 기술을 효율적으로 습득하는 데 있다고 주장합니다. 이 테스트는 색깔 있는 격자로 이루어진 시각적 퍼즐로 구성되어 있으며, AI 시스템은 숨겨진 변환 규칙을 파악하고 이를 새로운 예시에 적용해야 합니다.

ARC-AGI는 다른 AI 벤치마크와 어떻게 다른가요?

기존의 AI 테스트는 종종 사전 지식이나 암기된 패턴에 의존하는 반면, ARC-AGI는 소위 "핵심 지식 사전 지식"에 초점을 맞춥니다. 이는 사물 영속성, 계산, 공간 추론과 같은 기본적인 인지 능력입니다. 이러한 능력은 일반적으로 인간이 4세 무렵에 습득합니다.

결정적인 차이점은 ARC-AGI가 단순한 암기나 데이터 보간으로는 해결할 수 없도록 특별히 설계되었다는 점입니다. 벤치마크의 각 작업은 고유하며 테스트를 위해 특별히 개발되었으므로 온라인에는 해당 작업의 예시가 존재하지 않습니다. 따라서 이 테스트는 대규모 훈련 데이터셋에 의존하는 일반적인 AI 시스템의 전략에 저항력이 있습니다.

ARC-AGI 벤치마크에는 어떤 버전들이 있나요?

현재 벤치마크에는 세 가지 주요 버전이 있습니다

ARC-AGI-1

2019년 오리지널 버전은 정적인 시각 퍼즐로 구성되어 있습니다. 사람들은 이 게임에서 평균 95%의 점수를 기록하는 반면, 대부분의 AI 시스템은 오랫동안 5% 미만의 점수를 기록해 왔습니다.

ARC-AGI-2

이 향상된 버전은 2025년에 출시되었으며, 현대 추론 시스템에도 도전 과제를 제시하도록 특별히 설계되었습니다. 인간은 거의 100%의 성공률을 달성하는 반면, 최첨단 AI 모델조차도 10~20%의 작업만 처리할 수 있습니다.

ARC-AGI-3

아직 개발 중인 최신 버전에서는 상호작용 요소가 도입되었습니다. 정적인 퍼즐 대신, AI 에이전트는 마치 인간이 새로운 환경을 탐험하는 것처럼 격자형 세계에서 탐색과 시행착오를 통해 학습해야 합니다.

ARC-AGI 테스트에서 다양한 AI 모델은 어떤 성능을 보일까요?

서로 다른 AI 모델 간의 성능 차이는 상당합니다

ARC-AGI-1의 경우, Grok 4는 약 68%의 정확도를 달성했고, GPT-5는 65.7%의 정확도를 달성했습니다. 작업당 비용은 Grok 4가 약 1달러, GPT-5가 약 0.51달러입니다.

더 어려운 테스트인 ARC-AGI-2에서는 성능이 급격히 떨어집니다. GPT-5는 작업당 0.73달러의 비용으로 9.9%의 정확도를 달성하는 데 그쳤고, Grok 4(Thinking)는 약 16%의 정확도를 보였지만 비용은 2~4달러로 훨씬 높았습니다.

예상대로 저렴한 모델 변형은 성능이 떨어집니다. GPT-5 Mini는 AGI-1에서 54.3%, AGI-2에서 4.4%의 성능을 보인 반면, GPT-5 Nano는 각각 16.5%와 2.5%에 그쳤습니다.

o3 프리뷰 모델의 비밀은 무엇일까요?

OpenAI의 o3 프리뷰 모델은 특별한 사례입니다. 2024년 12월, 이 모델은 사용된 컴퓨팅 성능에 따라 ARC-AGI-1에서 75.7%에서 87.5%에 이르는 인상적인 성능 점수를 달성했습니다. 이는 AI 시스템이 인간의 성능 한계인 85%를 넘어선 최초의 사례였습니다.

하지만 중요한 한계점이 하나 있습니다. 공개된 o3 버전은 초기 프리뷰 버전보다 성능이 현저히 떨어집니다. ARC Prize에 따르면, 공개된 o3는 ARC-AGI-1에서 낮은 연산 부하에서는 41%, 중간 연산 부하에서는 53%의 성능만을 보였는데, 이는 프리뷰 버전의 76~88%에 비해 크게 낮은 수치입니다.

OpenAI는 공개된 모델이 더 작고 다른 아키텍처를 가지고 있으며 채팅 및 제품 애플리케이션에 최적화되어 있다고 확인했습니다. 이러한 차이는 모델의 실제 성능에 대한 의문을 제기하며, 공개되지 않은 모델의 벤치마크 결과를 비판적으로 평가하는 것이 중요하다는 점을 강조합니다.

ARC Prize 공모전은 어떻게 진행되나요?

ARC 프라이즈는 총 상금이 100만 달러가 넘는 연례 대회로, 능동형 범용 아키텍처(AGI)를 향한 오픈 소스 발전을 촉진하는 것을 목표로 합니다. 현재 진행 중인 2025년 대회는 3월 26일부터 11월 3일까지 Kaggle 플랫폼에서 진행됩니다.

가격 구조는 다음과 같습니다

대상(미화 70만 달러): 팀이 비공개 평가 데이터 세트에서 85%의 정확도를 달성하면 수여됩니다
최고 점수상 (미화 75,000달러): 가장 높은 점수를 획득한 팀에게 수여됩니다
논문상 (미화 5만 달러): 가장 중요한 개념적 진전을 이룬 논문에 수여
기타 상금 (미화 175,000달러): 추가 부문은 추후 발표 예정

모든 수상자는 자신의 솔루션을 오픈 소스로 공개하는 것이 중요합니다. 이는 인공 일반 지능(AGI) 발전을 전체 연구 커뮤니티가 이용할 수 있도록 하려는 ARC Prize Foundation의 사명과 일치합니다.

ARC-AGI 벤치마크의 기술적 과제는 무엇입니까?

ARC-AGI의 과제는 인간에게는 자명하지만 AI 시스템에게는 극히 어려운 여러 인지 능력을 요구합니다

기호 해석

인공지능은 추상적인 기호를 이해하고 문맥으로부터 그 의미를 도출해야 합니다.

다단계 구성적 사고

문제는 하위 단계로 나누어 순차적으로 해결해야 합니다.

컨텍스트 종속 규칙 적용

같은 규칙이라도 상황에 따라 다르게 적용해야 할 수 있습니다.

몇 가지 사례를 통한 일반화

일반적으로 변환 규칙을 도출해야 하는 데모 쌍은 2~3개에 불과합니다.

ARC-AGI 문제 해결에 있어 테스트 시간 훈련은 어떤 역할을 할까요?

테스트 타임 트레이닝(TTT)은 ARC-AGI 성능 향상에 유망한 접근 방식임이 입증되었습니다. 이 방법은 사전 학습된 지식에만 의존하는 대신 추론 중에 현재 입력 데이터에 맞춰 모델 매개변수를 동적으로 조정합니다.

MIT 연구진은 TTT(Time To Task) 기법이 ARC-AGI에서 언어 모델의 성능을 크게 향상시킨다는 것을 입증했습니다. 이 기법은 모델이 작업 해결 과정에서 적응하고 특정 예제로부터 학습할 수 있도록 합니다. 이는 어려운 문제에 더 많은 시간을 투자하는 인간의 문제 해결 방식을 모방한 것입니다.

EU/독일 데이터 보안 | 모든 비즈니스 요구사항을 위한 독립적이고 다양한 데이터 소스를 지원하는 AI 플랫폼 통합

유럽 기업을 위한 전략적 대안으로서의 독립형 AI 플랫폼 - 이미지: Xpert.Digital

AI 판도를 바꾸는 혁신: 가장 유연한 AI 플랫폼 - 비용 절감, 의사 결정 개선 및 효율성 증대를 위한 맞춤형 솔루션

독립형 AI 플랫폼: 회사 관련 모든 데이터 소스를 통합합니다

신속한 AI 통합: 기업 맞춤형 AI 솔루션을 몇 달이 아닌 몇 시간 또는 며칠 내에 제공합니다
유연한 인프라: 클라우드 기반 또는 자체 데이터 센터 호스팅(독일, 유럽, 위치 자유 선택 가능)

최고의 데이터 보안: 로펌에서의 사용 사례가 이를 명백히 입증합니다
다양한 엔터프라이즈 데이터 소스에 걸친 배포
자체 AI 모델 또는 다른 AI 모델(독일, 유럽, 미국, 중국) 선택 가능

자세한 내용은 여기에서 확인하세요:

독립형 AI 플랫폼과 하이퍼스케일러 중 어떤 솔루션이 적합할까요?

확장성을 넘어선 인공지능: ARC-AGI 테스트에서 얻은 통찰

이번 연구 결과가 인공 일반 지능(AGI) 개발에 어떤 의미를 갖는가?

연구 결과는 인간과 인공지능 사이에 상당한 격차가 있음을 보여줍니다. 인간은 ARC-AGI 과제를 직관적으로 해결하는 반면, 가장 발전된 AI 시스템조차 기본적인 인지 과제에서 실패합니다.

프랑수아 숄레는 현재의 인공지능 개발 패러다임, 즉 더 많은 데이터를 사용하여 점점 더 큰 모델을 학습시키는 방식이 한계에 도달했다고 주장합니다. 모델 크기가 기하급수적으로 증가했음에도 불구하고 ARC-AGI에서 나타난 저조한 결과는 "유동적 지능은 사전 학습 규모를 확장하는 것만으로는 나타나지 않는다"는 것을 증명한다고 그는 봅니다.

미래는 테스트 타임 적응과 같은 새로운 접근 방식에 있을 수 있습니다. 이러한 방식에서는 모델이 런타임에 자체 상태를 변경하여 새로운 상황에 적응할 수 있습니다.

ARC-AGI 벤치마크의 미래는 어떤 모습일까요?

ARC Prize 재단은 벤치마크의 지속적인 개발을 계획하고 있습니다. 상호작용 요소를 포함한 ARC-AGI-3는 2026년 정식 출시 예정이며, 약 100개의 고유한 환경을 포함할 것입니다.

재단은 인공 일반 지능(AGI) 개발의 "나침반" 역할을 할 기준점을 마련하는 것을 목표로 합니다. 이는 단순히 진척도를 측정하는 것을 넘어, 진정한 일반 지능으로 이어질 수 있는 방향으로 연구를 이끌어가는 것을 의미합니다.

벤치마크 성과가 경제에 미치는 영향은 무엇일까요?

ARC-AGI 문제를 해결하는 데 드는 비용은 모델마다 크게 다르며, 이는 실제 적용 가능성에 직접적인 영향을 미칩니다.

간단한 작업은 API 비용이 몇 센트 수준으로 저렴하지만, 복잡한 추론 작업의 경우 비용이 급격히 증가합니다. 예를 들어, o3 모델은 높은 컴퓨팅 성능을 요구할 경우 작업당 최대 1,000달러의 비용이 발생할 수 있습니다.

이러한 비용 구조는 기술적 돌파구가 마련되더라도 인공 일반 지능(AGI) 기술의 광범위한 적용을 위해서는 경제적 타당성이 여전히 중요한 요소임을 보여줍니다.

ARC-AGI 연구 결과가 갖는 철학적 함의는 무엇인가?

이번 결과는 지능의 본질에 대한 근본적인 질문을 제기합니다. 이 기준은 패턴을 암기하는 것과 진정한 이해 사이에는 근본적인 차이가 있음을 보여줍니다.

인간이 이러한 과제를 손쉽게 해결하는 반면 AI 시스템은 실패한다는 사실은 인간 지능이 현재의 AI 접근 방식과는 질적으로 다르다는 것을 시사합니다. 이는 인공 일반 지능(AGI)이 단순히 더 큰 모델과 더 많은 데이터 이상의 것을 요구한다는 숄레의 주장을 뒷받침합니다.

ARC-AGI는 인공지능 연구의 방향에 어떤 영향을 미치나요?

이 벤치마크는 이미 AI 연구에 대한 재고를 불러일으켰습니다. 주요 연구소들은 이제 모델 확장에만 집중하는 대신, 테스트 시간 컴퓨팅 및 적응형 시스템과 같은 대안적인 접근 방식을 모색하고 있습니다.

이러한 변화는 투자에도 반영되어, 기업들은 단순히 대규모 학습을 진행하는 대신 보다 효율적인 추론 및 문제 해결 방법에 대한 연구에 투자를 늘리고 있습니다.

오픈소스 커뮤니티는 어떤 역할을 하나요?

ARC Prize 재단은 인공 일반 지능(AGI) 발전을 위해 오픈 소스 개발의 중요성을 강조합니다. 모든 대회 수상자는 자신의 솔루션을 공개적으로 이용 가능하게 해야 합니다.

이러한 철학은 인공 일반 지능(AGI)이 폐쇄적인 연구실에서만 개발되기에는 너무나 중요하다는 확신에 기반합니다. 재단은 협력적이고 투명한 연구 공동체를 위한 촉매제 역할을 자처합니다.

ARC-AGI 벤치마크의 한계점은 무엇인가요?

중요성에도 불구하고 ARC-AGI에는 한계점도 있습니다. 숄레 본인도 시험 통과가 곧 인공 일반 지능(AGI) 달성을 의미하는 것은 아니라고 강조합니다. 이 기준은 지능의 한 측면, 즉 추상적인 문제를 해결하는 능력만을 측정할 뿐입니다.

창의성, 감성 지능, 장기 계획 능력과 같은 다른 중요한 측면은 평가되지 않습니다. 더욱이, ARC-AGI에 최적화된 시스템이 개발되더라도 실제로는 일반 지능이 없으면서도 테스트를 통과할 위험이 있습니다.

ARC-AGI 환경에서 AI 모델 개발 비용은 어떻게 변화하고 있습니까?

비용 추이를 살펴보면 흥미로운 경향이 드러납니다. 성능 향상은 느리게 진행되는 반면, 미미한 개선을 위한 비용은 기하급수적으로 증가하고 있습니다.

이러한 비용 역학은 중요한 통찰력을 제공합니다. 바로 효율성이 결정적인 차별화 요소가 되고 있다는 것입니다. ARC Prize 재단은 정확성뿐만 아니라 해결된 문제당 비용 또한 중요한 기준이라고 강조합니다.

ARC-AGI는 미래의 일자리에 어떤 의미를 갖는가?

이번 결과는 여러 직종에 안심할 만한 의미를 지닙니다. 인공지능 시스템이 기본적인 사고 과제를 해결하지 못한다는 것은 인간의 인지 능력이 결코 대체될 수 없다는 것을 보여줍니다.

동시에, 전문적인 작업 분야에서의 발전은 인공지능이 인간의 일을 완전히 대체하기보다는 지원하는 도구로서의 역할을 계속 수행할 것임을 시사합니다.

ARC-AGI에서 어떤 새로운 연구 접근법이 등장했는가?

이 기준점은 여러 혁신적인 연구 방향을 제시했습니다

프로그램 합성

문제를 해결하는 프로그램을 생성하는 시스템.

신경상징적 접근법

신경망과 기호 추론의 결합.

다중 에이전트 시스템

여러 전문 요원들이 협력하고 있습니다.

진화 알고리즘

진화를 통해 해결책을 개발하는 시스템.

ARC 상 재단의 미래 비전은 무엇인가요?

재단은 명확한 사명을 추구합니다. 바로 개방형 인공 일반 지능(AGI) 개발을 위한 "나침반" 역할을 하는 것입니다. 이는 기술적 기준점 설정뿐 아니라, 혁신을 촉진하고 AGI 발전이 모든 인류에게 혜택을 줄 수 있도록 보장하는 생태계 조성까지 포함합니다.

새로운 벤치마크 버전을 지속적으로 개발하는 것은 기준을 끊임없이 높이고 연구가 정체되지 않도록 하기 위한 것입니다. 재단은 ARC-AGI-3 및 향후 버전을 통해 인공지능이 할 수 있는 일의 한계와 아직 부족한 점을 더욱 탐구하고자 합니다.

컨설팅, 기획, 실행, 프로젝트 관리 등 모든 서비스를 제공합니다

☑️ 중소기업의 전략, 컨설팅, 기획 및 실행 지원

☑️ AI 전략 수립 또는 재정비

☑️ 선구적인 사업 개발