Confronto de IA no benchmark ARC de modelos de IA: GPT-5 vs. Grok vs o3
Pré-lançamento do Xpert
Seleção de voz 📢
Publicado em: 8 de agosto de 2025 / Atualizado em: 8 de agosto de 2025 – Autor: Konrad Wolfenstein
A grande desilusão: por que modelos de IA cada vez maiores falham no teste crucial de inteligência
O que é o benchmark ARC-AGI e por que ele foi desenvolvido?
O benchmark ARC-AGI é uma série de testes para medir a inteligência geral de sistemas de IA, desenvolvida por François Chollet em 2019. ARC significa "Corpus de Abstração e Raciocínio para Inteligência Artificial Geral". O benchmark foi criado para avaliar a capacidade dos sistemas de IA de compreender e resolver novas tarefas para as quais não foram explicitamente treinados.
O desenvolvimento do benchmark baseia-se na definição de inteligência de Chollet, contida em seu artigo seminal "Sobre a Medida da Inteligência". Ele argumenta que a verdadeira inteligência não reside no domínio de tarefas específicas, mas na eficiência na aquisição de novas habilidades. O teste consiste em quebra-cabeças visuais com grades coloridas, nos quais os sistemas de IA devem reconhecer as regras de transformação subjacentes e aplicá-las a novos exemplos.
Como o ARC-AGI se diferencia de outros benchmarks de IA?
Ao contrário dos testes convencionais de IA, que frequentemente se baseiam em conhecimento prévio ou padrões memorizados, o ARC-AGI concentra-se nos chamados "conhecimentos prévios essenciais" – habilidades cognitivas básicas, como permanência de objetos, contagem e compreensão espacial. Essas habilidades geralmente são adquiridas aos quatro anos de idade.
A principal diferença é que o ARC-AGI foi projetado especificamente para ser solucionado por meio de memorização pura ou interpolação de dados. Cada tarefa no benchmark é única e foi desenvolvida especificamente para o teste, portanto, não deve haver exemplos online. Isso torna o teste resistente às estratégias usuais de sistemas de IA baseados em grandes quantidades de dados de treinamento.
Quais são as diferentes versões do benchmark ARC-AGI?
Agora existem três versões principais do benchmark:
ARC-AGI-1
A versão original de 2019, que consiste em quebra-cabeças visuais estáticos, tem humanos atingindo uma média de 95%, enquanto a maioria dos sistemas de IA está há muito tempo abaixo de 5%.
ARC-AGI-2
Esta versão aprimorada, lançada em 2025, foi projetada especificamente para desafiar até mesmo os sistemas de raciocínio modernos. Enquanto os humanos continuam a atingir um desempenho próximo de 100%, mesmo modelos avançados de IA conseguem realizar apenas 10 a 20% das tarefas.
ARC-AGI-3
A versão mais recente, ainda em desenvolvimento, introduz elementos interativos. Em vez de quebra-cabeças estáticos, os agentes de IA devem aprender por meio de exploração e tentativa e erro em um mundo em grade, semelhante à forma como os humanos exploram novos ambientes.
Como diferentes modelos de IA se saem nos testes ARC-AGI?
As diferenças de desempenho entre diferentes modelos de IA são significativas:
No ARC-AGI-1, o Grok 4 atinge aproximadamente 68%, enquanto o GPT-5 atinge 65,7%. O custo por tarefa é de aproximadamente US$ 1 para o Grok 4 e US$ 0,51 para o GPT-5.
No ARC-AGI-2, o teste mais difícil, o desempenho cai drasticamente: o GPT-5 atinge apenas 9,9% a um custo de US$ 0,73 por tarefa, enquanto o Grok 4 (Pensamento) tem um desempenho melhor, cerca de 16%, embora a um custo significativamente maior de US$ 2-4.
Como esperado, variantes de modelos mais baratos apresentam desempenho mais fraco: o GPT-5 Mini atinge 54,3% no AGI-1 e 4,4% no AGI-2, enquanto o GPT-5 Nano atinge apenas 16,5% e 2,5%, respectivamente.
Qual é o segredo do modelo de visualização o3?
O modelo o3-preview da OpenAI representa um caso especial. Em dezembro de 2024, alcançou impressionantes 75,7% a 87,5% no ARC-AGI-1, dependendo do poder computacional utilizado. Esta foi a primeira vez que um sistema de IA ultrapassou o limite de desempenho humano de 85%.
No entanto, há uma limitação importante: a versão pública do o3 apresenta desempenho significativamente pior do que a versão de pré-visualização original. De acordo com o Prêmio ARC, a versão lançada do o3 atinge apenas 41% (computação baixa) e 53% (computação média) no ARC-AGI-1, em comparação com 76-88% da versão de pré-visualização.
A OpenAI confirmou que o modelo publicado possui uma arquitetura diferente e menor, sendo otimizado para aplicativos de bate-papo e produtos. Essa discrepância levanta questões sobre suas reais capacidades e destaca a importância de examinar criticamente os resultados de benchmark de modelos não publicados.
Como funciona o concurso Prêmio ARC?
O Prêmio ARC é uma competição anual com um fundo de premiação total de mais de um milhão de dólares americanos, com o objetivo de promover o progresso do código aberto em direção à IA. A competição atual, de 2025, acontece de 26 de março a 3 de novembro na plataforma Kaggle.
A estrutura de preços inclui:
- Grande Prêmio (700.000 USD): Desbloqueado quando uma equipe atinge 85% de precisão no conjunto de dados de avaliação privada
- Prêmio de maior pontuação (75.000 USD): para as equipes com as maiores pontuações
- Prêmio de Artigo (50.000 USD): Para os avanços conceituais mais significativos
- Prêmios adicionais (175.000 USD): categorias adicionais a serem anunciadas
É importante ressaltar que todos os vencedores devem publicar suas soluções como código aberto. Isso está em linha com a missão da Fundação Prêmio ARC de tornar os avanços da IAG acessíveis a toda a comunidade científica.
Quais são os desafios técnicos do benchmark ARC-AGI?
As tarefas no ARC-AGI exigem diversas habilidades cognitivas que são naturais para humanos, mas extremamente difíceis para sistemas de IA:
Interpretação de símbolos
A IA deve entender símbolos abstratos e derivar seu significado do contexto.
Pensamento composicional multinível
Os problemas devem ser divididos em subetapas e resolvidos sequencialmente.
Aplicação de regras dependentes do contexto
A mesma regra pode precisar ser aplicada de forma diferente dependendo do contexto.
Generalização a partir de alguns exemplos
Normalmente, apenas 2-3 pares de demonstração estão disponíveis dos quais a regra de transformação deve ser derivada.
Qual o papel do treinamento em tempo de teste na resolução do ARC-AGI?
O treinamento em tempo de teste (TTT) provou ser uma abordagem promissora para melhorar o desempenho em ARC-AGI. Este método adapta dinamicamente os parâmetros do modelo aos dados de entrada atuais durante a inferência, em vez de depender apenas do conhecimento pré-treinado.
Pesquisadores do MIT demonstraram que o TTT melhora significativamente o desempenho de modelos de linguagem no ARC-AGI. O método permite que os modelos se adaptem durante a resolução de tarefas e aprendam com exemplos específicos. Isso imita o comportamento humano de resolução de problemas, no qual dedicamos mais tempo a problemas complexos.
Segurança de Dados UE/DE | Integração de uma plataforma de IA independente e de fonte cruzada de dados para todas as necessidades empresariais
Plataformas independentes de IA como alternativa estratégica para empresas europeias – Imagem: Xpert.Digital
Ki-Gamechanger: a plataforma de IA mais flexível – soluções personalizadas que reduzem os custos, melhoram suas decisões e aumentam a eficiência
Plataforma AI independente: integra todas as fontes de dados da empresa relevantes
- Integração rápida da IA: soluções de IA personalizadas para empresas em horas ou dias em vez de meses
- Infraestrutura flexível: baseada em nuvem ou hospedagem em seu próprio data center (Alemanha, Europa, escolha livre de localização)
- Segurança de dados mais alta: o uso em escritórios de advocacia é a evidência segura
- Use em uma ampla variedade de fontes de dados da empresa
- Escolha de seus modelos de IA ou vários ou vários modelos (UE, EUA, CN)
Mais sobre isso aqui:
Inteligência Artificial Além da Escala: Insights do Teste ARC-AGI
O que os resultados significam para o desenvolvimento da AGI?
Os resultados revelam uma clara lacuna entre a inteligência humana e a artificial. Enquanto os humanos resolvem tarefas de ARC-AGI intuitivamente, mesmo os sistemas de IA de última geração falham em tarefas básicas de raciocínio.
François Chollet argumenta que o paradigma atual de desenvolvimento de IA – treinar modelos cada vez maiores com mais dados – atingiu seus limites. Os resultados insatisfatórios do ARC-AGI, apesar do aumento exponencial do tamanho do modelo, comprovam, em sua opinião, que "a inteligência fluida não surge do escalonamento do pré-treinamento".
O futuro pode estar em novas abordagens, como a adaptação em tempo de teste, onde os modelos podem mudar seus próprios estados em tempo de execução para se adaptar a novas situações.
Como será o futuro do benchmark ARC-AGI?
A Fundação ARC Prize planeja desenvolver continuamente o benchmark. O ARC-AGI-3, com seus elementos interativos, tem lançamento completo previsto para 2026 e incluirá aproximadamente 100 ambientes exclusivos.
O objetivo da Fundação é desenvolver parâmetros que sirvam de referência para o desenvolvimento da IA. Isso não visa apenas medir o progresso, mas também orientar a pesquisa em direções que possam levar à verdadeira inteligência geral.
Quais são as implicações econômicas do desempenho de referência?
O custo de resolução de tarefas ARC-AGI varia muito entre os modelos e tem um impacto direto na aplicabilidade prática.
Embora tarefas simples possam ser resolvidas com custos de API na faixa de centavos, os custos para tarefas complexas de raciocínio aumentam rapidamente. O modelo o3, por exemplo, pode custar até US$ 1.000 por tarefa com alto poder de computação.
Essa estrutura de custos demonstra que, mesmo que avanços técnicos sejam alcançados, a viabilidade econômica continua sendo um fator crucial para a adoção generalizada de tecnologias AGI.
Quais são as implicações filosóficas dos resultados do ARC-AGI?
Os resultados levantam questões fundamentais sobre a natureza da inteligência. O benchmark mostra que há uma diferença fundamental entre memorizar padrões e a verdadeira compreensão.
O fato de os humanos resolverem essas tarefas sem esforço, enquanto os sistemas de IA falham, sugere que a inteligência humana funciona qualitativamente diferente das abordagens de IA atuais. Isso corrobora o argumento de Chollet de que a IA Externa requer mais do que apenas modelos maiores e mais dados.
Como o ARC-AGI influencia a pesquisa em IA?
O benchmark já levou a uma reformulação da pesquisa em IA. Em vez de se concentrar exclusivamente em modelos de escala, os principais laboratórios agora estão explorando abordagens alternativas, como computação em tempo de teste e sistemas adaptativos.
Essa mudança também se reflete nos investimentos: as empresas estão investindo cada vez mais em pesquisas sobre raciocínio e resolução de problemas mais eficientes, em vez de treinamentos cada vez maiores.
Qual o papel da comunidade de código aberto?
A Fundação Prêmio ARC enfatiza a importância do desenvolvimento de código aberto para o avanço da IA. Todos os vencedores do concurso devem disponibilizar suas soluções publicamente.
Essa filosofia se baseia na convicção de que a IA é importante demais para ser desenvolvida exclusivamente em laboratórios fechados. A Fundação se considera um catalisador para uma comunidade de pesquisa colaborativa e transparente.
Quais são as limitações do benchmark ARC-AGI?
Apesar de sua importância, o ARC-AGI também apresenta limitações. O próprio Chollet enfatiza que passar no teste não equivale a alcançar a AGI. O benchmark mede apenas um aspecto da inteligência – a capacidade de resolver problemas abstratos.
Outros aspectos importantes, como criatividade, inteligência emocional ou planejamento de longo prazo, não são mensurados. Além disso, existe o risco de que sistemas especificamente otimizados para ARC-AGI sejam desenvolvidos e passem no teste sem serem verdadeiramente inteligentes em geral.
Como os custos dos modelos de IA estão se desenvolvendo no contexto do ARC-AGI?
As tendências de custos estão mostrando tendências interessantes. Embora o desempenho aumente lentamente, os custos para melhorias marginais estão disparando.
Essa dinâmica de custos leva a um insight importante: a eficiência está se tornando o principal diferencial. A Fundação ARC Prize enfatiza que não apenas a precisão, mas também o custo por tarefa resolvida é um critério importante.
O que o ARC-AGI significa para o futuro do trabalho?
Os resultados têm implicações animadoras para muitas profissões. A incapacidade dos sistemas de IA de resolver tarefas básicas de raciocínio demonstra que as habilidades cognitivas humanas estão longe de serem substituídas.
Ao mesmo tempo, o progresso em tarefas especializadas sugere que a IA continuará a servir como uma ferramenta para dar suporte ao trabalho humano, em vez de substituí-lo completamente.
Que novas abordagens de pesquisa estão surgindo por meio do ARC-AGI?
O benchmark inspirou diversas direções de pesquisa inovadoras:
Síntese do Programa
Sistemas que geram programas para resolver problemas.
Abordagens neurosimbólicas
Combinação de redes neurais com raciocínio simbólico.
Sistemas multiagentes
Vários agentes especializados trabalham juntos.
Algoritmos evolucionários
Sistemas que desenvolvem soluções de forma evolutiva.
Qual é a visão da Fundação ARC Prize para o futuro?
A Fundação tem uma missão clara: servir como um "guia" para o desenvolvimento da IAG aberta. Não se trata apenas de estabelecer referências técnicas, mas de criar um ecossistema que promova a inovação e, ao mesmo tempo, garanta que os avanços da IAG beneficiem toda a humanidade.
O desenvolvimento contínuo de novas versões de benchmark visa garantir que o nível de exigência seja continuamente elevado e que a pesquisa não estagne. Com o ARC-AGI-3 e versões futuras, a Fundação pretende explorar ainda mais os limites do que a IA pode fazer e o que ainda lhe falta.
Estamos lá para você – Conselhos – Planejamento – Implementação – Gerenciamento de Projetos
☑️ Apoio às PME em estratégia, consultoria, planeamento e implementação
☑️ Criação ou realinhamento da estratégia de IA
☑️ Desenvolvimento de negócios pioneiro
Ficarei feliz em servir como seu conselheiro pessoal.
Você pode entrar em contato comigo preenchendo o formulário de contato abaixo ou simplesmente ligando para +49 89 89 674 804 (Munique) .
Estou ansioso pelo nosso projeto conjunto.
Xpert.digital – Konrad Wolfenstein
Xpert.Digital é um hub para a indústria com foco em digitalização, engenharia mecânica, logística/intralogística e energia fotovoltaica.
Com nossa solução de desenvolvimento de negócios 360°, apoiamos empresas conhecidas, desde novos negócios até o pós-venda.
Inteligência de mercado, smarketing, automação de marketing, desenvolvimento de conteúdo, PR, campanhas por email, mídias sociais personalizadas e nutrição de leads fazem parte de nossas ferramentas digitais.
Você pode encontrar mais em: www.xpert.digital – www.xpert.solar – www.xpert.plus