Confronto de IA no benchmark ARC de modelos de IA: GPT-5 vs. Grok vs. o3

Konrad Wolfenstein

12 meses atrás

Confronto de IA no benchmark ARC de modelos de IA: GPT-5 vs. Grok vs. o3

Comparativo de IA no benchmark ARC de modelos de IA: GPT-5 vs. Grok vs. o3 – Imagem: Xpert.Digital

A grande desilusão: por que modelos de IA cada vez maiores falham no teste crucial de inteligência?

O que é o benchmark ARC-AGI e por que ele foi desenvolvido?

O benchmark ARC-AGI é uma série de testes para medir a inteligência geral de sistemas de IA, desenvolvida em 2019 por François Chollet. ARC significa "Abstraction and Reasoning Corpus for Artificial General Intelligence" (Corpus de Abstração e Raciocínio para Inteligência Artificial Geral). O benchmark foi criado para avaliar a capacidade de sistemas de IA de compreender e resolver novas tarefas para as quais não foram explicitamente treinados.

O desenvolvimento do benchmark baseia-se na definição de inteligência de Chollet, presente em seu artigo seminal "Sobre a Medida da Inteligência". Ele argumenta que a verdadeira inteligência reside não no domínio de tarefas específicas, mas na eficiência da aquisição de novas habilidades. O teste consiste em quebra-cabeças visuais com grades coloridas, nos quais os sistemas de IA devem identificar as regras de transformação subjacentes e aplicá-las a novos exemplos.

Em que o ARC-AGI difere de outros benchmarks de IA?

Ao contrário dos testes convencionais de IA, que muitas vezes dependem de conhecimento prévio ou padrões memorizados, o ARC-AGI concentra-se nos chamados "Conhecimentos Prévios Essenciais" — habilidades cognitivas fundamentais, como permanência do objeto, contagem e raciocínio espacial. Essas habilidades são normalmente adquiridas pelos humanos por volta dos quatro anos de idade.

A diferença crucial reside no fato de que o ARC-AGI foi especificamente projetado para ser insolúvel por meio de mera memorização ou interpolação de dados. Cada tarefa no benchmark é única e foi desenvolvida especificamente para o teste, portanto, não devem existir exemplos dela online. Isso torna o teste resistente às estratégias típicas de sistemas de IA que dependem de grandes conjuntos de dados de treinamento.

Quais são as diferentes versões do benchmark ARC-AGI?

Existem agora três versões principais do benchmark:

ARC-AGI-1

A versão original de 2019 consiste em quebra-cabeças visuais estáticos. Humanos alcançam uma pontuação média de 95% neste jogo, enquanto a maioria dos sistemas de IA há muito tempo obtém pontuações abaixo de 5%.

ARC-AGI-2

Esta versão aprimorada foi lançada em 2025 e foi projetada especificamente para representar um desafio até mesmo para os sistemas de raciocínio modernos. Enquanto os humanos continuam a alcançar quase 100% de sucesso, mesmo os modelos de IA avançados conseguem realizar apenas de 10 a 20% das tarefas.

ARC-AGI-3

A versão mais recente, ainda em desenvolvimento, introduz elementos interativos. Em vez de quebra-cabeças estáticos, os agentes de IA devem aprender por meio da exploração e da tentativa e erro em um mundo quadriculado, de forma muito semelhante à maneira como os humanos exploram novos ambientes.

Como se comportam os diferentes modelos de IA nos testes ARC-AGI?

As diferenças de desempenho entre os diferentes modelos de IA são significativas:

Para o ARC-AGI-1, o Grok 4 atinge aproximadamente 68%, enquanto o GPT-5 alcança 65,7%. O custo por tarefa é de aproximadamente US$ 1 para o Grok 4 e US$ 0,51 para o GPT-5.

No ARC-AGI-2, o teste mais difícil, o desempenho cai drasticamente: o GPT-5 atinge apenas 9,9% a um custo de US$ 0,73 por tarefa, enquanto o Grok 4 (Thinking) tem um desempenho melhor, em torno de 16%, mas a um custo significativamente maior, de US$ 2 a US$ 4.

Como esperado, as variantes mais baratas do modelo apresentam desempenho inferior: o GPT-5 Mini atinge 54,3% no AGI-1 e 4,4% no AGI-2, enquanto o GPT-5 Nano alcança apenas 16,5% e 2,5%, respectivamente.

Qual é o segredo por trás do modelo de pré-visualização do o3?

O modelo de pré-visualização o3 da OpenAI representa um caso especial. Em dezembro de 2024, ele alcançou pontuações de desempenho impressionantes, variando de 75,7% a 87,5% no ARC-AGI-1, dependendo da capacidade computacional utilizada. Essa foi a primeira vez que um sistema de IA ultrapassou o limite de desempenho humano de 85%.

No entanto, existe uma limitação importante: a versão pública do o3 apresenta um desempenho significativamente inferior à versão de pré-visualização original. De acordo com o ARC Prize, a versão lançada do o3 atinge apenas 41% (computação baixa) e 53% (computação média) no ARC-AGI-1, em comparação com os 76-88% da versão de pré-visualização.

A OpenAI confirmou que o modelo publicado possui uma arquitetura diferente, menor, e é otimizado para aplicativos de bate-papo e de produtos. Essa discrepância levanta questões sobre suas capacidades reais e destaca a importância de avaliar criticamente os resultados de benchmarks de modelos não publicados.

Como funciona o concurso do Prémio ARC?

O Prêmio ARC é uma competição anual com uma premiação total de mais de um milhão de dólares americanos, cujo objetivo é promover o progresso do código aberto em direção à IAG (Arquitetura Ativamente Genérica). A edição atual da competição, em 2025, acontece de 26 de março a 3 de novembro na plataforma Kaggle.

A estrutura de preços inclui:

Grande Prêmio (USD 700.000): Desbloqueado quando uma equipe atingir 85% de precisão no conjunto de dados de avaliação privado
Prêmio para a Melhor Pontuação (USD 75.000): Para as equipes com as maiores pontuações
Prêmio para o artigo (USD 50.000): Para os avanços conceituais mais significativos
Outros prêmios (USD 175.000): Categorias adicionais a serem anunciadas

É importante que todos os vencedores publiquem suas soluções como código aberto. Isso está alinhado com a missão da Fundação ARC Prize de tornar os avanços da Inteligência Artificial Geral (IAG) acessíveis a toda a comunidade de pesquisa.

Quais são os desafios técnicos do benchmark ARC-AGI?

As tarefas no ARC-AGI exigem diversas habilidades cognitivas que são óbvias para os humanos, mas extremamente difíceis para os sistemas de IA:

Interpretação de símbolos

A IA precisa compreender símbolos abstratos e extrair seu significado do contexto.

Pensamento composicional em múltiplos estágios

Os problemas devem ser divididos em subetapas e resolvidos sequencialmente.

Aplicação de regras dependente do contexto

A mesma regra pode precisar ser aplicada de forma diferente, dependendo do contexto.

Generalização a partir de alguns exemplos

Normalmente, apenas 2 a 3 pares de demonstração estão disponíveis a partir dos quais a regra de transformação deve ser derivada.

Qual o papel do treinamento em tempo de teste na solução do problema ARC-AGI?

O treinamento em tempo de teste (TTT, na sigla em inglês) provou ser uma abordagem promissora para melhorar o desempenho no ARC-AGI. Esse método ajusta dinamicamente os parâmetros do modelo aos dados de entrada atuais durante a inferência, em vez de depender exclusivamente de conhecimento pré-treinado.

Pesquisadores do MIT demonstraram que o TTT melhora significativamente o desempenho de modelos de linguagem no ARC-AGI. O método permite que os modelos se adaptem durante a resolução de tarefas e aprendam com exemplos específicos. Isso imita o comportamento humano na resolução de problemas, em que dedicamos mais tempo a problemas difíceis.

Segurança de dados na UE/Alemanha | Integração de uma plataforma de IA independente e com múltiplas fontes de dados para todas as necessidades de negócios

Plataformas independentes de IA como alternativa estratégica para empresas europeias - Imagem: Xpert.Digital

IA revolucionária: a plataforma de IA mais flexível — soluções personalizadas que reduzem custos, melhoram suas decisões e aumentam a eficiência

Plataforma de IA independente: integra todas as fontes de dados relevantes da empresa

Integração rápida de IA: Soluções de IA personalizadas para empresas em horas ou dias, em vez de meses
Infraestrutura flexível: baseada na nuvem ou hospedagem em seu próprio data center (Alemanha, Europa, localização à sua escolha)

Máxima segurança de dados: sua utilização em escritórios de advocacia é prova irrefutável
Implantação em uma ampla variedade de fontes de dados corporativas
Escolha de modelos de IA próprios ou diferentes (DE, UE, EUA, CN)

Mais informações aqui:

Plataformas independentes de IA versus hiperescaladores: qual solução é a mais adequada?

Inteligência artificial além da escalabilidade: insights do teste ARC-AGI

O que significam esses resultados para o desenvolvimento da IAG (Inteligência Artificial Geral)?

Os resultados revelam uma lacuna significativa entre a inteligência humana e a inteligência artificial. Enquanto os humanos resolvem tarefas ARC-AGI intuitivamente, mesmo os sistemas de IA mais avançados falham em tarefas cognitivas básicas.

François Chollet argumenta que o paradigma atual de desenvolvimento de IA — treinar modelos cada vez maiores com mais dados — atingiu seus limites. Os resultados insatisfatórios no ARC-AGI, apesar do aumento exponencial no tamanho dos modelos, comprovam, em sua visão, que "a inteligência fluida não surge do escalonamento pré-treinamento".

O futuro pode estar em novas abordagens, como a Adaptação em Tempo de Teste, em que os modelos podem alterar seus próprios estados em tempo de execução para se adaptarem a novas situações.

Qual será o futuro do benchmark ARC-AGI?

A Fundação ARC Prize planeja o desenvolvimento contínuo do benchmark. O ARC-AGI-3, com seus elementos interativos, tem previsão de lançamento completo em 2026 e incluirá aproximadamente 100 ambientes únicos.

A Fundação tem como objetivo desenvolver parâmetros que sirvam como uma "estrela guia" para o desenvolvimento da Inteligência Artificial Geral (IAG). Isso envolve não apenas medir o progresso, mas também orientar a pesquisa em direções que possam levar a uma verdadeira inteligência geral.

Quais são as implicações econômicas do desempenho de referência?

O custo da resolução de problemas ARC-AGI varia muito entre os modelos e tem um impacto direto na aplicabilidade prática.

Embora tarefas simples possam ser resolvidas com custos de API na faixa de centavos, os custos para tarefas de raciocínio complexas aumentam rapidamente. O modelo o3, por exemplo, pode custar até US$ 1.000 por tarefa com alta capacidade computacional.

Essa estrutura de custos demonstra que, mesmo com avanços tecnológicos, a viabilidade econômica continua sendo um fator crucial para a aplicação generalizada das tecnologias de Inteligência Artificial Geral (IAG).

Quais são as implicações filosóficas dos resultados do ARC-AGI?

Os resultados levantam questões fundamentais sobre a natureza da inteligência. O estudo demonstra que existe uma diferença fundamental entre memorizar padrões e alcançar uma compreensão verdadeira.

O fato de os humanos resolverem essas tarefas sem esforço, enquanto os sistemas de IA falham, sugere que a inteligência humana funciona de maneira qualitativamente diferente das abordagens atuais de IA. Isso corrobora o argumento de Chollet de que a IAG (Inteligência Artificial Geral) requer mais do que apenas modelos maiores e mais dados.

De que forma o ARC-AGI influencia a direção da pesquisa em IA?

O estudo de referência já levou a uma reformulação na pesquisa em IA. Em vez de se concentrarem apenas na escalabilidade de modelos, os principais laboratórios agora estão explorando abordagens alternativas, como computação em tempo de teste e sistemas adaptativos.

Essa mudança também se reflete nos investimentos: as empresas estão investindo cada vez mais em pesquisas sobre raciocínio e resolução de problemas mais eficientes, em vez de treinamentos cada vez maiores.

Qual o papel da comunidade de código aberto?

A Fundação ARC Prize enfatiza a importância do desenvolvimento de código aberto para o progresso da Inteligência Artificial Geral (AGI). Todos os vencedores da competição devem disponibilizar suas soluções publicamente.

Essa filosofia se baseia na convicção de que a Inteligência Artificial Geral (IAG) é importante demais para ser desenvolvida exclusivamente em laboratórios fechados. A Fundação se vê como um catalisador para uma comunidade de pesquisa colaborativa e transparente.

Quais são as limitações do benchmark ARC-AGI?

Apesar de sua importância, o ARC-AGI também tem limitações. O próprio Chollet enfatiza que passar no teste não é sinônimo de alcançar a Inteligência Artificial Geral (IAG). O teste avalia apenas um aspecto da inteligência: a capacidade de resolver problemas abstratos.

Outros aspectos importantes, como criatividade, inteligência emocional ou planejamento a longo prazo, não são avaliados. Além disso, existe o risco de que sistemas especificamente otimizados para ARC-AGI sejam desenvolvidos, passem no teste sem, de fato, serem geralmente inteligentes.

Como estão evoluindo os custos dos modelos de IA no contexto do ARC-AGI?

A evolução dos custos revela tendências interessantes. Embora o desempenho aumente apenas lentamente, os custos para melhorias marginais estão disparando.

Essa dinâmica de custos leva a uma importante constatação: a eficiência torna-se o diferencial decisivo. A Fundação Prêmio ARC enfatiza que não apenas a precisão, mas também o custo por problema resolvido é um critério crucial.

O que significa ARC-AGI para o futuro do trabalho?

Os resultados têm implicações tranquilizadoras para muitas profissões. A incapacidade dos sistemas de IA em resolver tarefas básicas de raciocínio demonstra que as habilidades cognitivas humanas estão longe de serem substituídas.

Ao mesmo tempo, o progresso em tarefas especializadas sugere que a IA continuará a servir como uma ferramenta de apoio ao trabalho humano, em vez de o substituir completamente.

Que novas abordagens de pesquisa surgem do ARC-AGI?

O estudo de referência inspirou diversas linhas de pesquisa inovadoras:

Síntese de Programas

Sistemas que geram programas para resolver problemas.

abordagens neurosimbólicas

Combinação de redes neurais com raciocínio simbólico.

Sistemas multiagentes

Vários agentes especializados estão trabalhando em conjunto.

Algoritmos evolutivos

Sistemas que desenvolvem soluções por meio da evolução.

Qual é a visão da Fundação Prêmio ARC para o futuro?

A Fundação persegue uma missão clara: servir como uma "Estrela Guia" para o desenvolvimento da Inteligência Artificial Geral (IAG) aberta. Isso envolve não apenas parâmetros técnicos, mas também a criação de um ecossistema que fomente a inovação, garantindo que os avanços da IAG beneficiem toda a humanidade.

O desenvolvimento contínuo de novas versões de referência visa garantir que o padrão seja constantemente elevado e que a pesquisa não estagne. Com o ARC-AGI-3 e versões futuras, a Fundação pretende explorar ainda mais os limites do que a IA pode fazer e o que ainda lhe falta.

Estamos aqui para você - Consultoria - Planejamento - Implementação - Gestão de Projetos

☑️ Apoio a PMEs em estratégia, consultoria, planejamento e implementação

☑️ Criação ou realinhamento da estratégia de IA

☑️ Desenvolvimento de Negócios Pioneiros

Konrad Wolfenstein

Terei o maior prazer em atuar como seu consultor pessoal.

Você pode entrar em contato comigo preenchendo o formulário abaixo ou simplesmente me ligando para +49 7348 4088 965 .

Estou ansioso pelo nosso projeto conjunto.

Escreva-me

➡️ Solicitação de chamada de vídeo 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital é um centro para a indústria com foco em digitalização, engenharia mecânica, logística/intralogística e energia fotovoltaica.

Com nossa solução de Desenvolvimento de Negócios 360°, apoiamos empresas renomadas desde a prospecção de novos negócios até o pós-venda.

Inteligência de mercado, smarketing, automação de marketing, desenvolvimento de conteúdo, relações públicas, campanhas de e-mail marketing, mídias sociais personalizadas e nutrição de leads fazem parte de nossas ferramentas digitais.

Você pode encontrar mais informações em: www.xpert.digital - www.xpert.solar - www.xpert.plus

Mantenha contato

A grande desilusão: por que modelos de IA cada vez maiores falham no teste crucial de inteligência?

O que é o benchmark ARC-AGI e por que ele foi desenvolvido?

Em que o ARC-AGI difere de outros benchmarks de IA?

Quais são as diferentes versões do benchmark ARC-AGI?

ARC-AGI-1

ARC-AGI-2

ARC-AGI-3

Como se comportam os diferentes modelos de IA nos testes ARC-AGI?

Qual é o segredo por trás do modelo de pré-visualização do o3?

Como funciona o concurso do Prémio ARC?

Quais são os desafios técnicos do benchmark ARC-AGI?

Interpretação de símbolos

Pensamento composicional em múltiplos estágios

Aplicação de regras dependente do contexto

Generalização a partir de alguns exemplos

Qual o papel do treinamento em tempo de teste na solução do problema ARC-AGI?

Segurança de dados na UE/Alemanha | Integração de uma plataforma de IA independente e com múltiplas fontes de dados para todas as necessidades de negócios

IA revolucionária: a plataforma de IA mais flexível — soluções personalizadas que reduzem custos, melhoram suas decisões e aumentam a eficiência

Plataforma de IA independente: integra todas as fontes de dados relevantes da empresa

Inteligência artificial além da escalabilidade: insights do teste ARC-AGI

O que significam esses resultados para o desenvolvimento da IAG (Inteligência Artificial Geral)?

Qual será o futuro do benchmark ARC-AGI?

Quais são as implicações econômicas do desempenho de referência?

Quais são as implicações filosóficas dos resultados do ARC-AGI?

De que forma o ARC-AGI influencia a direção da pesquisa em IA?

Qual o papel da comunidade de código aberto?

Quais são as limitações do benchmark ARC-AGI?

Como estão evoluindo os custos dos modelos de IA no contexto do ARC-AGI?

O que significa ARC-AGI para o futuro do trabalho?

Que novas abordagens de pesquisa surgem do ARC-AGI?

Síntese de Programas

abordagens neurosimbólicas

Sistemas multiagentes

Algoritmos evolutivos

Qual é a visão da Fundação Prêmio ARC para o futuro?

☑️ Apoio a PMEs em estratégia, consultoria, planejamento e implementação

☑️ Criação ou realinhamento da estratégia de IA

☑️ Desenvolvimento de Negócios Pioneiros

Outros tópicos