Comparación de modelos de IA en el benchmark ARC: GPT-5 vs. Grok vs. o3

Konrad Wolfenstein

hace 12 meses

Comparación de modelos de IA en el benchmark ARC: GPT-5 vs. Grok vs. o3 – Imagen: Xpert.Digital

La gran desilusión: por qué los modelos de IA cada vez más grandes no superan la prueba crucial de inteligencia

¿Qué es el benchmark ARC-AGI y por qué se desarrolló?

El conjunto de pruebas ARC-AGI, desarrollado en 2019 por François Chollet, mide la inteligencia general de los sistemas de IA. ARC significa "Abstraction and Reasoning Corpus for Artificial General Intelligence" (Corpus de Abstracción y Razonamiento para la Inteligencia Artificial General). Este conjunto de pruebas se creó para evaluar la capacidad de los sistemas de IA para comprender y resolver tareas nuevas para las que no fueron entrenados explícitamente.

El desarrollo de la prueba de referencia se basa en la definición de inteligencia de Chollet, extraída de su influyente artículo «Sobre la medida de la inteligencia». Chollet sostiene que la verdadera inteligencia no reside en dominar tareas específicas, sino en la eficiencia con la que se adquieren nuevas habilidades. La prueba consiste en rompecabezas visuales con cuadrículas de colores, donde los sistemas de IA deben identificar las reglas de transformación subyacentes y aplicarlas a nuevos ejemplos.

¿En qué se diferencia ARC-AGI de otros puntos de referencia de IA?

A diferencia de las pruebas de IA convencionales, que suelen basarse en conocimientos previos o patrones memorizados, ARC-AGI se centra en los denominados "conocimientos básicos previos": habilidades cognitivas fundamentales como la permanencia del objeto, el conteo y el razonamiento espacial. Estas habilidades suelen ser adquiridas por los humanos alrededor de los cuatro años.

La diferencia crucial radica en que ARC-AGI está diseñado específicamente para que no se pueda resolver mediante la simple memorización o interpolación de datos. Cada tarea del benchmark es única y se desarrolló específicamente para la prueba, por lo que no deberían existir ejemplos en línea. Esto hace que la prueba sea resistente a las estrategias típicas de los sistemas de IA que dependen de grandes conjuntos de datos de entrenamiento.

¿Cuáles son las diferentes versiones del benchmark ARC-AGI?

Actualmente existen tres versiones principales del benchmark:

ARC-AGI-1

La versión original de 2019 consiste en rompecabezas visuales estáticos. Los humanos obtienen una puntuación media del 95 % en este juego, mientras que la mayoría de los sistemas de IA llevan mucho tiempo obteniendo puntuaciones inferiores al 5 %.

ARC-AGI-2

Esta versión mejorada se lanzó en 2025 y está diseñada específicamente para suponer un desafío incluso para los sistemas de razonamiento modernos. Mientras que los humanos siguen alcanzando casi el 100 % de éxito, incluso los modelos de IA avanzados solo logran completar entre el 10 % y el 20 % de las tareas.

ARC-AGI-3

La última versión, aún en desarrollo, introduce elementos interactivos. En lugar de rompecabezas estáticos, los agentes de IA deben aprender mediante la exploración y el ensayo y error en un mundo cuadriculado, de forma similar a como los humanos exploran nuevos entornos.

¿Cómo se desempeñan los diferentes modelos de IA en las pruebas ARC-AGI?

Las diferencias de rendimiento entre los distintos modelos de IA son significativas:

Para ARC-AGI-1, Grok 4 alcanza aproximadamente el 68%, mientras que GPT-5 alcanza el 65,7%. El costo por tarea es de aproximadamente US$1 para Grok 4 y US$0,51 para GPT-5.

En ARC-AGI-2, la prueba más difícil, el rendimiento cae drásticamente: GPT-5 alcanza solo el 9,9% a un costo de $0,73 por tarea, mientras que Grok 4 (Thinking) tiene un mejor rendimiento, alrededor del 16%, pero a un costo significativamente mayor de $2-4.

Como era de esperar, las variantes de modelos más económicos muestran un rendimiento más débil: GPT-5 Mini alcanza el 54,3% en AGI-1 y el 4,4% en AGI-2, mientras que GPT-5 Nano solo alcanza el 16,5% y el 2,5% respectivamente.

¿Cuál es el secreto detrás del modelo de vista previa o3?

El modelo de vista previa o3 de OpenAI representa un caso especial. En diciembre de 2024, alcanzó impresionantes puntuaciones de rendimiento del 75,7 % al 87,5 % en ARC-AGI-1, dependiendo de la potencia de cálculo utilizada. Esta fue la primera vez que un sistema de IA superó el límite de rendimiento humano del 85 %.

Sin embargo, existe una limitación importante: la versión pública de o3 tiene un rendimiento significativamente inferior al de la versión preliminar original. Según ARC Prize, la versión de o3 publicada solo alcanza un 41 % (bajo rendimiento de computación) y un 53 % (medio rendimiento de computación) en ARC-AGI-1, en comparación con el 76-88 % de la versión preliminar.

OpenAI confirmó que el modelo publicado tiene una arquitectura diferente, más pequeña, y está optimizado para aplicaciones de chat y productos. Esta discrepancia plantea dudas sobre sus capacidades reales y destaca la importancia de evaluar críticamente los resultados de las pruebas de referencia de modelos no publicados.

¿Cómo funciona el concurso del Premio ARC?

El Premio ARC es una competencia anual con una dotación total de más de un millón de dólares estadounidenses, cuyo objetivo es promover el progreso del código abierto hacia la AGI (Arquitectura Genérica Activa). La competencia de 2025 se celebra del 26 de marzo al 3 de noviembre en la plataforma Kaggle.

La estructura de precios incluye:

Gran premio (USD 700.000): se desbloquea cuando un equipo logra una precisión del 85 % en el conjunto de datos de evaluación privada
Premio al mejor puntaje (USD 75 000): para los equipos con los puntajes más altos
Premio al trabajo (USD 50.000): Para los avances conceptuales más significativos
Otros premios (USD 175.000): Se anunciarán categorías adicionales

Es importante que todos los ganadores publiquen sus soluciones en código abierto. Esto se alinea con la misión de la Fundación del Premio ARC de hacer que los avances en IA general sean accesibles a toda la comunidad investigadora.

¿Cuáles son los desafíos técnicos del benchmark ARC-AGI?

Las tareas en ARC-AGI requieren varias capacidades cognitivas que son evidentes para los humanos pero extremadamente difíciles para los sistemas de IA:

Interpretación de símbolos

La IA debe comprender símbolos abstractos y derivar su significado del contexto.

Pensamiento compositivo en múltiples etapas

Los problemas deben dividirse en subpasos y resolverse secuencialmente.

Aplicación de reglas dependientes del contexto

La misma regla puede tener que aplicarse de forma diferente según el contexto.

Generalización a partir de algunos ejemplos

Normalmente, solo se encuentran disponibles 2 o 3 pares de demostración de los cuales se debe derivar la regla de transformación.

¿Qué papel juega el entrenamiento en tiempo de prueba en la solución de ARC-AGI?

El entrenamiento en tiempo de prueba (TTT) ha demostrado ser un enfoque prometedor para mejorar el rendimiento de ARC-AGI. Este método ajusta dinámicamente los parámetros del modelo a los datos de entrada actuales durante la inferencia, en lugar de basarse únicamente en el conocimiento preentrenado.

Investigadores del MIT han demostrado que la TTT mejora significativamente el rendimiento de los modelos lingüísticos en ARC-AGI. El método permite que los modelos se adapten durante la resolución de tareas y aprendan de ejemplos específicos. Esto imita el comportamiento humano en la resolución de problemas, donde dedicamos más tiempo a problemas difíciles.

Seguridad de datos UE/DE | Integración de una plataforma de IA independiente y de múltiples fuentes de datos para todas las necesidades empresariales

Plataformas de IA independientes como alternativa estratégica para las empresas europeas - Imagen: Xpert.Digital

AI Game Changer: La plataforma de IA más flexible: soluciones a medida que reducen costes, mejoran sus decisiones y aumentan la eficiencia

Plataforma de IA independiente: integra todas las fuentes de datos relevantes de la empresa

Integración rápida de IA: soluciones de IA personalizadas para empresas en horas o días, en lugar de meses
Infraestructura flexible: basada en la nube o alojada en su propio centro de datos (Alemania, Europa, libre elección de ubicación)

Máxima seguridad de los datos: su uso en despachos de abogados es una prueba irrefutable
Implementación en una amplia variedad de fuentes de datos empresariales
Elección de modelos de IA propios o diferentes (DE, UE, EE. UU., CN)

Más información aquí:

Plataformas de IA independientes vs. hiperescaladores: ¿cuál es la solución más adecuada?

Inteligencia artificial más allá del escalamiento: conclusiones de la prueba ARC-AGI

¿Qué significan los resultados para el desarrollo de la IAG?

Los resultados revelan una brecha significativa entre la inteligencia humana y la artificial. Si bien los humanos resuelven tareas ARC-AGI intuitivamente, incluso los sistemas de IA más avanzados fallan en tareas cognitivas básicas.

François Chollet sostiene que el paradigma actual del desarrollo de la IA —entrenar modelos cada vez más grandes con más datos— ha llegado a su límite. Los malos resultados obtenidos con ARC-AGI, a pesar del aumento exponencial del tamaño del modelo, demuestran, en su opinión, que «la inteligencia fluida no surge del escalado del preentrenamiento».

El futuro podría estar en nuevos enfoques como la adaptación en tiempo de prueba, donde los modelos pueden cambiar sus propios estados en tiempo de ejecución para adaptarse a nuevas situaciones.

¿Qué le depara el futuro al benchmark ARC-AGI?

La Fundación del Premio ARC planea el desarrollo continuo del punto de referencia. ARC-AGI-3, con sus elementos interactivos, se lanzará por completo en 2026 e incluirá aproximadamente 100 entornos únicos.

La Fundación tiene como objetivo desarrollar parámetros de referencia que sirvan de guía para el desarrollo de la IA general. Esto implica no solo medir el progreso, sino también orientar la investigación hacia direcciones que puedan conducir a una verdadera inteligencia general.

¿Cuáles son las implicaciones económicas del rendimiento de referencia?

El costo de resolver los problemas ARC-AGI varía enormemente entre los modelos y tiene un impacto directo en la aplicabilidad práctica.

Si bien las tareas sencillas pueden resolverse con costos de API del orden de los centavos, los costos de las tareas de razonamiento complejas aumentan rápidamente. El modelo o3, por ejemplo, puede costar hasta $1,000 por tarea con alta potencia de procesamiento.

Esta estructura de costos muestra que, incluso si se logran avances técnicos, la viabilidad económica sigue siendo un factor crucial para la aplicación generalizada de las tecnologías de IAG.

¿Cuáles son las implicaciones filosóficas de los resultados de ARC-AGI?

Los resultados plantean preguntas fundamentales sobre la naturaleza de la inteligencia. El parámetro muestra que existe una diferencia fundamental entre memorizar patrones y la verdadera comprensión.

El hecho de que los humanos resuelvan estas tareas sin esfuerzo, mientras que los sistemas de IA fallan, sugiere que la inteligencia humana funciona de forma cualitativamente diferente a los enfoques actuales de IA. Esto respalda el argumento de Chollet de que la IAG requiere más que solo modelos más grandes y más datos.

¿Cómo influye ARC-AGI en la dirección de la investigación en IA?

Este punto de referencia ya ha impulsado un replanteamiento de la investigación en IA. En lugar de centrarse únicamente en modelos de escalado, los laboratorios líderes están explorando enfoques alternativos, como la computación en tiempo de prueba y los sistemas adaptativos.

Este cambio también se refleja en las inversiones: las empresas invierten cada vez más en investigaciones sobre razonamiento y resolución de problemas más eficientes, en lugar de en ciclos de formación cada vez más largos.

¿Qué papel desempeña la comunidad de código abierto?

La Fundación del Premio ARC enfatiza la importancia del desarrollo de código abierto para el progreso de la IA general. Todos los ganadores del concurso deben publicar sus soluciones.

Esta filosofía se basa en la convicción de que la IA general es demasiado importante como para desarrollarse únicamente en laboratorios cerrados. La Fundación se considera un catalizador para una comunidad de investigación colaborativa y transparente.

¿Cuáles son las limitaciones del benchmark ARC-AGI?

A pesar de su importancia, el ARC-AGI también presenta limitaciones. El propio Chollet enfatiza que aprobar la prueba no es sinónimo de alcanzar la AGI. El parámetro mide solo un aspecto de la inteligencia: la capacidad para resolver problemas abstractos.

No se evalúan otros aspectos importantes como la creatividad, la inteligencia emocional o la planificación a largo plazo. Además, existe el riesgo de que se desarrollen sistemas específicamente optimizados para ARC-AGI que superen la prueba sin ser realmente inteligentes en general.

¿Cómo son los costos de desarrollo de los modelos de IA en el contexto de ARC-AGI?

La evolución de los costes revela tendencias interesantes. Si bien el rendimiento aumenta lentamente, los costes de las mejoras marginales se disparan.

Esta dinámica de costes nos lleva a una conclusión importante: la eficiencia se está convirtiendo en el factor diferenciador decisivo. La Fundación del Premio ARC enfatiza que no solo la precisión, sino también el coste por problema resuelto, es un criterio crucial.

¿Qué significa ARC-AGI para el futuro del trabajo?

Los resultados tienen implicaciones tranquilizadoras para muchas profesiones. La incapacidad de los sistemas de IA para resolver tareas básicas de pensamiento demuestra que las capacidades cognitivas humanas están lejos de ser reemplazadas.

Al mismo tiempo, los avances en tareas especializadas sugieren que la IA seguirá sirviendo como herramienta para apoyar el trabajo humano, en lugar de reemplazarlo por completo.

¿Qué nuevos enfoques de investigación surgen de ARC-AGI?

Este punto de referencia ha inspirado varias direcciones de investigación innovadoras:

Síntesis del programa

Sistemas que generan programas para resolver problemas.

Enfoques neurosimbólicos

Combinación de redes neuronales con razonamiento simbólico.

Sistemas multiagente

Varios agentes especializados están trabajando juntos.

Algoritmos evolutivos

Sistemas que desarrollan soluciones a través de la evolución.

¿Cuál es la visión de la Fundación Premio ARC para el futuro?

La Fundación persigue una misión clara: servir de guía para el desarrollo de la IA general abierta. Esto implica no solo establecer parámetros técnicos, sino también crear un ecosistema que fomente la innovación y garantice que los avances en IA general beneficien a toda la humanidad.

El desarrollo continuo de nuevas versiones de referencia tiene como objetivo garantizar que el estándar se eleve constantemente y que la investigación no se estanque. Con ARC-AGI-3 y futuras versiones, la Fundación busca explorar aún más los límites de lo que la IA puede hacer y sus carencias.

Estamos aquí para usted - Consultoría - Planificación - Implementación - Gestión de proyectos

☑️ Apoyo a las PYMES en estrategia, consultoría, planificación e implementación

☑️ Creación o realineamiento de la estrategia de IA

☑️ Desarrollo de negocios pioneros

Konrad Wolfenstein

Estaré encantado de servir como su asesor personal.

Puedes contactarme rellenando el formulario de contacto que aparece a continuación o simplemente llamándome al +49 7348 4088 965 .

Espero con ilusión nuestro proyecto conjunto.

Escríbeme

➡️ Solicitud de videollamada 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital es un centro industrial centrado en la digitalización, la ingeniería mecánica, la logística/intralogística y la energía fotovoltaica.

Con nuestra solución de Desarrollo de Negocio 360° apoyamos a empresas de renombre desde el nuevo negocio hasta la posventa.

Inteligencia de mercado, smarketing, automatización de marketing, desarrollo de contenidos, PR, campañas de mailing, redes sociales personalizadas y lead nurturing son parte de nuestras herramientas digitales.

Puede encontrar más información en: www.xpert.digital - www.xpert.solar - www.xpert.plus

Mantenerse en contacto

La gran desilusión: por qué los modelos de IA cada vez más grandes no superan la prueba crucial de inteligencia

¿Qué es el benchmark ARC-AGI y por qué se desarrolló?

¿En qué se diferencia ARC-AGI de otros puntos de referencia de IA?

¿Cuáles son las diferentes versiones del benchmark ARC-AGI?

ARC-AGI-1

ARC-AGI-2

ARC-AGI-3

¿Cómo se desempeñan los diferentes modelos de IA en las pruebas ARC-AGI?

¿Cuál es el secreto detrás del modelo de vista previa o3?

¿Cómo funciona el concurso del Premio ARC?

¿Cuáles son los desafíos técnicos del benchmark ARC-AGI?

Interpretación de símbolos

Pensamiento compositivo en múltiples etapas

Aplicación de reglas dependientes del contexto

Generalización a partir de algunos ejemplos

¿Qué papel juega el entrenamiento en tiempo de prueba en la solución de ARC-AGI?

Seguridad de datos UE/DE | Integración de una plataforma de IA independiente y de múltiples fuentes de datos para todas las necesidades empresariales

AI Game Changer: La plataforma de IA más flexible: soluciones a medida que reducen costes, mejoran sus decisiones y aumentan la eficiencia

Plataforma de IA independiente: integra todas las fuentes de datos relevantes de la empresa

Inteligencia artificial más allá del escalamiento: conclusiones de la prueba ARC-AGI

¿Qué significan los resultados para el desarrollo de la IAG?

¿Qué le depara el futuro al benchmark ARC-AGI?

¿Cuáles son las implicaciones económicas del rendimiento de referencia?

¿Cuáles son las implicaciones filosóficas de los resultados de ARC-AGI?

¿Cómo influye ARC-AGI en la dirección de la investigación en IA?

¿Qué papel desempeña la comunidad de código abierto?

¿Cuáles son las limitaciones del benchmark ARC-AGI?

¿Cómo son los costos de desarrollo de los modelos de IA en el contexto de ARC-AGI?

¿Qué significa ARC-AGI para el futuro del trabajo?

¿Qué nuevos enfoques de investigación surgen de ARC-AGI?

Síntesis del programa

Enfoques neurosimbólicos

Sistemas multiagente

Algoritmos evolutivos

¿Cuál es la visión de la Fundación Premio ARC para el futuro?

☑️ Apoyo a las PYMES en estrategia, consultoría, planificación e implementación

☑️ Creación o realineamiento de la estrategia de IA

☑️ Desarrollo de negocios pioneros

Otros temas