Comparación de modelos de IA en el benchmark ARC: GPT-5 vs. Grok vs. o3
Prelanzamiento de Xpert
Selección de voz 📢
Publicado el: 8 de agosto de 2025 / Actualizado el: 8 de agosto de 2025 – Autor: Konrad Wolfenstein
Comparación de IA en el benchmark ARC de modelos de IA: GPT-5 vs. Grok vs. o3 – Imagen: Xpert.Digital
La gran desilusión: por qué los modelos de IA cada vez más grandes no superan la prueba crucial de inteligencia
¿Qué es el benchmark ARC-AGI y por qué se desarrolló?
El benchmark ARC-AGI consiste en una serie de pruebas para medir la inteligencia general de los sistemas de IA, desarrollado por François Chollet en 2019. ARC significa "Corpus de Abstracción y Razonamiento para la Inteligencia Artificial General". Este benchmark se creó para evaluar la capacidad de los sistemas de IA para comprender y resolver nuevas tareas para las que no han sido entrenados explícitamente.
El desarrollo del punto de referencia se basa en la definición de inteligencia de Chollet, publicada en su influyente artículo "Sobre la medida de la inteligencia". Chollet argumenta que la verdadera inteligencia no reside en el dominio de tareas específicas, sino en la eficiencia en la adquisición de nuevas habilidades. La prueba consiste en rompecabezas visuales con cuadrículas de colores, donde los sistemas de IA deben reconocer las reglas de transformación subyacentes y aplicarlas a nuevos ejemplos.
¿En qué se diferencia ARC-AGI de otros puntos de referencia de IA?
A diferencia de las pruebas de IA convencionales, que suelen basarse en conocimientos previos o patrones memorizados, ARC-AGI se centra en los llamados "conocimientos previos básicos" – habilidades cognitivas básicas como la permanencia de los objetos, el conteo y la comprensión espacial. Estas habilidades suelen adquirirse a los cuatro años.
La diferencia clave radica en que ARC-AGI está diseñado específicamente para resolverse mediante memorización pura o interpolación de datos. Cada tarea del benchmark es única y se desarrolló específicamente para la prueba, por lo que no deberían existir ejemplos en línea. Esto hace que la prueba sea resistente a las estrategias habituales de los sistemas de IA basados en grandes cantidades de datos de entrenamiento.
¿Cuáles son las diferentes versiones del benchmark ARC-AGI?
Actualmente existen tres versiones principales del benchmark:
ARC-AGI-1
En la versión original de 2019, que consiste en rompecabezas visuales estáticos, los humanos logran un promedio del 95%, mientras que la mayoría de los sistemas de IA han estado durante mucho tiempo por debajo del 5%.
ARC-AGI-2
Esta versión mejorada, lanzada en 2025, está diseñada específicamente para desafiar incluso los sistemas de razonamiento modernos. Si bien los humanos siguen alcanzando un rendimiento cercano al 100 %, incluso los modelos de IA avanzados solo pueden gestionar entre el 10 % y el 20 % de las tareas.
ARC-AGI-3
La última versión, aún en desarrollo, introduce elementos interactivos. En lugar de rompecabezas estáticos, los agentes de IA deben aprender mediante la exploración y el ensayo y error en un mundo cuadriculado, de forma similar a cómo los humanos exploran nuevos entornos.
¿Cómo se desempeñan los diferentes modelos de IA en las pruebas ARC-AGI?
Las diferencias de rendimiento entre los distintos modelos de IA son significativas:
En ARC-AGI-1, Grok 4 alcanza aproximadamente el 68%, mientras que GPT-5 alcanza el 65,7%. El costo por tarea es de aproximadamente $1 para Grok 4 y $0,51 para GPT-5.
En ARC-AGI-2, la prueba más difícil, el rendimiento cae drásticamente: GPT-5 alcanza solo el 9,9% a un costo de $0,73 por tarea, mientras que Grok 4 (Thinking) tiene un mejor rendimiento, con alrededor del 16%, aunque a un costo significativamente mayor de $2-4.
Como era de esperar, las variantes del modelo más económicas muestran un rendimiento más débil: GPT-5 Mini alcanza el 54,3% en AGI-1 y el 4,4% en AGI-2, mientras que GPT-5 Nano solo alcanza el 16,5% y el 2,5%, respectivamente.
¿Cuál es el secreto del modelo de vista previa o3?
El modelo o3-preview de OpenAI representa un caso especial. En diciembre de 2024, alcanzó un impresionante rendimiento del 75,7 % al 87,5 % en ARC-AGI-1, dependiendo de la potencia de cálculo utilizada. Esta fue la primera vez que un sistema de IA superó el umbral de rendimiento humano del 85 %.
Sin embargo, existe una limitación importante: la versión pública de o3 tiene un rendimiento significativamente inferior al de la versión preliminar original. Según el Premio ARC, la versión publicada de o3 solo alcanza un 41 % (bajo rendimiento computacional) y un 53 % (medio rendimiento computacional) en ARC-AGI-1, en comparación con el 76-88 % de la versión preliminar.
OpenAI confirmó que el modelo publicado tiene una arquitectura diferente, más pequeña, y está optimizado para aplicaciones de chat y productos. Esta discrepancia plantea dudas sobre sus capacidades reales y destaca la importancia de analizar críticamente los resultados de las pruebas de referencia de modelos no publicados.
¿Cómo funciona el concurso del Premio ARC?
El Premio ARC es una competencia anual con un fondo total de premios de más de un millón de dólares estadounidenses, cuyo objetivo es impulsar el progreso del código abierto hacia la IAG. La competencia de 2025 se celebra del 26 de marzo al 3 de noviembre en la plataforma Kaggle.
La estructura de precios incluye:
- Gran premio (700 000 USD): se desbloquea cuando un equipo logra una precisión del 85 % en el conjunto de datos de evaluación privada
- Premio a la puntuación más alta (75 000 USD): para los equipos con las puntuaciones más altas
- Premio al trabajo (50.000 USD): Para los avances conceptuales más significativos
- Premios adicionales (175.000 USD): Se anunciarán categorías adicionales
Es importante destacar que todos los ganadores deben publicar sus soluciones en código abierto. Esto se alinea con la misión de la Fundación del Premio ARC de hacer que los avances en IA general sean accesibles a toda la comunidad investigadora.
¿Cuáles son los desafíos técnicos del benchmark ARC-AGI?
Las tareas en ARC-AGI requieren varias habilidades cognitivas que son naturales para los humanos pero extremadamente difíciles para los sistemas de IA:
Interpretación de símbolos
La IA debe comprender símbolos abstractos y derivar su significado del contexto.
Pensamiento compositivo multinivel
Los problemas deben dividirse en subpasos y resolverse secuencialmente.
Aplicación de reglas dependientes del contexto
La misma regla puede tener que aplicarse de forma diferente según el contexto.
Generalización a partir de algunos ejemplos
Normalmente, solo se encuentran disponibles 2 o 3 pares de demostración de los cuales se debe derivar la regla de transformación.
¿Qué papel juega el entrenamiento en tiempo de prueba en la solución de ARC-AGI?
El entrenamiento en tiempo de prueba (TTT) ha demostrado ser un enfoque prometedor para mejorar el rendimiento en ARC-AGI. Este método adapta dinámicamente los parámetros del modelo a los datos de entrada actuales durante la inferencia, en lugar de basarse únicamente en el conocimiento preentrenado.
Investigadores del MIT han demostrado que la TTT mejora significativamente el rendimiento de los modelos lingüísticos en ARC-AGI. El método permite que los modelos se adapten durante la resolución de tareas y aprendan de ejemplos específicos. Esto imita el comportamiento humano en la resolución de problemas, en el que dedicamos más tiempo a problemas difíciles.
Seguridad de datos UE/DE | Integración de una plataforma de IA independiente y de múltiples fuentes de datos para todas las necesidades empresariales
Plataformas de IA independientes como alternativa estratégica para las empresas europeas – Imagen: Xpert.Digital
Ki-Gamechanger: la plataforma de IA más flexible – soluciones a medida que reducen los costos, mejoran sus decisiones y aumentan la eficiencia
Plataforma de IA independiente: integra todas las fuentes de datos de la compañía relevantes
- Integración rápida de IA: soluciones de IA hechas a medida para empresas en horas o días en lugar de meses
- Infraestructura flexible: basada en la nube o alojamiento en su propio centro de datos (Alemania, Europa, libre elección de ubicación)
- Seguridad de datos más alta: el uso en la firma de abogados es la evidencia segura
- Usar en una amplia variedad de fuentes de datos de la empresa
- Elección de sus propios modelos de IA (DE, UE, EE. UU., CN)
Más sobre esto aquí:
Inteligencia artificial más allá de la escala: perspectivas de la prueba ARC-AGI
¿Qué significan los resultados para el desarrollo de la IAG?
Los resultados revelan una clara brecha entre la inteligencia humana y la artificial. Si bien los humanos resuelven tareas de ARC-AGI intuitivamente, incluso los sistemas de IA de vanguardia fallan en tareas de razonamiento básico.
François Chollet argumenta que el paradigma actual del desarrollo de IA – modelos cada vez más grandes con más – ha llegado a sus límites. Los malos resultados de ARC-AGI, a pesar del aumento exponencial del tamaño del modelo, demuestran, en su opinión, que «la inteligencia fluida no surge del escalado del preentrenamiento».
El futuro podría estar en nuevos enfoques como la adaptación al tiempo de prueba, donde los modelos pueden cambiar sus propios estados en tiempo de ejecución para adaptarse a nuevas situaciones.
¿Cómo se ve el futuro del benchmark ARC-AGI?
La Fundación del Premio ARC planea desarrollar continuamente el punto de referencia. ARC-AGI-3, con sus elementos interactivos, se lanzará por completo en 2026 e incluirá aproximadamente 100 entornos únicos.
El objetivo de la Fundación es desarrollar puntos de referencia que sirvan como guía para el desarrollo de la IAG. Esto no solo busca medir el progreso, sino también orientar la investigación hacia una verdadera inteligencia general.
¿Cuáles son las implicaciones económicas del rendimiento de referencia?
El costo de resolver las tareas ARC-AGI varía enormemente entre los modelos y tiene un impacto directo en la aplicabilidad práctica.
Si bien las tareas sencillas pueden resolverse con costos de API del orden de los centavos, los costos de las tareas de razonamiento complejas aumentan rápidamente. El modelo o3, por ejemplo, puede costar hasta $1,000 por tarea con alta potencia de procesamiento.
Esta estructura de costos demuestra que, incluso si se logran avances técnicos, la viabilidad económica sigue siendo un factor crucial para la adopción generalizada de tecnologías de IAG.
¿Cuáles son las implicaciones filosóficas de los resultados de ARC-AGI?
Los resultados plantean preguntas fundamentales sobre la naturaleza de la inteligencia. El parámetro muestra que existe una diferencia fundamental entre memorizar patrones y la verdadera comprensión.
El hecho de que los humanos resuelvan estas tareas sin esfuerzo mientras los sistemas de IA fallan sugiere que la inteligencia humana funciona de forma cualitativamente diferente a los enfoques actuales de IA. Esto respalda el argumento de Chollet de que la IAG requiere más que solo modelos más grandes y más datos.
¿Cómo influye ARC-AGI en la investigación sobre IA?
Este punto de referencia ya ha impulsado un replanteamiento de la investigación en IA. En lugar de centrarse exclusivamente en modelos de escalado, los laboratorios líderes ahora exploran enfoques alternativos, como la computación en tiempo de prueba y los sistemas adaptativos.
Este cambio también se refleja en las inversiones: las empresas invierten cada vez más en investigaciones para razonar y resolver problemas de forma más eficiente, en lugar de invertir en ciclos de formación cada vez más largos.
¿Qué papel desempeña la comunidad de código abierto?
La Fundación del Premio ARC enfatiza la importancia del desarrollo de código abierto para el avance de la IA general. Todos los ganadores del concurso deben publicar sus soluciones.
Esta filosofía se basa en la convicción de que la IA general es demasiado importante como para desarrollarse únicamente en laboratorios cerrados. La Fundación se considera un catalizador para una comunidad de investigación colaborativa y transparente.
¿Cuáles son las limitaciones del benchmark ARC-AGI?
A pesar de su importancia, el ARC-AGI también presenta limitaciones. El propio Chollet enfatiza que aprobar la prueba no equivale a alcanzar la AGI. El parámetro mide solo un aspecto de la inteligencia – la capacidad para resolver problemas abstractos.
No se miden otros aspectos importantes como la creatividad, la inteligencia emocional o la planificación a largo plazo. Además, existe el riesgo de que se desarrollen sistemas específicamente optimizados para ARC-AGI que superen la prueba sin ser verdaderamente inteligentes en general.
¿Cómo evolucionan los costes de los modelos de IA en el contexto de ARC-AGI?
Las tendencias de costos muestran tendencias interesantes. Si bien el rendimiento aumenta lentamente, los costos de las mejoras marginales se disparan.
Esta dinámica de costos nos lleva a una conclusión importante: la eficiencia se está convirtiendo en el factor diferenciador clave. La Fundación del Premio ARC enfatiza que no solo la precisión, sino también el costo por tarea resuelta, es un criterio importante.
¿Qué significa ARC-AGI para el futuro del trabajo?
Los resultados tienen implicaciones tranquilizadoras para muchas profesiones. La incapacidad de los sistemas de IA para resolver tareas básicas de razonamiento demuestra que las capacidades cognitivas humanas están lejos de ser reemplazadas.
Al mismo tiempo, los avances en tareas especializadas sugieren que la IA seguirá sirviendo como herramienta para apoyar el trabajo humano en lugar de reemplazarlo por completo.
¿Qué nuevos enfoques de investigación están surgiendo a través de ARC-AGI?
Este punto de referencia ha inspirado varias direcciones de investigación innovadoras:
Síntesis del programa
Sistemas que generan programas para resolver problemas.
Enfoques neurosimbólicos
Combinación de redes neuronales con razonamiento simbólico.
Sistemas multiagente
Varios agentes especializados trabajan juntos.
Algoritmos evolutivos
Sistemas que desarrollan soluciones de forma evolutiva.
¿Cuál es la visión de la Fundación Premio ARC para el futuro?
La Fundación tiene una misión clara: servir de guía para el desarrollo de la IA abierta. No se trata solo de establecer referentes técnicos, sino de crear un ecosistema que fomente la innovación y garantice que los avances de la IA beneficien a toda la humanidad.
El desarrollo continuo de nuevas versiones de referencia busca garantizar que el estándar se eleve continuamente y que la investigación no se estanque. Con ARC-AGI-3 y futuras versiones, la Fundación busca explorar aún más los límites de la IA y sus carencias.
Estamos allí para usted – Asesoramiento – Planificación – Implementación – Gestión de proyectos
☑️ Apoyo a las PYMES en estrategia, consultoría, planificación e implementación.
☑️ Creación o realineación de la estrategia de IA
☑️ Desarrollo empresarial pionero
Estaré encantado de servirle como su asesor personal.
Puedes contactarme completando el formulario de contacto a continuación o simplemente llámame al +49 89 89 674 804 (Múnich) .
Estoy deseando que llegue nuestro proyecto conjunto.
Xpert.digital – Konrad Wolfenstein
Xpert.Digital es un centro industrial centrado en la digitalización, la ingeniería mecánica, la logística/intralogística y la fotovoltaica.
Con nuestra solución de desarrollo empresarial de 360°, apoyamos a empresas reconocidas desde nuevos negocios hasta posventa.
Inteligencia de mercado, smarketing, automatización de marketing, desarrollo de contenidos, relaciones públicas, campañas de correo, redes sociales personalizadas y desarrollo de leads son parte de nuestras herramientas digitales.
Puede encontrar más en: www.xpert.digital – www.xpert.solar – www.xpert.plus