ARC-AGI-3: El benchmark de razonamiento interactivo y aprendizaje local
ARC-AGI-3 es la nueva métrica diseñada para evaluar la eficiencia de un agente al aprender reglas en entornos desconocidos sin instrucciones ni entrenamiento previo (arcprize.org). Lanzado el 25 de ma

El Pitch
ARC-AGI-3 es la nueva métrica diseñada para evaluar la eficiencia de un agente al aprender reglas en entornos desconocidos sin instrucciones ni entrenamiento previo (arcprize.org). Lanzado el 25 de marzo de 2026 por François Chollet y Mike Knoop, este entorno busca separar definitivamente la memorización de patrones de la verdadera adquisición de habilidades (Fast Company).
Bajo el capó
El sistema se distribuye como un toolkit de Python bajo licencia MIT, facilitando su integración en pipelines de evaluación locales (arcprize.org). A diferencia de los benchmarks estáticos, los modelos actuales más avanzados como GPT-5 y Claude 4.5 Opus puntúan por debajo del 1% en estas pruebas.
Esta brecha ocurre porque los LLM actuales carecen de capacidades nativas de exploración y planificación "on-the-fly" que los humanos resolvemos con facilidad. Mientras los humanos alcanzan el 100% de éxito, las arquitecturas de OpenAI y Anthropic fallan debido a esta incapacidad de planificación y exploración dinámica ya mencionada.
La evaluación utiliza una métrica denominada RHAE (Relative Human Action Efficiency), que compara los movimientos de la IA contra el desempeño del segundo mejor humano registrado (arXiv:2603.xxxxx). Esto introduce una vara de medir extremadamente alta que algunos críticos en Hacker News consideran sesgada hacia usuarios familiarizados con lógica de videojuegos.
Puntos críticos identificados:
- La política "no-internet" de la competición en Kaggle prohíbe el uso de APIs externas como GPT-5, obligando al uso de modelos locales (Kaggle Rules).
- Existe una barrera de cómputo alta, ya que los desarrolladores deben optimizar agentes masivos para correr en entornos con límites de tiempo estrictos.
- No hay datos públicos sobre los requisitos específicos de VRAM para el entorno de evaluación de Kaggle en 2026.
- Se desconoce si la ausencia de instrucciones afecta de forma distinta a humanos que no hablen inglés.
- El pool de premios de 2 millones de dólares incentiva el desarrollo de arquitecturas de agentes soberanos y eficientes (Kaggle ARC Prize 2026).
La opinión de Diego
Olvida usar ARC-AGI-3 para validar tu chatbot de atención al cliente; esto es para quienes están diseñando la próxima generación de arquitecturas de agentes autónomos. Si tu modelo solo sabe predecir el siguiente token basándose en billones de parámetros pero no puede resolver un puzzle visual nuevo de 3x3, no tienes inteligencia, tienes una biblioteca muy cara. A veces siento que mi capacidad de razonar antes del primer café también puntúa por debajo del 1% en este benchmark, pero para cualquier equipo de R&D serio, esto es el único examen que importa ahora mismo. No sirve para producción hoy, pero es el plano del software de mañana.
Código limpio siempre,
Diego Navarro.

Diego Navarro - Early Adopter Tech Analyst at UsedBy.ai
Artículos relacionados

Port nativo de Mac OS X 10.0 en Nintendo Wii mediante arquitectura PowerPC
El desarrollador Bryan Keller ha logrado que el kernel Darwin y la interfaz Aqua de Mac OS X 10.0 (Cheetah) arranquen de forma nativa en el hardware de una Nintendo Wii (GitHub). Este proyecto aprovec

Little Snitch para Linux 1.0: eBPF y la barrera de Btrfs
Little Snitch ha aterrizado oficialmente en Linux utilizando eBPF para interceptar el tráfico de red directamente en el kernel (fuente: obdev.at). Esta versión 1.0 llega como una herramienta gratuita

Análisis técnico de Revision 2026: El retorno al código puro y el veto a la IA generativa
La Revision 2026 ha finalizado estableciendo una prohibición total de herramientas de IA generativa, como GPT-5 o Claude 4.5 Opus, para proteger la autoría humana en la demoscene (Revision Seminar 202
Mantente al día con las tendencias de adopción de IA
Recibe nuestros últimos informes y análisis en tu correo. Sin spam, solo datos.