CompressARC: La IA prodigio que resuelve complejos rompecabezas de un solo vistazo

CompressARC: La IA prodigio que resuelve complejos rompecabezas de un solo vistazo

No se necesitan gigabytes de datos de entrenamiento cuando existe la compresión.

image

Investigadores de la Universidad Carnegie Mellon han desarrollado un algoritmo de inteligencia artificial capaz de resolver complejas tareas lógicas prácticamente desde cero, sin necesidad de entrenarse en miles de ejemplos previos. El sistema, llamado CompressARC, se distingue por un enfoque radicalmente nuevo en el procesamiento de la información.

En lugar de aprender a partir de una gran cantidad de ejemplos, esta red neuronal analiza cada problema de forma independiente, buscando su descripción matemática más corta, a partir de la cual puede reconstruir la solución completa.

El núcleo de CompressARC es una red neuronal especial de tipo decodificador. A diferencia de los transformadores convencionales (arquitectura utilizada en modelos como ChatGPT), esta red no se ocupa de codificar la información, sino únicamente de reconstruir la solución a partir de una representación compacta. Para ello, se basa en un mecanismo de "flujo residual", que guarda secuencialmente los resultados intermedios en cada etapa del procesamiento y los utiliza para refinar la respuesta final.

Para evaluar la eficacia de este enfoque, el doctorando Isaac Liao y el profesor Albert Gu utilizaron uno de los test más desafiantes para la inteligencia artificial: el conjunto de rompecabezas visuales ARC-AGI, creado en 2019 por el experto en aprendizaje automático François Chollet. Cada uno de estos rompecabezas consiste en una cuadrícula tipo puzle donde la IA debe inferir la regla a partir de unos pocos ejemplos y aplicarla a un nuevo caso.

Un ejemplo de estas pruebas: en pantalla aparece una cuadrícula dividida por líneas azul claro. La tarea consiste en llenar las celdas con colores según ciertas reglas. Las esquinas deben ser negras, la celda central, púrpura. Las demás se colorean en función de su posición relativa al centro: las superiores en rojo, las inferiores en azul, las de la derecha en verde y las de la izquierda en amarillo. A primera vista, la tarea parece simple, pero en realidad exige que la IA desarrolle habilidades avanzadas, como analizar relaciones espaciales, detectar patrones en la disposición de los elementos y aplicar las reglas deducidas a nuevas situaciones.

CompressARC también emplea un método matemático llamado "descenso de gradiente", que permite encontrar la solución óptima mediante pequeños ajustes progresivos. La IA explora el espacio de posibles respuestas, modifica los parámetros, observa cómo afectan al resultado y se acerca gradualmente a la mejor solución. Sin embargo, su principal diferencia con otros sistemas es que no selecciona respuestas prefabricadas, sino que busca generar la descripción más comprimida posible del problema: una especie de fórmula aplicable a cualquier tarea similar.

Los resultados de las pruebas son impresionantes: el programa resuelve correctamente el 34,75 % de los problemas del conjunto de entrenamiento y el 20 % de los rompecabezas completamente nuevos. Aunque estos números son inferiores a los de la última versión del modelo de OpenAI (o3 logra un 75,7 % en tiempo limitado y un 87,5 % sin restricciones), el desarrollo de Carnegie Mellon tiene una gran ventaja. CompressARC realiza todos sus cálculos en una simple tarjeta gráfica de videojuegos RTX 4070 en solo 20 minutos, mientras que o3 requiere una enorme infraestructura de servidores y tiempos de procesamiento mucho mayores.

Cuando comprimimos datos, en realidad estamos buscando patrones y estructuras en ellos, de la misma manera en que nuestro cerebro busca significado en el mundo que nos rodea. Este principio está reflejado en dos conceptos fundamentales: la complejidad de Kolmogórov (que mide cuán breve puede ser la descripción de un programa para obtener un resultado determinado) y la inducción de Solomonoff (que trata de encontrar la mejor forma de predecir a partir de los datos disponibles). Un algoritmo capaz de comprimir eficazmente la información debe comprender su estructura y detectar patrones ocultos, cualidades que a menudo consideramos signos de inteligencia.

Las investigaciones en este campo ya están arrojando resultados inesperados. En septiembre de 2023, el equipo de DeepMind descubrió que su modelo de lenguaje Chinchilla 70B superaba a los algoritmos de compresión especializados: reducía el tamaño de fragmentos de imágenes al 43,4 % del original (frente al 58,5 % de PNG) y comprimía audio hasta un 16,4 % (mientras que FLAC alcanza un 30,3 %).

Por supuesto, CompressARC tiene sus limitaciones. Funciona bien con tareas de distribución de colores, relleno de espacios y análisis de píxeles adyacentes, pero enfrenta dificultades con operaciones numéricas, detección de patrones distantes, rotaciones y reflejos.

Los escépticos argumentan que el éxito del sistema podría deberse simplemente a que ha aprendido a aprovechar las propiedades matemáticas específicas de los rompecabezas ARC, como su estricta estructura geométrica y el número limitado de transformaciones posibles. Si ese es el caso, este enfoque podría no ser tan efectivo para otros tipos de problemas con datos más complejos o menos estructurados.

Aun así, este descubrimiento podría marcar un punto de inflexión en el desarrollo de la inteligencia artificial. En lugar de depender del aumento de la potencia de cálculo y de ingentes volúmenes de datos de entrenamiento, los investigadores proponen centrarse en cómo las máquinas procesan y estructuran la información. Este enfoque no solo optimiza los recursos, sino que también nos acerca a comprender la propia naturaleza del pensamiento.

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Suscribirse