Los modelos lingüísticos se hacen pasar por expertos… hasta que reciben preguntas que требуют pensamiento real.
Cuando se habla de la diferencia entre ciencia ficción y fantasía, entre personas técnicamente versadas puede desatarse una auténtica batalla verbal: educada, sí, pero interminable. Cada uno tiene su propia visión, no hay una respuesta única y el debate, probablemente, continuará incluso después de la muerte térmica del universo. Sin embargo, esta absurda discusión sí puede ser útil en un contexto: cuando se habla del hype en la industria IT.
En los últimos meses, ha ganado popularidad la idea de crear gemelos digitales. Se propone que los profesionales de TI generen “copias agentes” de sí mismos: asistentes pseudo-inteligentes capaces de encargarse de tareas rutinarias, liberando a la persona real para que se enfoque en cosas más importantes. ¿Suena a sueño? ¿O más bien a la antesala de un desastre al estilo Fantasía de Disney, donde el Aprendiz de brujo pierde el control del hechizo? En realidad, este concepto genera más preguntas que respuestas. Por ejemplo: si el gemelo digital comete un error, ¿quién se hace responsable? ¿Dónde termina la “rutina” y comienza el “trabajo real”? Y si el empleado se va de la empresa, ¿de quién es la copia que creó?
En verdad, la idea no es nueva. A mediados de los años 80 ya hubo un entusiasmo similar en el mundo TI con las llamadas sistemas expertos. Los optimistas de la época intentaron combinar el lenguaje de programación Lisp —diseñado para procesar largas cadenas conceptuales— con algoritmos que imitaban el pensamiento humano. Se invirtieron millones, las ambiciones se dispararon, y los medios anunciaban el nacimiento de la inteligencia artificial. Pero la IA nunca llegó.
No fue por falta de tecnología. Al contrario, los ordenadores evolucionaban rápidamente, la ley de Moore se cumplía con rigor y había dinero de sobra. El problema era más profundo: el pensamiento humano no es procesable como una tabla o un grafo. La pericia no se puede extraer del cerebro y codificarse. Por eso incluso tras años de estudio, los novatos rara vez se convierten de inmediato en profesionales.
Hoy, el intento se repite, ahora con modelos lingüísticos de gran tamaño (LLM) y sus versiones centradas en lógica (LRM). Pero incluso dejando la retórica a un lado, la tecnología actual aún no logra reproducir procesos mentales que consideren experiencia, contexto y sentido común.
Aun así, la industria no se rinde. En lugar de hechizos mágicos, la esperanza está puesta en algoritmos de razonamiento escalable. Apple, por ejemplo, publicó recientemente un estudio donde comparó la eficacia de LLM y LRM en la resolución de problemas lógicos de diferente complejidad. Se utilizaron rompecabezas clásicos como la torre de Hanói y el dilema del zorro, las gallinas y el saco de grano.
Los resultados fueron ambiguos. En tareas simples, los LLM superaron incluso a sus hermanos “lógicos”. Los modelos con refuerzo de razonamiento destacaron en los problemas de nivel medio. Pero frente a desafíos realmente complejos, ambos tipos de IA perdieron el rumbo. En algunos casos, los LRM no solo daban respuestas erróneas —directamente dejaban de ofrecer soluciones coherentes. Ni siquiera ayudarles con algoritmos previamente definidos mejoraba los resultados.
Esto sugiere que los modelos actuales tienen un límite de motivación computacional que no depende ni de la potencia del hardware ni de la cantidad de datos. Como si, al llegar a cierto umbral de dificultad, la IA simplemente se rindiera.
También se observó que diferentes tareas generan respuestas completamente distintas en las mismas IA. Lo que significa que, aunque un modelo resuelva bien un tipo de problema, no se puede suponer que hará lo mismo con otro similar. Las supuestas capacidades generales de razonamiento están, en realidad, muy sobrevaloradas.
Aunque este estudio muestra solo un fragmento de la realidad actual, no es único. En las fuentes citadas aparecen decenas de investigaciones que evidencian las mismas carencias.
Otra tendencia inquietante: el fenómeno del “colapso del modelo” por contaminación de datos. La IA sigue “alucinando” —inventando cosas— y aún no se conoce un modo fiable de mitigar este efecto. Son límites fundamentales que no se solucionarán esperando simplemente la llegada de la próxima generación de LLM.
Todo esto desmonta la idea popular de que la IA se vuelve más inteligente, precisa y útil con cada mes. En realidad, es una ilusión. La tecnología crea la apariencia de una mente racional, pero bajo la máscara se esconde un conjunto caótico de heurísticas que solo funcionan en contextos predecibles. Y el antropomorfismo engañoso que tanto promueven los desarrolladores puede tener consecuencias peligrosas. Lo que parece un simpático asistente podría ser el origen de un fallo sistémico imprevisible.
El mayor giro irónico es que quienes antes detectan los límites de la IA… son los mismos expertos en IT. Son como canarios en la mina, cuyo estado advierte sobre peligros invisibles. En otros sectores puede que no exista ese mismo nivel de control o relación entre funcionalidad y fiabilidad.
Por eso, hoy más que nunca, los ingenieros, arquitectos de sistemas y desarrolladores deben ser las voces más críticas. No para frenar el progreso, sino para evitar que se convierta en autodestrucción. Ellos mejor que nadie saben dónde termina la ciencia —y comienza el cuento de hadas.