¿Pensabas que Google nos salvaría del déficit de memoria? Para nada: solo empeorará.

11:35 / 03.04.2026

Algoritmos prometedores solo han avivado el apetito de los creadores de redes neuronales.

Las tecnologías de compresión de datos para inteligencia artificial prometen cada vez más reducir los costes de infraestructura, pero la realidad es más compleja. Una nueva solución de Google llamada TurboQuant atrajo atención con afirmaciones ruidosas sobre la reducción del consumo de memoria. Sin embargo, las expectativas del mercado se enfrentaron a un efecto más prosaico: la escasez de memoria no desaparecerá.

TurboQuant es un método de cuantización, es decir, la conversión de datos a un formato de menor precisión. No se trata de comprimir el modelo en sí, sino de reducir la memoria necesaria para almacenar las llamadas cachés KV, que actúan como «memoria a corto plazo» de los modelos de lenguaje durante la inferencia. Estas cachés a menudo consumen más recursos que el propio modelo, especialmente en diálogos largos.

Normalmente estos datos se almacenan con una precisión de 16 bits. Reducirla a 8 o 4 bits ya ofrece una disminución múltiple del consumo de memoria, pero va acompañada de pérdidas de calidad y de una carga computacional adicional. En Google afirman que TurboQuant permite alcanzar una calidad cercana a BF16 usando alrededor de 3,5 bits. En escenarios concretos la aceleración en GPU como H100 puede alcanzar hasta ocho veces.

La técnica combina dos enfoques matemáticos: Quantized Johnson-Lindenstrauss y PolarQuant. El segundo convierte vectores a coordenadas polares, lo que permite eliminar cálculos redundantes y simplificar el almacenamiento de datos. Un segundo algoritmo corrige los errores resultantes para mantener la precisión del modelo.

En las pruebas los desarrolladores consiguieron reducir el tamaño de las cachés KV hasta 2,5 bits con pérdidas mínimas de calidad. Son esos resultados los que sustentan las afirmaciones sobre un ahorro de memoria de seis veces. Además, el método podría aplicarse no solo a modelos de lenguaje, sino también a bases de datos vectoriales usadas en motores de búsqueda.

A pesar de las cifras llamativas, TurboQuant no resolverá el problema del aumento del precio de la memoria. Los analistas señalan que la optimización tiende a incrementar la escala de las tareas. En el último año las ventanas de contexto de los modelos crecieron de decenas de miles de tokens a millones. Por ejemplo, soluciones como DeepSeek ya marcaron esta tendencia, y herramientas y sistemas de agentes como OpenClaw solo aumentan la demanda de contextos largos.

Según TrendForce, esa clase de tecnologías no reducirá el consumo de memoria, sino que impulsará nuevos casos de uso que requieren mayores volúmenes de DRAM y NAND. Como resultado, los costes operativos pueden bajar, pero la demanda total de memoria seguirá creciendo.

TurboQuant abre nuevas posibilidades para optimizar la inferencia, pero no elimina el problema fundamental: el apetito de los modelos modernos crece más rápido de lo que se abaratan los recursos.

38 paquetes fingían ser herramientas de Apple y Google. Ataque a desarrolladores casi provoca una brecha de seguridad masiva

No era el Microsoft Teams correcto: un simple error al elegir un enlace puede mantener en vela a todo el equipo de ciberseguridad

Desmontan el mito de los hackers todopoderosos: en Cambridge explican por qué las redes neuronales no han revolucionado el mercado de servicios clandestinos.

¿Pensabas que Google nos salvaría del déficit de memoria? Para nada: solo empeorará.

Noticias sobre el tema

Vigilancia, botnet y cuchillas controladas a distancia: lo que un hacker descubrió en 11.000 robots en todo el mundo

«Con amor, TeamPCP»: hackers irrumpen en Checkmarx y lo anuncian en su repositorio

Una IA creó un exploit de día cero; la gente no se dio cuenta. Google lo detectó, pero apenas

Un candado en la mensajería: Apple activa por primera vez el cifrado de extremo a extremo entre iPhone y Android

Imponen multa de 100 millones de euros a Yandex Internacional por incumplir el RGPD

40.000 ataques en 24 horas: intentaron acallar a periodistas tras filtraciones sobre la cúpula política

38 paquetes fingían ser herramientas de Apple y Google. Ataque a desarrolladores casi provoca una brecha de seguridad masiva

No era el Microsoft Teams correcto: un simple error al elegir un enlace puede mantener en vela a todo el equipo de ciberseguridad

Desmontan el mito de los hackers todopoderosos: en Cambridge explican por qué las redes neuronales no han revolucionado el mercado de servicios clandestinos.