Los desarrolladores de DeepSeek hallan la manera de reducir a la mitad el costo de la computación de IA.

Los desarrolladores de DeepSeek hallan la manera de reducir a la mitad el costo de la computación de IA.

La economía de los grandes modelos de lenguaje cambia para siempre.

image

La empresa china DeepSeek presentó una versión experimental de su modelo de lenguaje DeepSeek-V3.2-Exp, en la que implementó por primera vez su propia variante de "atención dispersa", una técnica que permite reducir significativamente los costes computacionales al procesar secuencias largas de texto. El nuevo mecanismo se denomina DeepSeek Sparse Attention y, según los desarrolladores, puede reducir el coste de funcionamiento del modelo casi a la mitad. Para confirmar el ahorro, la compañía redujo los precios del uso de la API en un 50 por ciento.

El tema de la carga computacional en los grandes modelos de lenguaje es especialmente agudo en los diálogos largos. La arquitectura clásica Transformer, desarrollada en 2017, compara cada palabra de la secuencia de entrada con todas las demás, lo que provoca un crecimiento cuadrático del número de operaciones. Al introducir mil palabras, esto ya supone un millón de comparaciones, y con diez mil, cien millones. Ese aumento de costes hace que las sesiones prolongadas consuman muchos recursos y ralentice el funcionamiento, ya que en cada nueva petición el sistema se ve obligado a analizar de nuevo todo el historial del diálogo.

La tecnología de atención dispersa funciona de forma distinta. No compara cada palabra con todas las demás, sino que selecciona un conjunto limitado de las conexiones más relevantes. DeepSeek utiliza para ello un mecanismo propio llamado "lightning indexer", un pequeño bloque neuronal adicional que evalúa la importancia de los pares de palabras y selecciona hasta 2048 de las conexiones más relevantes para cada posición. La empresa no reveló detalles sobre cómo el indexador toma decisiones, pero afirma que la calidad de la comprensión del texto no se ve afectada.

Las pruebas internas mostraron que el nuevo modelo ofrece resultados comparables con la versión anterior DeepSeek-V3.1-Terminus, manteniendo a la vez alta precisión y capacidad para procesar secuencias largas. Cabe destacar que DeepSeek abrió los componentes fuente bajo la licencia MIT y publicó los pesos abiertos, lo que permite a otros investigadores verificar y desarrollar las soluciones propuestas.

Por primera vez DeepSeek ganó atención pública en enero, cuando su modelo R1 logró alcanzar el nivel OpenAI o1 con unos costes de entrenamiento de apenas 6 millones de dólares. Además, la aplicación de chat de la compañía ocupó brevemente el primer puesto en la tienda de aplicaciones para iPhone, superando a ChatGPT. Desde entonces, la atención del sector está centrada en el laboratorio chino, que se ve obligado a buscar formas de optimizar los cálculos debido al acceso limitado a procesadores gráficos modernos y a otros chips especializados por las restricciones a la exportación.

Aunque la atención dispersa como enfoque es conocida desde hace tiempo y se aplicó por primera vez en GPT-3 y en varios otros modelos de desarrolladores occidentales, DeepSeek sostiene que su implementación permitió lograr "ajustes finos" y una reducción real del coste de los cálculos sin pérdidas apreciables de calidad. Especialistas independientes aún no han confirmado estos resultados; sin embargo, si las conclusiones de la compañía resultan ser correctas, métodos similares podrían cambiar seriamente la economía del uso de modelos de IA a largo plazo.

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!