Una startup desconocida amenaza con dejar en ridículo a los chips de Nvidia en velocidad y eficiencia energética

Una startup desconocida amenaza con dejar en ridículo a los chips de Nvidia en velocidad y eficiencia energética

Tensordyne desafía a un gigante al sustituir la multiplicación por la suma — y por ahora nadie puede verificar si sus afirmaciones son ciertas.

image

La startup californiana Tensordyne envió a producción el diseño del primer chip de IA Napier y ya compara el futuro sistema con los aceleradores de Nvidia. Según los cálculos de la empresa, un nodo de 72 chips Napier podrá ejecutar modelos de lenguaje a gran escala cuatro veces más rápido que un sistema con 72 Nvidia GB300, y al mismo tiempo consumir cinco veces menos energía. Aún no es posible verificar estas cifras: los clientes todavía no tienen el equipo listo y los primeros sistemas reales deberían aparecer más adelante.

La apuesta principal de Tensordyne no es un nuevo aumento del número de unidades de cálculo, sino otra forma de realizar la aritmética de las redes neuronales. El trabajo de los modelos modernos se basa en multiplicaciones matriciales. Los chips multiplican constantemente grandes matrices de números, y esas operaciones requieren mucha energía y ocupan una parte notable del chip. Napier intenta reemplazar parte de esa carga por operaciones más económicas.

La idea se apoya en una propiedad matemática simple: el logaritmo de un producto equivale a la suma de los logaritmos. Si se convierten los números a su forma logarítmica, la multiplicación puede sustituirse por una suma. Para una microarquitectura esto es importante: los sumadores son más simples, ocupan menos y consumen menos que los bloques multiplicadores. Tensordyne afirma que precisamente gracias a esto Napier puede colocar más operaciones en menos área y reducir el consumo de energía.

El principio es conocido desde hace tiempo, pero antes había un problema práctico. Las redes neuronales suelen trabajar con formatos de punto flotante, y la conversión hacia y desde la representación logarítmica consumía demasiado tiempo, energía y precisión. En Tensordyne aseguran haber encontrado una forma de realizar esas conversiones con suficiente rapidez y precisión directamente sobre silicio. La empresa aún no ha revelado una descripción técnica detallada, por lo que la parte clave de la afirmación sigue cerrada a la verificación externa.

Los formatos de número han influido durante mucho tiempo en el desarrollo de aceleradores de IA. Cuanto más corta es la representación de un número, más pequeña es la matriz de circuitos, más rápidas las operaciones y menor el consumo energético. Por eso la industria pasó de formatos más pesados a FP16, BF16, FP8 y variantes aún más compactas. Nvidia también atribuyó gran parte de la mejora de rendimiento de sus GPU a la adopción de formatos numéricos más cortos. Tensordyne va más allá y propone no solo recortar la precisión, sino cambiar la propia aritmética.

La compañía diseña Napier principalmente para la inferencia, es decir, la ejecución de modelos ya entrenados. Este mercado crece rápidamente: los servicios de IA responden a los usuarios, escriben código, actúan como agentes, procesan solicitudes largas y ejecutan cadenas de acciones. En esa carga no solo importa el rendimiento total, sino la latencia de respuesta, el coste por millón de tokens y el consumo de energía en el centro de datos.

El lanzamiento de un gran modelo de lenguaje suele dividirse en dos fases. Primero viene el prefill: el modelo lee el texto de entrada, lo transforma en tokens y construye el contexto de trabajo para la respuesta posterior. Esta etapa exige muchos cálculos. Luego comienza el decode: el modelo genera nuevos tokens uno por uno, apoyándose en el contexto ya creado. Aquí son especialmente importantes la memoria, el ancho de banda y las latencias entre chips, porque cada nuevo fragmento de respuesta depende del anterior.

Los fabricantes de hardware de IA con mayor frecuencia separan estas tareas entre diferentes sistemas. Unos aceleradores son mejores para el pesado cálculo inicial, otros para la generación rápida de tokens con baja latencia. Tensordyne afirma que Napier podrá cubrir eficazmente ambas partes en una sola arquitectura, sin necesidad de combinar varios proveedores ni de desplegar un gran número de bastidores.

Para la etapa computacionalmente pesada la compañía emplea matemática logarítmica. Para la generación de respuestas, Napier dispone de 144 GB de memoria HBM de alta velocidad por chip y de una red propia entre procesadores. En los materiales de Tensordyne esa red se denomina Napier Link o TDN Link; la empresa declara una latencia del orden de un microsegundo o menos y una alta capacidad de transferencia dentro de un sistema de 72 chips.

Un nodo de Tensordyne ocupa un cuarto de un bastidor estándar. Incluye 72 chips Napier, ocho procesadores Intel Xeon y 64 TB de almacenamiento en estado sólido. Un bastidor completo agrupa cuatro de esos nodos, es decir, 288 chips. Según la empresa, esa configuración consume alrededor de 120 kW, funciona con refrigeración por aire y está diseñada para modelos grandes, incluidos sistemas con billones de parámetros.

La afirmación más llamativa se refiere a la economía. Tensordyne asegura que un bastidor de cuatro nodos, al trabajar con un modelo de 2 billones de parámetros, podrá ofrecer alrededor de 1300 tokens por segundo por usuario a un coste de $11 por millón de tokens. La compañía compara esto con sistemas híbridos más grandes basados en futuros aceleradores de Nvidia y con soluciones separadas para la generación de respuestas que, según su estimación, requerirían más bastidores y consumirían significativamente más energía.

Pero por ahora todas esas cifras siguen siendo una promesa. Tensordyne ya ha superado una etapa importante: el diseño de Napier se ha enviado a producción. En la industria esto se conoce como tapeout. Tras ese paso, el chip aún hay que fabricar, recibir, verificar, corregir posibles problemas, montar los sistemas, completar la pila de software y permitir que los clientes realicen pruebas reales. Entre una buena simulación y un funcionamiento estable en un centro de datos suele haber una gran distancia de ingeniería.

El riesgo es especialmente alto debido a la aritmética inusual. Nvidia, AMD y otros grandes proveedores no solo ganan por el hardware, sino también por un ecosistema de software maduro. Los desarrolladores están acostumbrados a sus herramientas, bibliotecas, compiladores y perfiles. A un nuevo chip no le basta con ser eficiente en papel: debe ejecutar modelos reales rápidamente, funcionar bien con los marcos populares y no obligar a los clientes a rehacer por completo su infraestructura.

Si Tensordyne confirma sus cálculos con hardware listo, Napier podría convertirse en una alternativa destacada para la inferencia. El consumo energético ya es uno de los principales problemas de los servicios de IA: los centros de datos necesitan respuestas rápidas, bajo coste por token y menor presión sobre las redes eléctricas. Cualquier arquitectura que realmente reduzca la latencia y el consumo de energía atraerá la atención de proveedores en la nube y desarrolladores de modelos.

Tensordyne planea abrir las primeras pruebas beta en la nube antes de finales de 2026, y las entregas a clientes se esperan en 2027. Hasta entonces, la afirmación de la compañía debe leerse con cautela: Napier parece un intento interesante de reordenar la matemática de los aceleradores de IA, pero el mercado creerá en la ventaja sobre Nvidia solo después de pruebas independientes con modelos reales, y no tras comparaciones en simulación.