Esta supercomputadora fue diseñada para cálculos atómicos. Pero revolucionó la industria de la IA.
Suiza presentó la primera pareja de modelos de lenguaje de gran tamaño (LLM) completamente abiertos, creados en la supercomputadora Alps, una de las máquinas de cómputo más potentes de Europa y del mundo. Estos modelos son el resultado del trabajo conjunto de especialistas de ETH Zürich y el Instituto Federal de Tecnología de Lausana, y fueron anunciados por primera vez en la Cumbre Internacional sobre Desarrollo Abierto de LLM en Ginebra.
La tarea principal de las supercomputadoras tradicionalmente ha sido realizar cálculos de alta precisión, incluyendo aplicaciones científicas, de investigación y de apoyo a arsenales nucleares. Sin embargo, a medida que los chips comienzan a admitir cada vez más cálculos de baja precisión, estos sistemas se utilizan con más frecuencia para entrenar redes neuronales. Alps es un claro ejemplo de esta transición.
La supercomputadora Alps ocupa el tercer lugar entre las más potentes de Europa y el octavo en el mundo, según el ranking Top500. Su arquitectura está optimizada tanto para tareas tradicionales de cómputo de alto rendimiento como para entrenamiento a gran escala de inteligencia artificial. Es una de las primeras supercomputadoras basadas en los superchips Nvidia Grace-Hopper GH200. Cada uno de estos chips combina un procesador Grace de 72 núcleos basado en Arm Neoverse V2 con un acelerador gráfico H100, conectados a través del bus ultrarrápido NVLink-C2C con un ancho de banda de 900 GB/s.
En total, Alps cuenta con más de 10 mil de estos superchips, distribuidos en 2688 placas de cómputo interconectadas mediante enlaces Slingshot-11 de HPE Cray. Gracias a esto, el sistema alcanza un rendimiento de 42 exaflops utilizando el formato FP8 con datos dispersos, o alrededor de 21 exaflops en el formato más preciso BF16.
Aunque el H100 de Nvidia se ha utilizado durante mucho tiempo para entrenar IA, la gran mayoría de las soluciones hasta ahora han utilizado el formato HGX con ocho GPU por nodo, y no el GH200. En este sentido, Alps se destaca, al igual que las recientemente lanzadas Jupiter en Alemania e Isambard en el Reino Unido, ambas también basadas en GH200.
Según Thomas Schulthess, director del Centro Nacional Suizo de Supercomputación y profesor de ETH Zürich, la implementación de estos modelos solo fue posible gracias a las inversiones estratégicas en Alps, una supercomputadora construida específicamente para las necesidades de la inteligencia artificial.
Los nuevos modelos aún no tienen nombres oficiales, pero se sabe que estarán disponibles en dos configuraciones: con 8 y 70 mil millones de parámetros. El entrenamiento se llevó a cabo con 15 billones de tokens, de los cuales aproximadamente el 40% del conjunto de datos está compuesto por textos en idiomas distintos del inglés —más de mil lenguas en total.
Los autores del proyecto enfatizan la total apertura de su desarrollo. A diferencia del enfoque de grandes empresas tecnológicas como Microsoft, Google y Meta, planean publicar no solo los pesos y la arquitectura de los modelos, sino también todo el código fuente, así como los datos utilizados para el entrenamiento. Según el profesor Martin Jaggi de la EPFL, esta apertura está destinada a estimular la innovación no solo en Suiza, sino en toda Europa y en proyectos internacionales.
Desde un punto de vista científico, un componente importante del proyecto es la transparencia. Imanol Schlag, del ETH AI Center, considera que esta es la base para crear aplicaciones confiables y estudiar los riesgos potenciales asociados con la inteligencia artificial.
Es interesante que, para lograr altos resultados en la mayoría de las tareas y pruebas de conocimiento general, el equipo no tuvo que eludir los mecanismos de protección contra la recopilación automática de datos en internet; su cumplimiento, según se afirma, no afectó la calidad final de los modelos.
Se espera que los nuevos LLM estén disponibles públicamente ya en verano. Se distribuirán bajo la licencia libre Apache 2.0.