En SpiNNaker todo es perfecto… salvo la refrigeración, la protección y el botón de “apagado”.
Durante el fin de semana de Pascua, se produjo un incidente grave en la Universidad de Mánchester: el superordenador SpiNNaker, diseñado a semejanza del cerebro humano, dejó de funcionar debido a un aumento crítico de temperatura. Lo sucedido hizo estremecerse a administradores de sistemas de centros de datos de todo el mundo.
El profesor Steve Furber, ya jubilado pero que aún llama a SpiNNaker su creación, explicó que el 20 de abril falló el sistema de refrigeración. La temperatura no dejó de subir hasta que al día siguiente los servidores fueron apagados manualmente.
El proyecto busca reproducir las conexiones neuronales de un organismo vivo, combinando cientos de miles de núcleos de procesadores ARM en una sola arquitectura. Aunque aún no se habla de copiar la conciencia humana, Furber cree posible crear un análogo digital del sistema nervioso de un roedor.
A principios de mes, en un evento dedicado al 40.º aniversario del primer procesador ARM, el científico compartió sus ambiciosos planes. Según sus palabras, el equipo aspira a modelar el funcionamiento de "todo un ratón" con el nivel de detalle necesario. Sin embargo, ahora todo depende de cuán bien soportó el hardware el sobrecalentamiento.
El superordenador se encuentra en el edificio Kilburn, construido en 1972 específicamente para albergar equipos informáticos. En la sala técnica hay instalado un sistema de suministro de agua refrigerada para todas las salas centrales de máquinas.
El espacio para SpiNNaker fue acondicionado en 2016 en lo que antes era un taller mecánico. El sistema opera bajo el principio de circulación: los flujos calientes que salen de la parte trasera de los armarios pasan por un plenum hacia los enfriadores ubicados en los extremos de la sala. En ellos, la temperatura se reduce mediante intercambiadores térmicos conectados a la red general de agua.
El problema surgió precisamente con el suministro del líquido. Según Furber, cuando deja de enfriarse, los ventiladores de los enfriadores solo agravan la situación en lugar de ayudar a resolverla.
Como resultado, la temperatura comenzó a subir de forma descontrolada. Dado que la desconexión automática no funcionó, los servidores siguieron operando. El científico suponía que algunas placas de SpiNNaker contaban con protección contra el sobrecalentamiento. De este modo, el equipo principal podría haberse salvado de sufrir daños, pero los conmutadores de red y las fuentes de alimentación permanecieron encendidos. Y sin estos componentes, no es posible realizar un diagnóstico completo de las placas… Los especialistas temen que detrás de los problemas ya conocidos se oculten otras averías.
En los nueve años de funcionamiento de la máquina, se habían producido algunas fallas en la refrigeración, pero nunca con consecuencias graves. El profesor cree que las largas vacaciones de Pascua en el Reino Unido —donde tanto el viernes como el lunes son festivos— desempeñaron un papel fatal: la temperatura subió durante demasiado tiempo sin intervención del personal.
Actualmente, el equipo está desarrollando métodos para automatizar por completo el proceso de apagado de emergencia. Por ahora, el superordenador funciona al 80 por ciento de su capacidad y está disponible para usuarios internos, pero las pruebas de los sistemas continúan.
La buena noticia es que el software puede funcionar incluso con fallos parciales. La mala —para sustituir los componentes dañados, será necesario apagar algunas partes o incluso toda la máquina nuevamente.