Mientras todos diseñan asistentes inteligentes, una empresa optó por reconstruir los «cerebros» de las redes neuronales desde cero.

La empresa china DeepSeek presentó una nueva arquitectura para crear modelos de inteligencia artificial, proponiendo una reimaginación de los principios técnicos clave que sustentan los algoritmos de lenguaje modernos. El trabajo generó un vivo debate entre desarrolladores, a pesar de la complejidad de su exposición, y ya se considera un posible paso adelante en el desarrollo del aprendizaje automático.
El foco está en un enfoque denominado Manifold-Constrained Hyper-Connections (mHC), que desarrolla la idea de hiperconexiones en redes neuronales residuales que constituyen la base de muchos modelos de lenguaje. Los especialistas de DeepSeek sostienen que su variante puede aumentar la eficiencia de la arquitectura sin un aumento notable de la carga computacional. En el marco del experimento, la nueva tecnología se probó en tres modelos —de 3, 9 y 27 mil millones de parámetros— y mostró buena escalabilidad.
Los autores subrayan que el objetivo del desarrollo es crear modelos más potentes en condiciones de recursos limitados, lo que resulta especialmente relevante para equipos de investigación y startups. El enfoque de DeepSeek destaca frente a la tendencia general en la industria: mientras otras empresas se centran en aplicar las capacidades de los grandes modelos de lenguaje en productos aplicados y asistentes inteligentes, los desarrolladores de DeepSeek se enfocan en perfeccionar la propia estructura del entrenamiento.
El trabajo fue publicado el 1 de enero y atrajo la atención de representantes de la comunidad científica. Según el profesor de la Universidad de Ciencia y Tecnología de Hong Kong Zhuan Lun, las mejoras propuestas por DeepSeek pueden tener un impacto notable en la arquitectura de los transformadores que subyacen en los modelos de lenguaje. Señaló que la optimización del equipo chino ya ha cambiado la percepción sobre la eficiencia de estos sistemas.
DeepSeek lleva a cabo el desarrollo como un proyecto secundario dentro de una empresa dedicada al trading algorítmico. A pesar de ello, el equipo de 19 especialistas continúa participando activamente en el desarrollo de tecnologías fundamentales, ofreciendo soluciones y enfoques no convencionales para la construcción de redes neuronales.