Los Científicos Revelan Cómo Reducir los Costos de Entrenamiento de Grandes Modelos de Lenguaje.
Especialistas de Microsoft y la Universidad de Beihang han desarrollado una técnica innovadora para ajustar finamente los grandes modelos de lenguaje (LLM), que reduce significativamente los costos.
El nuevo método "MoRA" es una técnica de ajuste fino paramétricamente eficiente (PEFT) que elimina las limitaciones de otro método popular: LoRA (low-rank adaptation). MoRA es especialmente útil cuando se necesita entrenar el modelo con nuevos conocimientos. Con el creciente uso de los métodos PEFT en el entorno empresarial, MoRA podría convertirse en una herramienta importante para los desarrolladores de aplicaciones LLM.
Ventajas y desventajas de LoRA
El ajuste fino clásico requiere la actualización de todos los parámetros del modelo, lo que se convierte en un proceso costoso y lento cuando hay miles de millones de parámetros. Los métodos PEFT permiten encontrar un subconjunto óptimo de parámetros necesarios para ajustar el modelo a una tarea específica.
LoRA se hizo popular gracias a su capacidad para actualizar parámetros a través de matrices de bajo rango, lo que reduce significativamente los requisitos de memoria. Sin embargo, LoRA no siempre puede manejar tareas más complejas, como el razonamiento matemático y el preentrenamiento continuo.
Introducción de MoRA
LoRA (a la izquierda) utiliza matrices de bajo rango, mientras que MoRA (a la derecha) utiliza una matriz cuadrada para un ajuste fino con un uso eficiente de los parámetros.
Para superar las limitaciones de LoRA, los científicos presentaron MoRA, que utiliza matrices cuadradas en lugar de matrices de bajo rango. La idea principal de MoRA es utilizar parámetros entrenables para lograr el máximo rango en el espacio de dimensiones originales del modelo. A diferencia de LoRA, los tamaños de entrada y salida del adaptador MoRA no coinciden con el modelo original, por lo que se desarrolló una función de compresión/descompresión que convierte los datos entre los dos espacios.
Resultados de las pruebas de MoRA
La curva de pérdida de MoRA es muy similar al ajuste completo para tareas de memorización de conocimientos.
Las pruebas de modelos de igual tamaño de LoRA y MoRA mostraron que MoRA supera significativamente a LoRA en tareas de memorización y se acerca al rendimiento del modelo completamente ajustado. En tareas de ajuste de instrucciones y razonamiento matemático, MoRA mostró resultados comparables a LoRA, pero en el preentrenamiento continuo en los campos biomédico y financiero, MoRA superó a LoRA.
PEFT para negocios
El ajuste fino es una tarea importante para las aplicaciones corporativas de LLM. Permite a las empresas utilizar modelos más pequeños para tareas que anteriormente requerían modelos avanzados y costosos. LoRA y sus variantes son el estándar de oro para el ajuste fino paramétricamente eficiente. Existen muchas herramientas y plataformas para crear adaptadores LoRA, como S-LoRA, que permite ejecutar miles de adaptadores en una sola GPU.
Los científicos han lanzado una implementación de código abierto de MoRA compatible con LoRA. Esto podría convertirse en una herramienta importante para las aplicaciones empresariales que desean agregar nuevos conocimientos a los modelos base.