Meta presentó MobileLLM-Pro: un modelo que funciona localmente y puede procesar 128.000 tokens.

Meta presentó MobileLLM-Pro: un modelo que funciona localmente y puede procesar 128.000 tokens.

Modelo de mil millones de parámetros funciona sin conexión a la nube.

image

Meta Reality Labs presentó MobileLLM-P1 (Pro): un modelo de lenguaje compacto de 1 000 millones de parámetros, diseñado para funcionar sin conexión a la nube. Puede realizar tareas habituales como responder preguntas, parafrasear y resumir texto directamente en el dispositivo. El modelo y sus archivos están disponibles en Hugging Face.

En la serie MobileLLM se lanzaron dos variantes: la básica y otra afinada según instrucciones. Ambas son de código abierto e incluyen puntos de control listos (checkpoints) para CPU y aceleradores móviles.

Según Meta, la MobileLLM-Pro básica muestra mejores resultados que Gemma 3 1B y Llama 3.2 1B: un 5,7 % y un 7,9 % superiores en tareas de razonamiento, extracción de conocimiento y trabajo con contexto largo. Además, el modelo se entrenó con menos de 2 billones de tokens totalmente abiertos.

El contexto del modelo alcanza hasta 128 000 tokens. Esto permite analizar documentos extensos y extraer información de textos grandes. Para acelerar el funcionamiento, los desarrolladores utilizan una combinación de atención local y global (proporción 3:1). Ese enfoque reduce la latencia casi a la mitad y disminuye el tamaño del caché KV de 117 MB a 40 MB.

MobileLLM-Pro admite cuantización de 4 bits con pérdidas mínimas de calidad —no más del 1,3 %. Para CPU se usa int4 (pesos) e int8 (activaciones y caché KV) con una regresión del 0,4 %. Para aceleradores (por ejemplo, Apple ANE y Qualcomm HTP) — 1,3 %.

En la arquitectura hay 30 capas, 20 cabezas de atención (4 de ellas KV), tamaño de la capa oculta 6144 y vocabulario de 202 048 tokens. En total, 1,08 mil millones de parámetros. Como guía durante el entrenamiento se utilizó Llama 4-Scout.

En las pruebas, el modelo obtuvo: 67,1 % en HellaSwag, 76,2 % en BoolQ, 76,6 % en PIQA, 50,9 % en SocialIQA y 39,9 % en TriviaQA. En ARC-c — 52,6 %, en ARC-e — 76,3 % y en WinoGrande — 62,8 %.

La versión afinada con instrucciones alcanzó 44,8 % en MMLU, 62 % en IFEval, 59,8 % en HumanEval y 58,4 % en HellaSwag.

El entrenamiento se realizó en tres etapas: aprendizaje del lenguaje, ampliación del contexto hasta 128k y entrenamiento en distintos dominios. Luego se añadió entrenamiento consciente de la cuantización (QAT) para las versiones de 4 bits. La fase de afinamiento por instrucciones incluyó ajuste fino supervisado (SFT) y optimización directa por preferencia (DPO), con énfasis en la seguridad y la precisión.

El modelo se probó en Samsung Galaxy S25 y S24. Con 2 000 tokens, la precarga tardó 8,9 s en CPU y 1,96 s en HTP; con 8 000 — 63,5 s y 9,8 s, respectivamente.

MobileLLM-Pro se entrenó con 1,64 billones de tokens procedentes de fuentes abiertas: conjuntos de datos educativos, científicos, de código y matemáticos. El afinamiento por instrucciones se realizó con conjuntos de datos mixtos y sintéticos.

El modelo se distribuye bajo la licencia FAIR NC.

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!