Del ruido al párrafo: Google crea una tecnología que genera texto siguiendo las leyes del arte visua

Del ruido al párrafo: Google crea una tecnología que genera texto siguiendo las leyes del arte visua

El procesamiento simultáneo de todos los caracteres supera las barreras de velocidad habituales.

image

Google presentó el modelo experimental DiffusionGemma, que traslada los enfoques de los generadores de imágenes al trabajo con texto y promete acelerar la inferencia local en hardware de consumo. El nuevo modelo forma parte de la familia de modelos abiertos Gemma y ya está disponible para su descarga. Para ejecutar en equipos domésticos se requieren aproximadamente 18 GB de memoria RAM o de video.

DiffusionGemma se diferencia de los habituales grandes modelos de lenguaje. Los LLM convencionales generan texto de forma secuencial, token por token, por lo que dependen en gran medida de la velocidad de acceso a la memoria. El nuevo modelo, por su principio de funcionamiento, se acerca más a Stable Diffusion o Flux: primero coloca un conjunto de tokens aleatorios y luego va limpiando y refinando la base hasta obtener el fragmento de texto final.

Google espera que este enfoque sea más adecuado para su ejecución local. En la nube los proveedores aceleran los LLM convencionales mediante el procesamiento paralelo de múltiples solicitudes, pero en un portátil doméstico ese escenario no está disponible. Las tarjetas gráficas de consumo potentes suelen tener capacidad de cómputo sobrante, y DiffusionGemma puede aprovechar precisamente esa capacidad.

La principal ventaja del modelo no está en la calidad de las respuestas, sino en la velocidad. Según Google, DiffusionGemma supera a Gemma 4 12B aproximadamente 2,25 veces con la decodificación especulativa activada, y en comparación con Gemma 4 26B-A4B en un solo chip Nvidia H100 la aceleración se aproxima a cuatro veces. Sin embargo, en la prueba GPQA-Diamond el modelo de 26 mil millones de parámetros queda algo por detrás de Gemma 4 12B.

Google lanza DiffusionGemma como un desarrollo experimental, no como un producto corporativo. El modelo se distribuye bajo la licencia Apache 2.0 y ya está disponible a través de repositorios populares, incluido Hugging Face. Se ha añadido soporte en vLLM, MLX y HF Transformers, y la integración con Llama.cpp se espera más adelante.

El interés por ejecutar IA localmente crece no solo entre entusiastas. Las empresas buscan formas de reducir los costes de la computación en la nube, y Google ya ha empezado a moverse en esa dirección: en mayo la compañía añadió discretamente un pequeño modelo de lenguaje en el navegador Chrome.

Онлайн
17
ИЮНЯ
16:20
Product Backstage*: безопасная разработка и защита контейнеров
17 июня обсудим обновления PT Application Inspector, PT BlackBox и безопасность контейнеров.
Зарегистрироваться
Реклама. 18+. АО «Позитив Текнолоджиз», ИНН 7718668887  ·  *Продуктовое закулисье