Google explicó cómo funciona el nuevo Gemini en un diálogo en vivo entre dos personas.

Asistentes de voz gradualmente dejan de sonar como contestadores automáticos sin alma. Google actualizó el modelo de audio Gemini 2.5 Flash Native Audio: ahora el modelo mantiene diálogos más naturales, comprende mejor solicitudes complejas y traduce el habla casi en tiempo real directamente a través de los auriculares.
La nueva versión Gemini 2.5 Flash Native Audio ya está disponible en los servicios de Google, incluidos Google AI Studio y Vertex AI. El modelo también ha comenzado a aparecer en Gemini Live y Search Live. Para la búsqueda, esta capacidad es nueva, ya que la interacción sonora en vivo antes no admitía un formato de respuesta tan natural. El usuario podrá discutir ideas con Gemini usando la voz, recibir ayuda durante la búsqueda o crear asistentes de voz que atiendan a clientes.
Google ha mejorado el modelo en varios aspectos. Gemini ahora invoca con más fiabilidad funciones externas cuando en la conversación se necesitan datos frescos, y luego integra la información encontrada en la respuesta de voz sin interrumpir bruscamente el diálogo. En la prueba ComplexFuncBench Audio, que evalúa el trabajo multietapa con distintas condiciones, el modelo obtuvo 71,5%.
También mejoró la ejecución de instrucciones. Según Google, Gemini 2.5 Flash Native Audio ahora sigue las indicaciones de los desarrolladores en el 90% de los casos frente al 84% anterior. La compañía también afirma que el modelo sostiene diálogos multietapa más fluidos: recuerda mejor el contexto de las réplicas previas y construye una conversación más coherente.
Por separado, Google actualizó la traducción de voz. La compañía lanza en la aplicación Google Traductor una versión beta de traducción en vivo para auriculares. La función transmite el habla de un idioma a otro de forma continua y procura conservar la entonación, el ritmo y la altura de la voz del hablante, para que la traducción suene más natural.
El sistema admite más de 70 idiomas y alrededor de 2000 pares de idiomas. Gemini puede escuchar varios idiomas en una misma sesión, detectar automáticamente el idioma del hablante y comenzar la traducción sin ajuste manual. Para un diálogo entre dos personas, el modelo cambia el idioma de salida en función de quién habla. Por ejemplo, un usuario angloparlante podrá escuchar la traducción del interlocutor al inglés en los auriculares, y el teléfono, tras su respuesta, reproducirá la traducción al hindi.
Google destaca la resistencia al ruido. El modelo debe filtrar los sonidos ambientales para que la traducción funcione no solo en una habitación silenciosa, sino también en la calle u otros entornos ruidosos.
La versión beta de la traducción en vivo se despliega desde hoy en la aplicación Google Traductor en Android en EE. UU., México e India. Para usarla, es necesario conectar los auriculares al dispositivo y pulsar Traducción en vivo. El soporte para iOS y el lanzamiento en otras regiones llegarán más tarde. En 2026, Google planea llevar la traducción de voz en vivo también a la API de Gemini.
Para desarrolladores, Gemini 2.5 Flash Native Audio ya está disponible en Vertex AI, y en Gemini API el modelo se ofrece por ahora en modo preliminar. Los modelos de texto a voz Gemini 2.5 Flash y Gemini 2.5 Pro también están disponibles a través de la API de Gemini en Google AI Studio.