¿Alguna vez se ha preguntado: «¿Qué flor es esta?», «¿Hasta qué hora está abierta esta pizzería?» o «¿Dónde he visto un coche así?». Antes había que buscar la respuesta manualmente. Ahora basta con apuntar la cámara del iPhone: Visual Intelligence desglosa la imagen. Vamos a ver cómo hacer que la función funcione, qué puede hacer y gracias a qué tecnologías entiende el mundo que nos rodea.
Visual Intelligence en pocas palabras
Visual Intelligence es parte del paquete Apple Intelligence, que procesa la imagen directamente en el dispositivo y, si es necesario, recurre a la nube. El módulo analiza los objetos en tiempo real, sugiere nombres, extrae datos públicos sobre el lugar de la toma y crea «enlaces‑acción» (deep links) a aplicaciones: desde reservar mesa hasta pedir comida. Formalmente es el pariente más cercano de Google Lens, pero con énfasis en la privacidad: el reconocimiento ocurre localmente y la nube recibe solo una consulta desidentificada.
Modelos y versiones de iOS compatibles
| Dispositivo | iOS mínima | Botón físico |
|---|---|---|
| iPhone 16 / 16 Plus / 16 Pro / 16 Pro Max | iOS 18.2 | Control de cámara |
| iPhone 16E | iOS 18.3 | Botón de acción |
| iPhone 15 Pro / 15 Pro Max | iOS 18.4 | Botón de acción |
Importante: en Ajustes → Apple Intelligence & Siri el conmutador de Apple Intelligence debe estar activado; de lo contrario Visual Intelligence simplemente no aparecerá.
Primeros cinco pasos: activar Visual Intelligence
- Compruebe la versión de iOS. Actualice a la versión de iOS indicada en la tabla anterior.
- Active Apple Intelligence. Ajustes → Apple Intelligence & Siri → activar.
- Configure el botón.
- iPhone 16: mantenga pulsado Control de cámara a la derecha.
- iPhone 16E/15 Pro: Ajustes → Botón de acción → desplácese y seleccione Visual Intelligence.
- Añada un acceso directo a la pantalla de bloqueo. Mantenga pulsada la pantalla de bloqueo → Personalizar → Pantalla de bloqueo → reemplace el icono inferior por Visual Intelligence.
- Compruebe el Centro de control. Deslice hacia abajo desde la esquina superior derecha. ¿No hay icono? Pulse + → Añadir un control → Visual Intelligence.
Qué puede hacer Visual Intelligence: desde un gatito hasta un recibo
Reconocimiento de la naturaleza
Apunte la cámara a una planta y aparecerá el nombre de la especie en la parte superior. Un solo toque sobre el nombre abre una ficha con requisitos de suelo, frecuencia de riego y, si procede, un enlace para comprar semillas en una tienda.
Tarjetas comerciales inteligentes
Toque un punto en el mapa o la sugerencia y verá un mini‑menú:
- Horario — horas de apertura;
- Reservar — enlace para reservar mesa;
- Pedido — entrega a través de socios;
- Menú — PDF o menú web;
- … (tres puntos) — llamada, sitio web, navegación.
Internamente la URL se construye con la fórmula https://maps.apple.com/?q=<place_id>&action=reserve, por lo que iOS abre directamente la hoja dividida correspondiente sin pasos adicionales.
Procesamiento de texto
Fotografíe un horario de trenes o una página de un libro. En la parte inferior aparecerán opciones:
- Resumir — resumen breve;
- Traducir — traducción instantánea;
- Leer en voz alta — locución con la voz de Siri.
El algoritmo procesa el texto mediante Vision Kit, lo convierte en tokens, y a continuación un modelo LLM evalúa el contexto y genera la acción necesaria.
Acciones automáticas
¿Se ha resaltado un número de teléfono? Toque y se iniciará la llamada. ¿Se ha reconocido una fecha? iOS propondrá crear un evento. Incluso un billete de avión se escanea: con el código de vuelo se abrirá el mapa del terminal y el estado del vuelo.
Dos superbotones: Preguntar y Buscar
| Botón | Qué hace | Cuándo es útil |
|---|---|---|
| Preguntar | Abre una ventana de ChatGPT con la imagen lista. | «¿Cómo reparar esta grifería?», «¿Qué preparar con estos ingredientes?» |
| Buscar | Inicia una búsqueda por imagen en Google. | «Comprar zapatillas similares», «¿Quién aparece en la foto?» |
Por debajo: la imagen se comprime, se hashifica y se carga en Google Image Search, y la URL se forma con la plantilla https://www.google.com/searchbyimage?image_url=<encoded_url>&btnG=Search. El navegador abre los resultados directamente en modo imágenes.
Cómo Visual Intelligence protege la privacidad de los datos
Apple usa un esquema de tres pasos:
- Aprendizaje automático en el dispositivo — un modelo en el motor neuronal analiza los objetos localmente.
- Enlaces de retransmisión privada — para consultas externas se crea un token temporal que oculta la IP.
- Consulta ofuscada — a la nube solo llega un conjunto desidentificado de características, no la foto en sí.
Este enfoque explica por qué la lista de dispositivos compatibles es limitada: se requiere como mínimo un Neural Engine de 8 núcleos y 12 GB de RAM, que solo aparecieron en la línea iPhone 15 Pro.
Historia: cómo evolucionaron los enlaces desde la cámara
| Año | Tecnología | Qué hacía |
|---|---|---|
| 2017 | AR Kit 1.0 | Detección de planos, colocación de modelos 3D |
| 2019 | Visual Look Up | Reconocimiento de objetos en Fotos |
| 2022 | Live Text | Copiar y traducir texto en imágenes |
| 2025 | Visual Intelligence | Combinación de reconocimiento, chat y acciones directas |
Cada etapa añadió nuevos tipos de deep links: desde tel: y mailto: hasta intent://orderFood y esquemas personalizados de restaurantes. La «fórmula de enlace» actual consta de tres partes: esquema, identificador del objeto, acción. Por ejemplo:
maps://place?lid=123456&act=reserve
Lista de comprobación práctica: cuándo la función ahorra tiempo
- Comprobar el horario de una farmacia en una zona desconocida.
- Traducir rápidamente un cartel en idioma extranjero.
- Identificar la raza de un perro que se encuentre por la calle.
- Convertir una lista de tareas escrita a mano en un To‑Do digital.
- Reservar una mesa simplemente apuntando la cámara a la fachada del restaurante.
Conclusiones
Visual Intelligence convierte la cámara del iPhone en un escáner universal de la realidad. Desde el reconocimiento básico de objetos, Apple ha pasado a una cadena de «ver — entender — actuar», donde cada toque ahorra minutos, o incluso horas. Sume a esto el procesamiento local y los deep links flexibles, y obtiene una herramienta que realmente simplifica la vida sin florituras innecesarias.
Así que la próxima vez que le interese un café en la calle o una planta rara al borde del camino, no se apresure a buscar en Google manualmente: basta con mirar a través del objetivo del iPhone.