Vídeo con una persona conocida que dice cosas extrañas. La voz del jefe en el mensajero, exigiendo con urgencia transferir dinero. Foto de un evento que no ocurrió. Ese tipo de material ya no siempre parece un trabajo tosco. Los modelos generativos han aprendido a ensamblar rostros, voces, expresiones y movimientos de forma lo bastante convincente como para que una persona sin contexto se equivoque.
Deepfake es una imagen, vídeo o audio falsificado o fuertemente alterado, creado con redes neuronales. La palabra viene de deep learning, es decir, aprendizaje profundo, y fake, es decir, falsificación. En ruso se suele usar la palabra дипфейк, que ya suena normal en noticias, investigaciones y conversaciones sobre fraude.
El deepfake no siempre implica un delito. La tecnología se usa en cine, publicidad, localización de vídeos, contenidos formativos, juegos y servicios de avatares. El problema empieza cuando al espectador le presentan material generado o modificado como una grabación real: una declaración política, material comprometedor, un mensaje de voz de un familiar, una llamada del director o un vídeo desde la escena de un suceso.
El viejo consejo de mirar las manos y los ojos ya funciona menos. Los modelos dibujan mejor los rostros, sincronizan los labios con el habla, conservan la iluminación y hacen que la voz se parezca al original. Por eso la verificación no se sostiene en un solo rasgo, sino en una combinación: la fuente, el contexto, los metadatos, el comportamiento de la cuenta, la calidad del archivo, los rastros de edición y las confirmaciones independientes.
Qué tipos de deepfakes existen
Los deepfakes no son solo vídeos con rostro reemplazado. Se pueden falsificar fotos, voz, movimiento de labios, expresiones, gestos y escenas enteras. Para el usuario común la diferencia importa porque cada tipo de falsificación tiene sus señales y sus métodos de verificación.
| Tipo de deepfake | Qué se falsifica | Dónde aparece | Riesgo principal |
|---|---|---|---|
| Reemplazo de rostro | El rostro de una persona se coloca en otro vídeo | Vídeos, material comprometedora, declaraciones falsas | El espectador piensa que la persona estuvo realmente en cámara |
| Avatar sintético | Se crea una cabeza parlante a partir de texto o audio | Formación, publicidad, mensajes falsos | Presentan el avatar como grabación real |
| Clonación de voz | La voz imita a una persona concreta | Llamadas, mensajes de voz, fraude | La víctima reconoce la voz y confía en la solicitud |
| Generación de escena | Foto o vídeo creado desde cero | Redes sociales, noticias, publicidad, rumores | Un evento inexistente parece real |
| Sincronización de labios | Los labios se ajustan a un nuevo discurso | Doblaje de vídeos, entrevistas falsas | Se atribuyen palabras a la persona del vídeo |
Avatares sintéticos ofrecen HeyGen, Synthesia y D-ID. En un uso legítimo, esos servicios ayudan a crear vídeos formativos, presentaciones y localización. En el fraude, una mecánica similar se convierte en un mensaje falso en nombre de otra persona.
Los deepfakes de voz evolucionan por separado. ElevenLabs y servicios similares pueden generar voz y clonar timbres. Para un ataque a veces basta un mensaje de voz corto: timbre parecido, petición urgente y una historia sobre un problema con dinero, documentos o accesos.
Cómo se crean los deepfakes
Cualquier falsificación así comienza con datos de origen. Para el rostro se necesitan fotos o vídeos de la persona desde distintos ángulos. Para la voz se necesitan grabaciones de audio. Para el movimiento de labios hace falta la relación entre sonido y expresión. Cuanto más y mejor material tenga la modelo, más fácil le resulta reproducir la apariencia, el timbre y los movimientos habituales.
- El modelo estudia la forma del rostro, las expresiones, el giro de la cabeza, la iluminación, la piel, el ritmo del habla, las pausas y la entonación.
- Al reemplazar un rostro, la red traslada el rostro a otro vídeo y lo adapta al movimiento de la cabeza.
- Al sincronizar labios, el modelo modifica la articulación para que la boca coincida con el nuevo discurso.
- Al clonar una voz, el texto se transforma en audio parecido a la voz de cierta persona.
- Al generar una escena, el modelo crea un fotograma o un vídeo a partir de una descripción de texto, una imagen o referencias.
En el vídeo hay que resolver varias tareas a la vez. El rostro debe coincidir con el giro de la cabeza, la luz, la resolución y el movimiento de la cámara. Los labios deben ajustarse al habla. Las sombras no deben saltar. La piel no debe parecer una máscara. Si todo está mal hecho, el espectador nota rarezas. Si está bien hecho, la falsificación hay que verificarla no con los ojos, sino por el contexto y señales técnicas.
Un vídeo totalmente generado funciona de otra forma. El modelo monta la escena a partir de elementos visuales probables. No comprende el mundo como una persona, por eso a veces falla en relaciones causa-efecto: los objetos cambian de forma, las manos interactúan mal con los objetos, los reflejos no coinciden y las personas se mueven de forma demasiado suave o extraña. Runway y plataformas similares desarrollan la generación y edición de vídeo, por eso ese tipo de material aumenta.
Por qué los estafadores usan deepfakes
A los estafadores no les hace falta un resultado perfecto. Les basta convencer a la persona durante unos minutos. Especialmente si el mensaje llega en una situación de estrés: transferencia urgente, trato cerrado, petición de ayuda para un familiar, instrucción corporativa, una llamada supuestamente del banco o un vídeo con una declaración contundente.
| Situación | Cómo se ve el ataque | Cómo verificar |
|---|---|---|
| Llamada del jefe | La voz pide transferir dinero urgentemente o enviar un documento | Volver a llamar al número conocido y confirmar por un segundo canal |
| Vídeo con una persona conocida | Una figura pública promociona un esquema o hace una declaración fuerte | Buscar el original en las páginas oficiales y en medios importantes |
| Mensaje de voz de un familiar | Pedido de dinero, de un código o de ayuda tras una supuesta emergencia | Hacer una pregunta personal y contactar directamente por otro medio |
| Reunión de vídeo falsa | Un participante se parece a un colega, pero pide acciones inusuales | Comprobar el calendario, el chat corporativo y la identidad del participante |
| Foto de un evento | Una imagen se difunde masivamente sin fuente primaria | Verificar la fecha, el lugar, el clima, señales y publicaciones de testigos |
Los deepfakes de voz son especialmente peligrosos para las empresas. Los directivos a menudo dan conferencias, entrevistas y grabaciones para webinars, y ese material basta para imitar la voz. Si pagos y concesión de accesos se confirman verbalmente, al estafador le queda simular la urgencia.
En situaciones domésticas los deepfakes se usan para chantaje, acoso, pruebas falsas, perfiles falsos y sacar dinero a familiares. Aquí lo importante no es la perfección técnica, sino la rapidez. El vídeo o el mensaje de voz se propagan antes de que aparezca una refutación.
Cómo reconocer una falsificación en vídeo y foto
Es mejor empezar no por el rostro, sino por la fuente. ¿Quién publicó el material? ¿Existe el original? ¿Cuándo se creó la cuenta? ¿Ha publicado antes contenido similar? ¿Está el mismo vídeo en la página oficial de la persona, la empresa, la institución o en medios de comunicación? Si una declaración escandalosa aparece solo en un canal sin fuente primaria, es prudente desconfiar.
- Verifique la fuente primaria: sitio oficial, página de la persona, empresa, institución, medios importantes.
- Compare el rostro, la voz y la manera de hablar con grabaciones anteriores de la misma persona.
- Mire los límites del rostro, el cabello, las gafas, los dientes, el cuello, las sombras y los reflejos.
- Compruebe la fecha de publicación, el lugar, el clima, los rótulos, las matrículas y los detalles del fondo.
- Haga una búsqueda inversa por el fotograma usando buscadores o servicios de búsqueda de imágenes.
- No reenvíe un vídeo escandaloso de inmediato si provoca una emoción fuerte y exige acción urgente.
Los vídeos falsos con frecuencia presentan problemas en los bordes del rostro: la línea de la mandíbula, el cabello, las orejas, las gafas, los dientes, el cuello. A veces el rostro parece más liso que el resto de la piel y la textura no coincide con la iluminación. En los fotogramas completamente generados, los puntos débiles suelen estar en los detalles: inscripciones distorsionadas, logotipos que se deforman, reflejos que no corresponden con los objetos, manos que sujetan mal los objetos y fondos que cambian entre cuadros.
El habla y los labios también dan pistas. Si la persona pronuncia sonidos complejos y los labios se mueven de forma demasiado general, la sincronización puede ser artificial. Pero no conviene fiarse solo de los labios: los servicios actuales ya ajustan bien la articulación.
Cómo reconocer una voz falsificada
Con la voz es más difícil porque el oído completa la percepción rápidamente. Si alguien espera oír a una persona conocida, un timbre parecido ya parece una prueba. Especialmente en mensajes de voz cortos, donde hay pocas pausas, emociones y hábitos de habla.
Una voz falsa puede sonar demasiado uniforme, sin titubeos naturales, respiraciones ni micro-pausas. A veces las emociones se transmiten mal: la frase es alarmante, pero la entonación es casi neutra. En otros casos se oyen artefactos digitales, terminaciones extrañas de palabras, volumen fluctuante o un ritmo idéntico.
- Si le piden dinero, un código o documentos, no responda en el mismo chat.
- Vuelva a llamar al número guardado en su agenda.
- Escriba a la persona por otro mensajero o canal corporativo.
- Haga una pregunta personal cuya respuesta no se pueda obtener en redes sociales.
- Para pagos laborales, siga el procedimiento establecido y no use la confirmación por voz como único aval.
Herramientas de verificación y sus limitaciones
Los detectores técnicos analizan la imagen, el vídeo o el sonido y devuelven una probabilidad de falsificación. Buscan rastros de generación, incoherencias en los píxeles, artefactos de codificación, características del rostro, movimiento, voz y espectro de audio. Esas herramientas son útiles, pero no ofrecen una sentencia definitiva.
| Herramienta o enfoque | Qué verifica | Limitación |
|---|---|---|
| Reality Defender | Falsificaciones de IA en audio, vídeo, imágenes y texto | Resultado probabilístico; se necesita contexto |
| Hive Detección de contenido generado por IA | Contenido de IA y deepfakes en imágenes, vídeo y audio | No sustituye la verificación de la fuente |
| Google SynthID | Marcas imperceptibles en contenido generado por IA | No funciona con todos los archivos que circulan por internet |
| C2PA | Procedencia e historial de cambios del archivo | Los metadatos pueden faltar o ser eliminados por plataformas |
| Búsqueda inversa de imágenes | Fotogramas similares y publicaciones anteriores | No siempre encuentra material reciente o muy alterado |
Existe otro enfoque: no detectar la falsificación tras la publicación, sino marcar de antemano el origen del contenido. Google SynthID inserta marcas imperceptibles en contenido de IA. C2PA y Content Credentials trabajan con la procedencia y el historial de cambios del archivo. Ese rastro ayuda a verificar la fuente, pero solo si los metadatos se mantienen y son compatibles con la plataforma.
La principal limitación de todos los detectores es la carrera con los generadores. Nuevos modelos aprenden a eludir rastros antiguos y las redes sociales recomprimen vídeos y borran parte de los datos técnicos. Por eso una conclusión fiable se basa en varias comprobaciones: fuente, contexto, búsqueda inversa, análisis técnico, metadatos y confirmación por un canal independiente.
Qué hacer si recibe un vídeo o un mensaje de voz sospechoso
Los deepfakes suelen jugar con la urgencia: transfiera ahora, no lo diga a nadie, no hay tiempo, la decisión debe tomarse en cinco minutos. Ese formato busca que la persona no tenga tiempo de verificar la información.
- No atienda una petición urgente de un mensaje de voz o vídeo sin verificarla.
- Contacte con la persona por otro canal de comunicación.
- Compruebe la fuente primaria y las publicaciones anteriores del mismo material.
- Guarde el enlace, el archivo, capturas de pantalla, la fecha y el nombre de la cuenta.
- Denuncie a la plataforma si el material se presenta como real o se usa para estafa.
- Para la empresa, envíe el archivo y el enlace al servicio de seguridad o al departamento de TI.
Si se trata de fraude, chantaje, publicidad falsa o daño reputacional, es importante conservar las pruebas hasta borrar la publicación. No reenvíe el vídeo como si fuera un hecho comprobado. Mejor enviar el enlace a las personas responsables con la indicación de que el material requiere verificación.
Cómo protegerse personalmente y proteger a la empresa
Para la seguridad personal valen reglas sencillas: no publicar innecesariamente grabaciones largas de voz limpias, no subir documentos y credenciales de trabajo, ocultar datos personales innecesarios en redes, no confiar en solicitudes urgentes de dinero o códigos solo porque la voz suena conocida.
- Active la autenticación de dos factores para el correo, mensajeros, redes sociales y cuentas laborales.
- Verifique las solicitudes de dinero y accesos por un canal independiente.
- No use un mensaje de voz como único comprobante de un pago.
- Implemente breves entrenamientos para empleados con ejemplos de falsificaciones de voz y vídeo.
- Introduzca la regla de una segunda confirmación para pagos, cambios de datos y concesión de accesos.
- En la familia acuerden: si piden dinero, se necesita una llamada o una pregunta de verificación.
FAQ: preguntas frecuentes
¿Siempre se puede reconocer un deepfake por los ojos o las manos?
No. Los rasgos clásicos funcionan menos. A veces la falsificación se detecta por manos, dientes, gafas, sombras o labios, pero los modelos buenos pueden no dejar señales evidentes.
¿Se puede confiar en los servicios de detección de deepfakes?
Se pueden usar como una de las herramientas. El detector da una probabilidad, no una respuesta final. Pueden producirse errores en ambos sentidos.
¿Se puede crear un deepfake de voz a partir de una grabación corta?
Los servicios actuales pueden trabajar con muestras cortas, pero la calidad depende de la limpieza de la grabación, la duración, el idioma, el ruido y el modelo. Para estafar a veces basta una voz parecida y una historia urgente.
Si un vídeo se publica en una red social conocida, ¿significa que es auténtico?
No. La publicación en sí no prueba autenticidad. Es importante revisar la fuente primaria, la fecha, el contexto y las confirmaciones independientes.
¿Qué es más fiable: marcas de agua o detectores?
Son enfoques distintos. Las marcas de agua y Content Credentials ayudan a entender la procedencia del archivo si las etiquetas se conservan. Los detectores buscan señales de generación en el material ya existente.