Deepfakes: qué son, cómo se crean y cómo detectarlos

Vídeo con una persona conocida que dice cosas extrañas. La voz del jefe en el mensajero, exigiendo con urgencia transferir dinero. Foto de un evento que no ocurrió. Ese tipo de material ya no siempre parece un trabajo tosco. Los modelos generativos han aprendido a ensamblar rostros, voces, expresiones y movimientos de forma lo bastante convincente como para que una persona sin contexto se equivoque.

Deepfake es una imagen, vídeo o audio falsificado o fuertemente alterado, creado con redes neuronales. La palabra viene de deep learning, es decir, aprendizaje profundo, y fake, es decir, falsificación. En español se usa el término deepfake, habitual en noticias, investigaciones y conversaciones sobre fraude.

El deepfake no siempre implica un delito. La tecnología se usa en cine, publicidad, localización de vídeos, contenidos formativos, juegos y servicios de avatares. El problema empieza cuando al espectador le presentan material generado o modificado como una grabación real: una declaración política, material comprometedor, un mensaje de voz de un familiar, una llamada del director o un vídeo desde la escena de un suceso.

El viejo consejo de mirar las manos y los ojos ya funciona menos. Los modelos dibujan mejor los rostros, sincronizan los labios con el habla, conservan la iluminación y hacen que la voz se parezca al original. Por eso la verificación no se sostiene en un solo rasgo, sino en una combinación: la fuente, el contexto, los metadatos, el comportamiento de la cuenta, la calidad del archivo, los rastros de edición y las confirmaciones independientes.

Qué tipos de deepfakes existen

Los deepfakes no son solo vídeos con rostro reemplazado. Se pueden falsificar fotos, voz, movimiento de labios, expresiones, gestos y escenas enteras. Para el usuario común la diferencia importa porque cada tipo de falsificación tiene sus señales y sus métodos de verificación.

Tipo de deepfake	Qué se falsifica	Dónde aparece	Riesgo principal
Reemplazo de rostro	El rostro de una persona se coloca en otro vídeo	Vídeos, material comprometedor, declaraciones falsas	El espectador piensa que la persona estuvo realmente en cámara
Avatar sintético	Se crea una cabeza parlante a partir de texto o audio	Formación, publicidad, mensajes falsos	Presentan el avatar como grabación real
Clonación de voz	La voz imita a una persona concreta	Llamadas, mensajes de voz, fraude	La víctima reconoce la voz y confía en la solicitud
Generación de escena	Foto o vídeo creado desde cero	Redes sociales, noticias, publicidad, rumores	Un evento inexistente parece real
Sincronización de labios	Los labios se ajustan a un nuevo discurso	Doblaje de vídeos, entrevistas falsas	Se atribuyen palabras a la persona del vídeo

HeyGen, Synthesia y D-ID ofrecen avatares sintéticos. En un uso legítimo, esos servicios ayudan a crear vídeos formativos, presentaciones y localización. En el fraude, una mecánica similar se convierte en un mensaje falso en nombre de otra persona.

Los deepfakes de voz evolucionan por separado. ElevenLabs y servicios similares pueden generar voz y clonar timbres. Para un ataque a veces basta un mensaje de voz corto: timbre parecido, petición urgente y una historia sobre un problema con dinero, documentos o accesos.

Cómo se crean los deepfakes

Cualquier falsificación así comienza con datos de origen. Para el rostro se necesitan fotos o vídeos de la persona desde distintos ángulos. Para la voz se necesitan grabaciones de audio. Para el movimiento de labios hace falta la relación entre sonido y expresión. Cuanto más y mejor material tenga el modelo, más fácil le resulta reproducir la apariencia, el timbre y los movimientos habituales.

El modelo estudia la forma del rostro, las expresiones, el giro de la cabeza, la iluminación, la piel, el ritmo del habla, las pausas y la entonación.
Al reemplazar un rostro, la red traslada el rostro a otro vídeo y lo adapta al movimiento de la cabeza.
Al sincronizar labios, el modelo modifica la articulación para que la boca coincida con el nuevo discurso.
Al clonar una voz, el texto se transforma en audio parecido a la voz de cierta persona.
Al generar una escena, el modelo crea un fotograma o un vídeo a partir de una descripción de texto, una imagen o referencias.

En el vídeo hay que resolver varias tareas a la vez. El rostro debe coincidir con el giro de la cabeza, la luz, la resolución y el movimiento de la cámara. Los labios deben ajustarse al habla. Las sombras no deben saltar. La piel no debe parecer una máscara. Si todo está mal hecho, el espectador nota rarezas. Si está bien hecho, la falsificación hay que verificarla no con los ojos, sino por el contexto y señales técnicas.

Un vídeo totalmente generado funciona de otra forma. El modelo monta la escena a partir de elementos visuales probables. No comprende el mundo como una persona, por eso a veces falla en relaciones causa-efecto: los objetos cambian de forma, las manos interactúan mal con los objetos, los reflejos no coinciden y las personas se mueven de forma demasiado suave o extraña. Runway y plataformas similares desarrollan la generación y edición de vídeo, por eso ese tipo de material aumenta.

Por qué los estafadores usan deepfakes

A los estafadores no les hace falta un resultado perfecto. Les basta convencer a la persona durante unos minutos. Especialmente si el mensaje llega en una situación de estrés: transferencia urgente, trato cerrado, petición de ayuda para un familiar, instrucción corporativa, una llamada supuestamente del banco o un vídeo con una declaración contundente.

Situación	Cómo se ve el ataque	Cómo verificar
Llamada del jefe	La voz pide transferir dinero urgentemente o enviar un documento	Volver a llamar al número conocido y confirmar por un segundo canal
Vídeo con una persona conocida	Una figura pública promociona un esquema o hace una declaración fuerte	Buscar el original en las páginas oficiales y en medios importantes
Mensaje de voz de un familiar	Pedido de dinero, de un código o de ayuda tras una supuesta emergencia	Hacer una pregunta personal y contactar directamente por otro medio
Reunión de vídeo falsa	Un participante se parece a un colega, pero pide acciones inusuales	Comprobar el calendario, el chat corporativo y la identidad del participante
Foto de un evento	Una imagen se difunde masivamente sin fuente primaria	Verificar la fecha, el lugar, el clima, señales y publicaciones de testigos

Los deepfakes de voz son especialmente peligrosos para las empresas. Los directivos a menudo dan conferencias, entrevistas y grabaciones para webinars, y ese material basta para imitar la voz. Si pagos y concesión de accesos se confirman verbalmente, al estafador le queda simular la urgencia.

En situaciones domésticas los deepfakes se usan para chantaje, acoso, pruebas falsas, perfiles falsos y sacar dinero a familiares. Aquí lo importante no es la perfección técnica, sino la rapidez. El vídeo o el mensaje de voz se propagan antes de que aparezca una refutación.

Cómo reconocer una falsificación en vídeo y foto

Es mejor empezar no por el rostro, sino por la fuente. ¿Quién publicó el material? ¿Existe el original? ¿Cuándo se creó la cuenta? ¿Ha publicado antes contenido similar? ¿Está el mismo vídeo en la página oficial de la persona, la empresa, la institución o en medios de comunicación? Si una declaración escandalosa aparece solo en un canal sin fuente primaria, es prudente desconfiar.

Verifique la fuente primaria: sitio oficial, página de la persona, empresa, institución, medios importantes.
Compare el rostro, la voz y la manera de hablar con grabaciones anteriores de la misma persona.
Mire los límites del rostro, el cabello, las gafas, los dientes, el cuello, las sombras y los reflejos.
Compruebe la fecha de publicación, el lugar, el clima, los rótulos, las matrículas y los detalles del fondo.
Haga una búsqueda inversa por el fotograma usando buscadores o servicios de búsqueda de imágenes.
No reenvíe un vídeo escandaloso de inmediato si provoca una emoción fuerte y exige acción urgente.

Los vídeos falsos con frecuencia presentan problemas en los bordes del rostro: la línea de la mandíbula, el cabello, las orejas, las gafas, los dientes, el cuello. A veces el rostro parece más liso que el resto de la piel y la textura no coincide con la iluminación. En los fotogramas completamente generados, los puntos débiles suelen estar en los detalles: inscripciones distorsionadas, logotipos que se deforman, reflejos que no corresponden con los objetos, manos que sujetan mal los objetos y fondos que cambian entre cuadros.

El habla y los labios también dan pistas. Si la persona pronuncia sonidos complejos y los labios se mueven de forma demasiado general, la sincronización puede ser artificial. Pero no conviene fiarse solo de los labios: los servicios actuales ya ajustan bien la articulación.

Cómo reconocer una voz falsificada

Con la voz es más difícil porque el oído completa la percepción rápidamente. Si alguien espera oír a una persona conocida, un timbre parecido ya parece una prueba. Especialmente en mensajes de voz cortos, donde hay pocas pausas, emociones y hábitos de habla.

Una voz falsa puede sonar demasiado uniforme, sin titubeos naturales, respiraciones ni micro-pausas. A veces las emociones se transmiten mal: la frase es alarmante, pero la entonación es casi neutra. En otros casos se oyen artefactos digitales, terminaciones extrañas de palabras, volumen fluctuante o un ritmo idéntico.

Si le piden dinero, un código o documentos, no responda en el mismo chat.
Vuelva a llamar al número guardado en su agenda.
Escriba a la persona por otro mensajero o canal corporativo.
Haga una pregunta personal cuya respuesta no se pueda obtener en redes sociales.
Para pagos laborales, siga el procedimiento establecido y no use la confirmación por voz como único aval.

Herramientas de verificación y sus limitaciones

Los detectores técnicos analizan la imagen, el vídeo o el sonido y devuelven una probabilidad de falsificación. Buscan rastros de generación, incoherencias en los píxeles, artefactos de codificación, características del rostro, movimiento, voz y espectro de audio. Esas herramientas son útiles, pero no ofrecen una sentencia definitiva.

Herramienta o enfoque	Qué verifica	Limitación
Reality Defender	Falsificaciones de IA en audio, vídeo, imágenes y texto	Resultado probabilístico; se necesita contexto
Hive Detección de contenido generado por IA	Contenido de IA y deepfakes en imágenes, vídeo y audio	No sustituye la verificación de la fuente
Google SynthID	Marcas imperceptibles en contenido generado por IA	No funciona con todos los archivos que circulan por internet
C2PA	Procedencia e historial de cambios del archivo	Los metadatos pueden faltar o ser eliminados por plataformas
Búsqueda inversa de imágenes	Fotogramas similares y publicaciones anteriores	No siempre encuentra material reciente o muy alterado

Existe otro enfoque: no detectar la falsificación tras la publicación, sino marcar de antemano el origen del contenido. Google SynthID inserta marcas imperceptibles en contenido de IA. C2PA y Content Credentials trabajan con la procedencia y el historial de cambios del archivo. Ese rastro ayuda a verificar la fuente, pero solo si los metadatos se mantienen y son compatibles con la plataforma.

La principal limitación de todos los detectores es la carrera con los generadores. Nuevos modelos aprenden a eludir rastros antiguos y las redes sociales recomprimen vídeos y borran parte de los datos técnicos. Por eso una conclusión fiable se basa en varias comprobaciones: fuente, contexto, búsqueda inversa, análisis técnico, metadatos y confirmación por un canal independiente.

Qué hacer si recibe un vídeo o un mensaje de voz sospechoso

Los deepfakes suelen jugar con la urgencia: transfiera ahora, no lo diga a nadie, no hay tiempo, la decisión debe tomarse en cinco minutos. Ese formato busca que la persona no tenga tiempo de verificar la información.

No atienda una petición urgente de un mensaje de voz o vídeo sin verificarla.
Contacte con la persona por otro canal de comunicación.
Compruebe la fuente primaria y las publicaciones anteriores del mismo material.
Guarde el enlace, el archivo, capturas de pantalla, la fecha y el nombre de la cuenta.
Denuncie a la plataforma si el material se presenta como real o se usa para estafa.
Para la empresa, envíe el archivo y el enlace al servicio de seguridad o al departamento de TI.

Si se trata de fraude, chantaje, publicidad falsa o daño reputacional, es importante conservar las pruebas hasta borrar la publicación. No reenvíe el vídeo como si fuera un hecho comprobado. Mejor enviar el enlace a las personas responsables con la indicación de que el material requiere verificación.

Cómo protegerse personalmente y proteger a la empresa

Para la seguridad personal valen reglas sencillas: no publicar innecesariamente grabaciones largas de voz limpias, no subir documentos y credenciales de trabajo, ocultar datos personales innecesarios en redes, no confiar en solicitudes urgentes de dinero o códigos solo porque la voz suena conocida.

Active la autenticación de dos factores para el correo, mensajeros, redes sociales y cuentas laborales.
Verifique las solicitudes de dinero y accesos por un canal independiente.
No use un mensaje de voz como único comprobante de un pago.
Implemente breves entrenamientos para empleados con ejemplos de falsificaciones de voz y vídeo.
Introduzca la regla de una segunda confirmación para pagos, cambios de datos y concesión de accesos.
En la familia acuerden: si piden dinero, se necesita una llamada o una pregunta de verificación.

FAQ: preguntas frecuentes

¿Siempre se puede reconocer un deepfake por los ojos o las manos?

No. Los rasgos clásicos funcionan menos. A veces la falsificación se detecta por manos, dientes, gafas, sombras o labios, pero los modelos buenos pueden no dejar señales evidentes.

¿Se puede confiar en los servicios de detección de deepfakes?

Se pueden usar como una de las herramientas. El detector da una probabilidad, no una respuesta final. Pueden producirse errores en ambos sentidos.

¿Se puede crear un deepfake de voz a partir de una grabación corta?

Los servicios actuales pueden trabajar con muestras cortas, pero la calidad depende de la limpieza de la grabación, la duración, el idioma, el ruido y el modelo. Para estafar a veces basta una voz parecida y una historia urgente.

Si un vídeo se publica en una red social conocida, ¿significa que es auténtico?

No. La publicación en sí no prueba autenticidad. Es importante revisar la fuente primaria, la fecha, el contexto y las confirmaciones independientes.

¿Qué es más fiable: marcas de agua o detectores?

Son enfoques distintos. Las marcas de agua y Content Credentials ayudan a entender la procedencia del archivo si las etiquetas se conservan. Los detectores buscan señales de generación en el material ya existente.