Se acabó el anonimato en internet: las IA ya vinculan fragmentos de datos y pueden identificar al autor real

07:35 / 02.03.2026

A los algoritmos les basta con un par de pistas indirectas para identificarte.

Los grandes modelos de lenguaje han aprendido a hacer lo que antes requería un largo trabajo manual y un análisis cuidadoso de datos dispersos. Un nuevo estudio mostró que los sistemas de IA actuales son capaces de identificar a una persona a partir de varias publicaciones anónimas en internet y hacerlo a escala de plataformas enteras.

El trabajo fue presentado por Simon Lermen. En el artículo «Large-Scale Online Deanonymization with LLMs» evaluó qué tan eficazmente los modelos emparejan perfiles anónimos con personas reales. La verificación se realizó con datos de Hacker News, Reddit, LinkedIn y con entrevistas anonimizadas de investigadores. El método mostró alta precisión y la capacidad de trabajar con decenas de miles de candidatos al mismo tiempo.

Los autores recordaron que una persona puede identificarse por un pequeño conjunto de características, aunque antes el proceso estaba limitado por la complejidad de buscar y analizar información no estructurada. Ahora los modelos de lenguaje extraen de los comentarios información sobre la ciudad de residencia, la profesión y los intereses, y luego buscan coincidencias en fuentes abiertas. Según Lermen, la combinación de búsqueda mediante embeddings y un análisis lógico posterior permite vincular una cuenta anónima con su propietario real con alta probabilidad.

Para evaluar las capacidades, los investigadores crearon varios escenarios de prueba. En un caso tomaron perfiles de usuarios de Hacker News que enlazaban a LinkedIn, eliminaron los identificadores directos y pidieron a los modelos restaurar la correspondencia. El sistema primero seleccionaba el centenar de candidatos más probables, después realizaba una verificación adicional y elegía la opción más adecuada.

En otro experimento la historia de una cuenta de Reddit se dividió artificialmente en dos partes, ya fuera por periodo temporal o por comunidades temáticas, y se comprobó si el modelo podía unir nuevamente los fragmentos. Este enfoque superó los métodos clásicos de emparejamiento basados en actividad y metadatos.

Por separado, el autor probó la escalabilidad. A medida que aumentaba el número de candidatos potenciales hasta decenas de miles, la precisión disminuía de forma gradual, sin caídas bruscas. Lermen concluyó que con suficientes recursos computacionales ataques de este tipo ya pueden ampliarse a grandes plataformas, y que el avance de los modelos reducirá el costo de estas operaciones.

En un escenario real se utilizó un conjunto de entrevistas anonimizadas llamado Anthropic Interviewer. El modelo consiguió identificar a nueve de los 125 participantes. La verificación de los resultados se realizó manualmente, pues no existen datos de referencia para este tipo de tareas.

El autor subraya el riesgo de abusos. La identificación masiva automatizada crea condiciones para phishing dirigido y otros ataques, además de socavar el propio concepto de anonimato. Como medidas a corto plazo se propone limitar el acceso a los datos, endurecer el control de las API e identificar la recolección automatizada de información. Al mismo tiempo, los desarrolladores de modelos se enfrentan a dificultades: la tarea puede descomponerse en etapas que a primera vista parecen neutrales, cada una sin aparentes violaciones de las normas.

El estudio muestra que incluso los detalles dispersos —ciudad, lugar de trabajo, participación en una conferencia o un pasatiempo poco frecuente— conforman una huella digital única. Con la expansión de las herramientas de IA, el coste de esa identificación seguirá disminuyendo.

Se acabó el anonimato en internet: las IA ya vinculan fragmentos de datos y pueden identificar al autor real

Noticias sobre el tema

El dinero se esfumó en la blockchain: un hacker ofreció una clase magistral sobre el blanqueo de cientos de millones de dólares

Trump ideó la ley perfecta sobre la IA: aparenta control, pero en la práctica no lo es.

0-day en VSCode: ciberdelincuentes pueden secuestrar cuentas de GitHub con un solo clic — y todo por la comodidad de los atajos de teclado

¿Hiciste trampas en GTA? Ya estás en la base: hackers filtraron datos de 64.000 usuarios del servicio de trampas Atlas Menu

Uno de cada cinco sitios web en Internet es una trampa: millones de dominios nuevos registrados en 2025 exclusivamente para phishing y estafas.

Se acabó la era del «en Linux se hace diferente»: Microsoft añade a Windows los comandos habituales de Unix

Un portátil, unos segundos y 32 GB de memoria consumida: hallan una vulnerabilidad en el protocolo que sustenta la mitad de Interne

Facturas falsas, enlaces engañosos y reservas filtradas: estafadores dejan sin dinero a huéspedes de hoteles mientras viajan.

El Parlamento Europeo retira Google de los ordenadores laborales y lo sustituye por un buscador que nadie usa voluntariamente.