A los algoritmos les basta con un par de pistas indirectas para identificarte.

Los grandes modelos de lenguaje han aprendido a hacer lo que antes requería un largo trabajo manual y un análisis cuidadoso de datos dispersos. Un nuevo estudio mostró que los sistemas de IA actuales son capaces de identificar la identidad de una persona a partir de varias publicaciones anónimas en internet y hacerlo a escala de plataformas enteras.
El trabajo fue presentado por Simon Lermen. En el artículo «Large-Scale Online Deanonymization with LLMs» evaluó qué tan eficazmente los modelos emparejan perfiles anónimos con personas reales. La verificación se realizó con datos de Hacker News, Reddit, LinkedIn y con entrevistas anonimizadas de investigadores. El método mostró alta precisión y la capacidad de trabajar con decenas de miles de candidatos al mismo tiempo.
Los autores recordaron que una persona puede identificarse por un pequeño conjunto de características, aunque antes el proceso estaba limitado por la complejidad de buscar y analizar información no estructurada. Ahora los modelos de lenguaje extraen de los comentarios información sobre la ciudad de residencia, la profesión y los intereses, y luego buscan coincidencias en fuentes abiertas. Según Lermen, la combinación de búsqueda mediante embeddings y un análisis lógico posterior permite vincular una cuenta anónima con su propietario real con alta probabilidad.
Para evaluar las capacidades, los investigadores crearon varios escenarios de prueba. En un caso tomaron perfiles de usuarios de Hacker News que enlazaban a LinkedIn, eliminaron los identificadores directos y pidieron a los modelos restaurar la correspondencia. El sistema primero seleccionaba el centenar de candidatos más probables, después realizaba una verificación adicional y elegía la opción más adecuada.
En otro experimento la historia de una cuenta de Reddit se dividió artificialmente en dos partes, ya fuera por periodo temporal o por comunidades temáticas, y se comprobó si el modelo podía unir nuevamente los fragmentos. Este enfoque superó los métodos clásicos de emparejamiento basados en actividad y metadatos.
Por separado, el autor probó la escalabilidad. A medida que aumentaba el número de candidatos potenciales hasta decenas de miles, la precisión disminuía de forma gradual, sin caídas bruscas. Lermen concluyó que con suficientes recursos computacionales ataques de este tipo ya pueden ampliarse a grandes plataformas, y que el avance de los modelos reducirá el costo de estas operaciones.
En un escenario real se utilizó un conjunto de entrevistas anonimizadas llamado Anthropic Interviewer. El modelo consiguió identificar a nueve de los 125 participantes. La verificación de los resultados se realizó manualmente, pues no existen datos de referencia para este tipo de tareas.
El autor subraya el riesgo de abusos. La identificación masiva automatizada crea condiciones para phishing dirigido y otros ataques, además de socavar el propio concepto de anonimato. Como medidas a corto plazo se propone limitar el acceso a los datos, endurecer el control de las API e identificar la recolección automatizada de información. Al mismo tiempo, los desarrolladores de modelos se enfrentan a dificultades: la tarea puede descomponerse en etapas que a primera vista parecen neutrales, cada una sin aparentes violaciones de las normas.
El estudio muestra que incluso los detalles dispersos —ciudad, lugar de trabajo, participación en una conferencia o un pasatiempo poco frecuente— conforman una huella digital única. Con la expansión de las herramientas de IA, el coste de esa identificación seguirá disminuyendo.