La historia de 4,7 millones de usuarios ahora se analiza como archivo científico.
La plataforma Discord se enfrenta a una filtración de datos sin precedentes: investigadores de Brasil publicaron un enorme conjunto de información recopilada a través de la API oficial del servicio. Se ha hecho público un archivo que contiene más de 2.000 millones de mensajes, abarcando casi una década de actividad —desde el lanzamiento de la plataforma en 2015 hasta finales de 2024.
Los datos cubren la actividad de más de 4,7 millones de usuarios en 3.167 servidores públicos. Los investigadores afirman que todos los mensajes fueron recolectados únicamente de aquellos servidores que, según las condiciones de uso de Discord, se consideran oficialmente públicos. Además, se tomaron medidas de anonimización: los nombres de usuario fueron sustituidos por seudónimos, los IDs fueron cifrados y truncados, y otros identificadores fueron eliminados.
Los autores explican que el objetivo de la publicación era crear una base de datos a gran escala para investigaciones científicas en campos como la salud mental, la polarización política, el análisis de comportamiento tóxico y el entrenamiento de chatbots. Sin embargo, el hecho de que las conversaciones de millones de usuarios estén ahora disponibles en archivos JSON en internet ha generado alarma y fuertes reacciones entre los usuarios.
El archivo de ejemplo pesa 6,2 GB comprimido y se expande hasta una base de 108 GB. La versión completa comprimida ocupa 118 GB, pero al descomprimirse puede superar ampliamente ese tamaño. Cada archivo JSON corresponde a un servidor e incluye el historial completo de mensajes en él.
Un motivo adicional de preocupación fue la aparición de otra herramienta en la red —“Searchcord”, creada por un programador independiente. Esta utilidad permite acceder a una base de datos no anonimizada de mensajes, basada en otro conjunto de datos. En varias comunidades de Discord ya ha comenzado el pánico: moderadores y usuarios temen que se expongan mensajes antiguos que nunca estuvieron destinados a ser vistos o analizados públicamente.
A pesar de que el equipo brasileño afirma haber respetado todas las normas éticas y utilizado únicamente recursos públicos, muchos cuestionan la legitimidad del enfoque. Discord, por su naturaleza, es percibido por los usuarios como una plataforma más privada en comparación con redes como X* o Reddit. Su interfaz no promueve la búsqueda centralizada, y la atmósfera se asemeja más a la de chats cerrados, donde las conversaciones se entienden como internas a la comunidad.
Además, en la política del desarrollador de Discord se indica claramente: “Está prohibido minar o recopilar contenido o datos mediante nuestros servicios”. Esta cláusula está presente al menos desde 2020 y contradice de forma explícita la recolección masiva de mensajes, incluso a través de la API oficial.
También es relevante tener en cuenta que una gran parte de la audiencia de Discord está compuesta por adolescentes. Aunque los miembros del proyecto afirman que los usuarios dieron su consentimiento al registrarse, es poco probable que un gamer de 15 años, bromeando sobre memes en Tomato Town, comprendiera que algún día sus mensajes formarían parte de una publicación académica.
Lo que diferencia esta iniciativa de filtraciones anteriores como Spy.pet es el método de recolección. Spy.pet desplegaba bots en servidores —incluidos privados— y recolectaba mensajes sin ningún tipo de filtrado ni anonimización. Discord bloqueó las cuentas vinculadas a ese servicio casi de inmediato tras la divulgación pública del caso.
Hasta el momento de la publicación, Discord no ha hecho comentarios sobre el incidente. Sin embargo, si la compañía decide aplicar una política similar a la que usó contra Spy.pet, los investigadores podrían enfrentarse a bloqueos y pérdida de acceso a la infraestructura. Por ahora, la pregunta principal sigue sin respuesta: incluso si existe una “anonimización” formal —¿es ético convertir conversaciones privadas de millones en un corpus de datos conveniente?