Modelos de IA alimentados con datos basura: qué falla en la forma en que Amazon "nutre" sus redes neuronales

Modelos de IA alimentados con datos basura: qué falla en la forma en que Amazon "nutre" sus redes neuronales

Por qué la recolección masiva e incontrolada de datos se ha convertido en una amenaza para la seguridad infanti

image

El desarrollo de la inteligencia artificial cada vez está acompañado de preguntas no solo sobre las tecnologías, sino también sobre la calidad de los datos en que se basan los sistemas digitales modernos. Un episodio reciente alrededor de Amazon mostró que la recopilación masiva de información en internet puede llevar a consecuencias graves y sumamente inquietantes.

En 2025, Amazon, durante la formación de conjuntos de datos para el entrenamiento de IA, descubrió cientos de miles de imágenes con supuestos materiales de abuso sexual infantil. Ese contenido se detectó al analizar fuentes web externas utilizadas para entrenar los algoritmos. Como resultado, la corporación envió más de un millón de notificaciones al Centro Nacional para Niños Desaparecidos y Explotados de Estados Unidos (NCMEC), lo que supera con creces las cifras de otras empresas tecnológicas.

Sin embargo, ese volumen de avisos creó un problema adicional para las autoridades. En los materiales entregados faltaba información sobre el origen del contenido, lo que complicó sustancialmente la localización de las víctimas y la investigación de casos concretos. La dirección de la línea CyberTipline del NCMEC indicó que la mayor parte de los informes procedentes de Amazon no permite acciones prácticas, porque resulta imposible determinar la fuente y la cadena de difusión del material ilegal.

La situación puso de manifiesto un riesgo sistémico más amplio. La recopilación masiva de datos del internet abierto, que se usa para entrenar modelos generativos y otros sistemas de IA, a menudo se basa en el principio de “recopilarlo todo y ocuparse después”. Ese enfoque implica que en los conjuntos de entrenamiento pueden entrar no solo materiales legales y neutrales, sino también contenido ilegal y grave, incluidas escenas de violencia contra menores.

En este contexto, otros grandes actores del mercado, como Meta y Google, presentan formatos de informes más detallados, que permiten a los órganos de investigación obtener más contexto para sus pesquisas. El analista de la organización Thorn, David Rast-Smith, señaló que con la recolección indiscriminada de datos en internet este tipo de materiales es inevitable, y la cuestión clave es qué priorizan las empresas: la rapidez en desarrollar IA o la seguridad y la responsabilidad en el tratamiento de los datos.

El caso de Amazon demuestra que los problemas del entrenamiento de la inteligencia artificial van mucho más allá de la tecnología y de la calidad de los algoritmos. Están directamente relacionados con la ética, la rendición de cuentas y las consecuencias de los métodos de recopilación de información en los que se apoyan los productos digitales actuales.