El «autor chino» actúa como un virus que corrompe redes neuronales en todo el mundo: la IA aprende a despreciar textos por estereotipos

El «autor chino» actúa como un virus que corrompe redes neuronales en todo el mundo: la IA aprende a despreciar textos por estereotipos

El efecto de encuadre es tan potente que amenaza con hacer tambalear la confianza en la moderación por IA.

image

Los científicos identificaron un efecto sistemático de enmarcado en las evaluaciones de los mayores modelos lingüísticos —desde OpenAI y xAI hasta DeepSeek y Mistral. Al revisar casi 200 000 juicios se descubrió que los modelos no solo muestran una sorprendente unanimidad en la percepción de temas sociopolíticos, sino que también se equivocan de forma similar cuando se les sugiere quién supuestamente escribió el texto. La valoración cambia drásticamente si se indica que el autor es una persona de China.

En trabajo se analizaron 4 modelos modernos: OpenAI o3-mini, DeepSeek Reasoner, xAI Grok 2 y Mistral. A cada uno se le pidió formular posiciones sobre 24 temas candentes —desde la política de vacunación y el clima hasta conflictos armados y el estatus de Taiwán. En total se crearon 4 800 textos; luego esos mismos modelos evaluaron 192 000 veces hasta qué punto estaban de acuerdo con cada afirmación, mientras que de forma periódica se alteraban las fuentes de los textos.

Cuando la información sobre el autor faltaba, la coincidencia de las valoraciones alcanzaba el 90–95 %, lo que mostró casi pleno acuerdo entre los sistemas y dentro de cada uno. Pero al añadir una atribución —por ejemplo, «escrito por una persona de China»— el nivel de acuerdo descendía bruscamente. La caída se registró en todos los modelos, incluida la versión china DeepSeek Reasoner, donde el desplazamiento negativo fue el más fuerte: −6,18 % de media y hasta −24 % en temas de relaciones internacionales. Incluso en asuntos sobre Taiwán y disputas territoriales, DeepSeek mostró un desacuerdo categórico con los mismos textos que, con una firma neutral, antes había valorado entre 85 % y 95 %.

Una tendencia similar se observó en los modelos estadounidenses: Grok 2 y o3-mini redujeron sus valoraciones con la firma china, mientras que la francesa Mistral mostró una disminución pequeña pero persistente. Al mismo tiempo, si los textos se atribuían no a personas sino a otros sistemas de IA, las puntuaciones medias también bajaban, aunque en menor medida: los modelos valoraban un poco más los juicios que, según ellos, provenían de una persona.

Es interesante que, al analizar las autoevaluaciones, no se detectó polarización ideológica: los modelos de distintos países apoyaron por igual ideas como la salud universal, la responsabilidad climática y los derechos de las minorías. Los investigadores señalan que, contrariamente a los mitos mediáticos sobre una supuesta parcialidad «estadounidense» o «china», las redes neuronales forman en la práctica una mirada promedio casi única —efecto de la «sabiduría de la multitud». Sin embargo, su neutralidad se rompe en cuanto en la instrucción aparece la nacionalidad o el tipo de autor.

Los autores del estudio suponen que los modelos reproducen asociaciones probabilísticas aprendidas de los datos de entrenamiento —por ejemplo, esperan que una «persona de China» siga la línea oficial de Pekín. Por eso, si el texto expresa una opinión contraria, el sistema reduce la valoración por considerarla poco verosímil. Este mecanismo recuerda los sesgos cognitivos humanos, cuando la percepción de un argumento depende de la fuente.

El estudio subraya el riesgo de usar IA para moderación automática y evaluaciones expertas. Incluso la información mínima sobre el autor puede distorsionar el resultado, haciendo al sistema vulnerable al enmarcado. Los científicos proponen comprobar tales efectos al implementar modelos de lenguaje (LLM) en la administración pública, los medios y la educación, así como anonimizar la fuente del texto durante las comprobaciones automáticas. Según los especialistas, la transparencia y las auditorías periódicas ayudarán a evitar sesgos ocultos en el futuro.

Las huellas digitales son tu debilidad, y los hackers lo saben

¡Suscríbete y descubre cómo borrarlas!