Una sonrisa, tres rechazos y una cuenta de taxi: la IA falló en una prueba sobre diferencias culturales

Una sonrisa, tres rechazos y una cuenta de taxi: la IA falló en una prueba sobre diferencias culturales

Donde la cortesía se toma por un «no», los coches se quedan sin rumbo.

image

Investigadores de la Universidad Brock, Emory y varios otros centros de investigación publicaron un trabajo, dedicado a las vulnerabilidades de los modelos de lenguaje modernos en la comprensión y reproducción de la etiqueta persa «taarof». Esta práctica social se basa en el intercambio ritualizado de negativas corteses y ofertas repetidas.

En Irán, esta forma de comunicación abarca situaciones cotidianas —desde pagar un trayecto en taxi hasta el intercambio de cumplidos. La esencia es que un «no» pronunciado no siempre es una negativa, y la insistencia no necesariamente expresa presión, sino más bien una forma cortés de reconocimiento y respeto.

Los autores del estudio mostraron que los grandes modelos de lenguaje desarrollados por OpenAI, Anthropic y Meta son capaces de orientarse correctamente en tales escenarios solo en 34-42 por ciento de los casos, mientras que los hablantes nativos obtienen 82 por ciento. Para la evaluación se creó la primera de su tipo entorno de pruebas llamada TAAROFBENCH, que modela contextos culturales con diferentes roles, ubicaciones y réplicas de los participantes.

La comparación de modelos, incluidos GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 y Dorna (versión localizada para el persa de Llama 3), reveló una pauta: los sistemas entrenados predominantemente con corpus occidentales tienden a respuestas directas que no consideran las particularidades de la comunicación indirecta. Así, cuando se requiere negarse varias veces antes de aceptar una oferta, la IA a menudo acepta de inmediato. En el caso de los cumplidos, los modelos responden con agradecimientos en estilo occidental, mientras que la norma persa supone modestia y la minimización del elogio.

Para evaluar la diferencia entre la «cortesía» general y la adecuación cultural, los investigadores aplicaron Polite Guard —un clasificador de Intel— que determina el nivel de corrección del texto. Resultó que 84,5 por ciento de las respuestas de Llama 3 recibieron altas puntuaciones en la escala de cortesía, pero solo 41,7 por ciento de esas mismas reacciones correspondían a las expectativas en situaciones de taarof. Así, una respuesta externamente correcta en clave occidental puede percibirse en la cultura iraní como falta de tacto o incluso grosería.

Prestaron atención también a cómo cambia el resultado al cambiar el idioma de comunicación. En el caso de DeepSeek V3, la precisión casi se duplicó al pasar del inglés al persa, y en GPT-4o el aumento fue de más de 30 puntos porcentuales. Esto indica que en los corpus de datos en persa están presentes patrones distintos que permiten a los modelos reproducir mejor las reglas implícitas. Sin embargo, incluso así no alcanzan el nivel de los hablantes nativos.

En el experimento participaron 33 personas: hablantes nativos del persa, miembros de la diáspora criados con el idioma en el hogar y no iraníes. Los primeros mostraron 81,8 por ciento de reacciones correctas, los segundos —60 por ciento— y los terceros se quedaron en 42,3 por ciento, cifra cercana a los resultados de los modelos base. Es característico que los participantes no iraníes también confundieran con frecuencia la insistencia con agresión y tomaran la negativa al pie de la letra.

Los autores registraron también sesgos de género: los modelos daban con más frecuencia respuestas culturalmente correctas cuando el papel era de una mujer, mientras que en escenarios con hombres la precisión disminuía. En las respuestas también aparecían afirmaciones estereotipadas que no se corresponden con la realidad, como la idea de que el hombre debe pagar.

Los científicos evaluaron la posibilidad de corregir el comportamiento de los modelos mediante distintos métodos. El mayor efecto lo produjo la tecnología Direct Preference Optimization, que aumentó la precisión de Llama 3 de 37,2 a 79,5 por ciento. El ajuste adicional mediante fine-tuning aportó alrededor de 20 puntos porcentuales, y la simple presentación de varios diálogos correctos en la indicación dio un resultado similar. Esto mostró que la adaptación dirigida puede reducir significativamente las fallas culturales.

Aunque el trabajo se centra en el taarof persa, sus conclusiones tienen un carácter más amplio. En cualquier cultura existen formas de comunicación en las que el significado literal difiere del implicado, y es precisamente ahí donde los IAs modernos suelen equivocarse. El enfoque desarrollado puede convertirse en la base para el estudio sistemático de estas «zonas ciegas» y ayudará a crear modelos más universales y culturalmente sensibles, útiles para la educación, el turismo y las negociaciones diplomáticas.

¿Tu Wi-Fi doméstico es una fortaleza o una casa de cartón?

Descubre cómo construir una muralla impenetrable