Las restricciones integradas de ChatGPT y Gemini se pueden eludir sin conocimientos técnicos — preguntas habituales provocan sesgo.

Especialistas de la Universidad de Pensilvania descubrieron que, para eludir las limitaciones integradas en los bots de chat basados en la inteligencia artificial, como ChatGPT y Gemini, no es necesario poseer habilidades técnicas. Incluso preguntas simples y comprensibles pueden provocar en el modelo respuestas sesgadas o discriminatorias, al mismo nivel que las solicitudes creadas por especialistas mediante metodologías complejas.
El equipo determinó que las manifestaciones de prejuicio oculto en la IA pueden provocarse no solo mediante los llamados «hacks» —la generación de secuencias aleatorias de caracteres para eludir filtros—, sino también con el lenguaje cotidiano que cualquier persona utiliza. Según un investigador, ese escenario de comunicación «vivo» permite ver cómo se manifiesta el sesgo en condiciones reales y no solo en pruebas de laboratorio.
Para confirmarlo, los científicos realizaron un experimento. A los participantes se les pidió que inventaran solicitudes que llevaran a los modelos generativos a respuestas sesgadas o discriminatorias. En la prueba participaron 52 personas, que presentaron 75 ejemplos de interacción con ocho modelos distintos. Cada ejemplo iba acompañado de una explicación sobre qué tipo de sesgo se manifestaba —desde estereotipos por edad hasta distorsiones históricas y culturales.
Luego los investigadores entrevistaron a parte de los participantes para entender cómo formulaban las solicitudes y qué entendían por «justicia» y «representación». Después, las solicitudes recopiladas se probaron en varios modelos de lenguaje para comprobar si el sesgo se mantenía en intentos repetidos. De los 75 ejemplos, 53 dieron resultados reproducibles, lo que permitió identificar ocho categorías principales de sesgo: de género; racial, étnico y religioso; por edad; relacionado con la discapacidad; lingüístico; histórico (con inclinación hacia los países occidentales); cultural y político.
Además, los participantes emplearon siete estrategias principales para provocar respuestas sesgadas. Entre ellas estaban pedir al modelo que «se meta en un rol», crear situaciones hipotéticas, usar conocimientos sobre temas poco conocidos a los que la IA suele responder de forma estereotipada, así como comprobar la reacción ante información no verificada o cuestiones controvertidas. A veces los usuarios formulaban sus solicitudes como «investigación» para que el modelo respondiera con más libertad.
El organizador del concurso señaló que estos enfoques intuitivos ayudaron a identificar tipos inesperados de sesgo. Por ejemplo, el ejemplo ganador mostró que los modelos prefieren claramente una apariencia acorde con los «estándares clásicos de belleza»: un rostro sin acné se percibía como más fiable y una persona con pómulos pronunciados como candidata más adecuada para un puesto de trabajo.
Los especialistas subrayaron que corregir estos sesgos es una carrera continua entre los desarrolladores y los problemas emergentes. Como posibles medidas propusieron implementar filtros para analizar las respuestas antes de enviarlas al usuario, realizar pruebas ampliadas, formar a los usuarios y añadir enlaces a las fuentes para poder verificar la veracidad de la información.