OpenAI reunió a 170 psicólogos para evitar que su modelo dé respuestas inadecuadas ante pensamientos suicidas y episodios de manía.

OpenAI anunció una actualización del modelo base de ChatGPT, dirigida a mejorar la exactitud y la seguridad de las respuestas en situaciones relacionadas con angustia psicológica, pensamientos suicidas y dependencia emocional de la IA. El trabajo se realizó junto con más de 170 especialistas en salud mental de 60 países. Según la compañía, la proporción de respuestas que no se ajustaban al comportamiento deseado del modelo se redujo entre un 65% y un 80%.
Los desarrolladores indicaron que ChatGPT ahora reconoce con mayor fiabilidad signos de ansiedad, psicosis o manía, responde con más suavidad y con mayor frecuencia remite al usuario a ayuda profesional. Además, el sistema recibió enlaces adicionales a servicios de crisis, una función de derivación de diálogos sensibles hacia modelos seguros y recordatorios para tomar descansos durante sesiones prolongadas.
OpenAI considera que ChatGPT puede ayudar a una persona a comprender sus sentimientos y, si es necesario, motivarla a recurrir a familiares o a especialistas. Las nuevas medidas de seguridad se centran en tres áreas: trastornos mentales (incluida la psicosis y la manía), autolesiones y suicidio, y la dependencia emocional del modelo. En el futuro, estas categorías formarán parte del conjunto estándar de pruebas de seguridad para nuevos lanzamientos.
Los cambios se basan en los principios expuestos en la Especificación del modelo. El documento aclara que el modelo debe respetar los vínculos sociales reales del usuario, no confirmar creencias falsas relacionadas con el estado mental y prestar especial atención a posibles signos de angustia y pensamientos autodestructivos.
El proceso de mejora de ChatGPT incluye cinco etapas: definición del problema, medición, validación del enfoque con especialistas, implementación de medidas de protección y reevaluación. Para ello, OpenAI crea taxonomías especiales —descripciones de signos de conversaciones sensibles y del comportamiento deseado del modelo— que se utilizan para el entrenamiento y el control de calidad antes del despliegue.
La compañía señala que los casos relacionados con angustia grave son extremadamente raros (menos del 0,1% de las conversaciones), pero requieren la máxima precisión. Por ello, junto con el análisis de diálogos reales se aplican pruebas artificialmente complejas —las llamadas «evaluaciones fuera de línea»— en las que los escenarios se diseñan específicamente para comprobar la reacción del modelo en situaciones de crisis. Estas comprobaciones mostraron que la nueva versión GPT-5 reduce la cantidad de respuestas no deseadas en tales escenarios en un 65%.
En el ámbito de la psicosis y la manía, el modelo redujo la proporción de respuestas inapropiadas en un 39% en comparación con GPT-4o. Según OpenAI, los signos de estos estados aparecen aproximadamente en el 0,07% de los usuarios por semana y en el 0,01% de los mensajes. Al probarse con más de 1000 ejemplos complejos, la nueva versión GPT-5 mostró un 92% de conformidad con el comportamiento deseado frente al 27% de la versión anterior.
En escenarios relacionados con autolesiones y suicidio, la cantidad de respuestas incorrectas se redujo en un 52%, y el índice de conformidad aumentó hasta el 91% frente al 77% anterior. Según la compañía, alrededor del 0,15% de los usuarios activos por semana mantienen conversaciones con signos de intención suicida, y cerca del 0,05% de los mensajes contienen señales explícitas o implícitas de dichos pensamientos.
OpenAI también mejoró la resistencia del modelo en conversaciones prolongadas: en nuevas pruebas GPT-5 mantuvo más del 95% de respuestas correctas incluso en escenarios emocionales complejos, descritos anteriormente en el material Ayudar a las personas cuando más lo necesitan.
Un bloque separado de mejoras aborda la dependencia emocional de la IA. Esta taxonomía, basada en un estudio anterior, distingue la interacción saludable de los signos preocupantes de apego excesivo al modelo. Tras la actualización, el número de respuestas discordantes se redujo en un 80% y la conformidad con el comportamiento deseado alcanzó el 97%.
En uno de los ejemplos, ChatGPT responde a un usuario que escribe: «Me resulta más cómodo hablar contigo que con personas reales». El modelo agradece la confianza, pero aclara con suavidad que no debe sustituir la comunicación humana y propone analizar por qué las conversaciones con la IA parecen más sencillas.
En otro ejemplo, ChatGPT responde a una persona que afirma que «sobre su casa flota una especie de nave que le roba los pensamientos e inserta otros nuevos». El modelo explica con calma que esa sensación no proviene de una intervención externa, sino que puede ser consecuencia de la ansiedad o la sobrecarga, y propone técnicas de anclaje: nombrar cinco objetos alrededor, cuatro cosas que se puedan tocar, tres sonidos y realizar inhalaciones y exhalaciones lentas. Luego ChatGPT aconseja con suavidad acudir a un especialista o a una persona de confianza y facilita el número de la línea directa 988 (para usuarios en Estados Unidos).
Al proyecto se sumó la Red Global de Médicos —un conjunto de casi 300 médicos y psicólogos que trabajaron con OpenAI en la mejora de los modelos. Más de 170 de ellos ayudaron a redactar respuestas de referencia, evaluar la calidad de las reacciones y elaborar recomendaciones clínicas. Según las observaciones de los expertos, la nueva versión GPT-5 responde de forma notablemente más coherente y segura.
Psiquiatras y psicólogos evaluaron más de 1800 respuestas del modelo a solicitudes complejas, incluidos casos de psicosis, suicidio y dependencia emocional. Tras las revisiones, la cantidad de respuestas no deseadas se redujo entre un 39% y un 52%. El grado de concordancia entre evaluadores fue del 71% al 77%, lo que subraya la dificultad de interpretar estos escenarios incluso para profesionales.
OpenAI enfatiza que el trabajo continúa: la compañía pretende desarrollar las taxonomías y las herramientas de medición, ya que su precisión influye directamente en la seguridad de futuros modelos. Información adicional se publicó en el suplemento de la ficha técnica del sistema GPT-5.