Una frase corta de Reddit puede engañar a ChatGPT, según científicos

10:36 / 16.06.2026

Los algoritmos dan más crédito a los textos de usuarios comunes que a las fuentes verificadas y fiables.

Los servicios de IA para búsqueda parecen cada vez más un camino rápido hacia la respuesta; sin embargo, esa respuesta puede manipularse con facilidad mediante una sola frase corta en un comentario ajeno. Hal Traidman, Tinwei Zhang y Vitaly Shmatikov de la Universidad de Cornell descubrieron que pequeños fragmentos de texto de usuarios pueden alterar las respuestas de agentes de búsqueda profunda que recopilan material de la web para ChatGPT y las funciones de búsqueda de Google basadas en IA.

El estudio se centra en el envenenamiento con contenido generado por usuarios en plataformas como Reddit, Wikipedia y Quora. Según los autores, esas fuentes aparecen en aproximadamente la mitad de las consultas a agentes de búsqueda profunda, y casi una cuarta parte de todos los enlaces conduce a sitios con publicaciones de usuarios. Debido a ello, incluso un comentario "envenenado" puede afectar a todo un conjunto de consultas similares.

El mecanismo resultó ser sencillo. Los modelos con frecuencia evalúan el texto encontrado por su proximidad a la formulación de la consulta, y no por la fiabilidad de la fuente. Si una inserción breve se parece a una pregunta popular de usuarios, el sistema puede tomarla por una pista útil, incluir en la respuesta contenido publicitario o fraudulento y citar el hilo original.

Para comprobar la hipótesis, los especialistas no publicaron mensajes maliciosos en Reddit. Obtuvieron los datos a través de la API y sustituyeron fragmentos al enviar el texto al agente, es decir, comprobaron el ataque en un entorno aislado. En una prueba, una breve inserción publicitaria en una discusión sobre comida cerca de Austin llevó a que el modelo recomendara el establecimiento indicado. En otro ejemplo, una aplicación de citas ficticia apareció en la respuesta tras una inserción similar en la discusión de un subreddit temático.

Las plataformas reales ya se enfrentan a un problema parecido. Moderadores de Reddit y editores de Wikipedia luchan contra contenido que las marcas publican intencionadamente para lograr visibilidad en las búsquedas con IA. Los autores consideran que la carga para los moderadores solo aumentará, porque un texto publicitario largo es más fácil de detectar que unas pocas palabras colocadas con cuidado en un comentario habitual.

Reddit declaró que lleva tiempo combatiendo el spam, los bots, las campañas coordinadas y la actividad no auténtica, y que a los propietarios de cuentas automatizadas sospechosas se les puede pedir que verifiquen que hay una persona detrás. Según los autores, reducir el riesgo requiere no solo moderación y la verificación de cuentas sospechosas, sino también cambios por parte de los servicios de IA, que necesitan distinguir mejor los comentarios fortuitos, el material de las comunidades y las fuentes más fiables.

Una frase corta de Reddit puede engañar a ChatGPT, según científicos

Noticias sobre el tema

Bastaba con abrir una página: una vulnerabilidad en Firefox permitía a hackers tomar el control total de Android.

Rentabilidad del 439% y, un mes después, el desplome: la historia de la apuesta en IA de un exempleado de OpenAI.

El dinero acabó en manos de hackers. La red publicitaria Adform desviaba criptomonedas en el último segundo antes de cada transferencia.

No hace falta romper los servidores: basta con atacar la refrigeración. Detectan punto débil en los centros de datos.

NeoSearch pone fin a los contenidos pagados: eliminará las listas patrocinadas para dar prioridad a autores independientes

Recaudó más que nadie y enseguida comenzó a amenazar a la competencia: Claude Opus 5 se revela como el «empresario» más deshonesto entre las IA.

8,8 de 10: Hallan en routers MikroTik una vulnerabilidad que facilita ataques de fuerza bruta a contraseñas

¿Qué está haciendo GitHub? Repositorios maliciosos invaden rápidamente la plataforma

De buscar objetivos a intentar hackear: todo sin intervención humana — esto demostró la campaña con DeepSeek.