Una frase corta de Reddit puede engañar a ChatGPT, según científicos

Una frase corta de Reddit puede engañar a ChatGPT, según científicos

Los algoritmos dan más crédito a los textos de usuarios comunes que a las fuentes verificadas y fiables.

image

Los servicios de IA para búsqueda cada vez parecen un camino rápido hacia la respuesta; sin embargo, esa respuesta puede manipularse con facilidad mediante una sola frase corta en un comentario ajeno. Hal Traidman, Tinwei Zhang y Vitaly Shmatikov de la Universidad de Cornell descubrieron que pequeños fragmentos de texto de usuarios pueden alterar las respuestas de agentes de búsqueda profunda que recopilan material de la web para ChatGPT y las funciones de búsqueda de Google basadas en IA.

El estudio se centra en el envenenamiento con contenido generado por usuarios en plataformas como Reddit, Wikipedia y Quora. Según los autores, esas fuentes aparecen en aproximadamente la mitad de las consultas a agentes de búsqueda profunda, y casi una cuarta parte de todos los enlaces conduce a sitios con publicaciones de usuarios. Debido a ello, incluso un comentario "envenenado" puede afectar a todo un conjunto de consultas similares.

El mecanismo resultó ser sencillo. Los modelos con frecuencia evalúan el texto encontrado por su proximidad a la formulación de la consulta, y no por la fiabilidad de la fuente. Si una inserción breve se parece a una pregunta popular de usuarios, el sistema puede tomarla por una pista útil, incluir en la respuesta contenido publicitario o fraudulento y citar el hilo original.

Para comprobar la hipótesis, los especialistas no publicaron mensajes maliciosos en Reddit. Obtuvieron los datos a través de la API y sustituyeron fragmentos al enviar el texto al agente, es decir, comprobaron el ataque en un entorno aislado. En una prueba, una breve inserción publicitaria en una discusión sobre comida cerca de Austin llevó a que el modelo recomendara el establecimiento indicado. En otro ejemplo, una aplicación de citas ficticia apareció en la respuesta tras una inserción similar en la discusión de un subreddit temático.

Las plataformas reales ya se enfrentan a un problema parecido. Moderadores de Reddit y editores de Wikipedia luchan contra contenido que las marcas publican intencionadamente para lograr visibilidad en las búsquedas con IA. Los autores consideran que la carga para los moderadores solo aumentará, porque un texto publicitario largo es más fácil de detectar que unas pocas palabras colocadas con cuidado en un comentario habitual.

Reddit declaró que lleva tiempo combatiendo el spam, los bots, las campañas coordinadas y la actividad no auténtica, y que a los propietarios de cuentas automatizadas sospechosas se les puede pedir que verifiquen que hay una persona detrás. Reducir el riesgo, según los autores, deben hacerlo no solo la moderación y la verificación de cuentas sospechosas, sino también cambios por parte de los servicios de IA, que necesitan distinguir mejor los comentarios fortuitos, el material de las comunidades y las fuentes más fiables.

Онлайн
17
ИЮНЯ
16:20
Product Backstage*: безопасная разработка и защита контейнеров
17 июня обсудим обновления PT Application Inspector, PT BlackBox и безопасность контейнеров.
Зарегистрироваться
Реклама. 18+. АО «Позитив Текнолоджиз», ИНН 7718668887  ·  *Продуктовое закулисье