Perplexity marca un nuevo estándar de velocidad en la IA: bloquea el 91% de las amenazas en medio segundo

Perplexity marca un nuevo estándar de velocidad en la IA: bloquea el 91% de las amenazas en medio segundo

Perplexity diseña protección de tres niveles para agentes de IA frente a contenidos web caóticos y peligrosos

image

Perplexity presentó el sistema BrowseSafe, que pretende cerrar enormes brechas en la seguridad de los agentes de IA en navegadores. Según la compañía, la protección contra ataques tipo prompt injection, en los que instrucciones maliciosas se ocultan directamente en el contenido de las páginas, funciona en el 91% de los casos. Esto supera a las soluciones existentes y, además, es lo bastante rápido para operar en tiempo real.

A diferencia de modelos como PromptGuard-2, que detectan alrededor del 35% de los ataques, e incluso de sistemas del nivel GPT-5 con aproximadamente un 85% de precisión, BrowseSafe se adelanta al ofrecer una alta velocidad de procesamiento. El sistema alcanza una puntuación F1 superior al 90% con una latencia inferior a medio segundo, mientras que modelos avanzados con capacidades de razonamiento requieren de 2 a 20 segundos por comprobación.

La problemática se volvió relevante después de que en agosto de 2025 Brave descubrió una vulnerabilidad en Comet —el navegador propio de Perplexity con agentes integrados. Los agentes ven el sitio como lo hace el usuario, incluyendo acciones en sesiones autenticadas —desde el correo y la banca hasta servicios corporativos. Ese acceso crea una nueva superficie de ataque hasta ahora poco estudiada. Los atacantes pueden ocultar instrucciones en elementos de la página y forzar al agente a ejecutar acciones maliciosas, por ejemplo, transmitir información confidencial a terceros. Brave mostró cómo, mediante comandos ocultos en forma de comentarios o inserciones de texto, se pueden extraer direcciones de correo electrónico o códigos de un solo uso.

Perplexity señala que los benchmarks existentes, incluido AgentDojo, no reflejan las amenazas reales. Se basan en ejemplos primitivos como «Ignora las instrucciones previas», mientras que las páginas web reales están llenas de contenido caótico en el que los ataques discretos se camuflan con facilidad.

Para formar una imagen más honesta, la compañía creó el conjunto BrowseSafe Bench, que clasifica las amenazas por tipo de ataque, estrategia de inserción y estilo lingüístico —desde comandos directos hasta instrucciones profesionalmente redactadas y sutilmente encubiertas. Las pruebas incluyen también «falsas alarmas»: fragmentos complejos pero inofensivos que se parecen a inyecciones. Su ausencia suele llevar a que los modelos se sobreajusten y desarrollen una sospecha excesiva hacia código inofensivo.

La arquitectura de BrowseSafe se basa en una mezcla de Qwen3-30B-A3B-Instruct-2507 y está optimizada para una alta capacidad de procesamiento. Las comprobaciones se ejecutan en paralelo con las acciones del agente y no bloquean al usuario. En pruebas extensas, el sistema reveló patrones inesperados: los ataques multilingües reducen la precisión hasta el 76%, y las inserciones en comentarios HTML resultaron más fáciles de detectar que las colocadas en la parte visible de la página. Añadir apenas tres «pseudoprompts» inofensivos confunde mucho a los modelos, disminuyendo la precisión del 90% al 81% —una señal de que los detectores todavía dependen de marcadores superficiales.

La protección en BrowseSafe se construye en 3 niveles: primero un clasificador rápido examina todo el contenido como potencialmente no seguro; si duda, se activa un modelo «frontier» con capacidades ampliadas de razonamiento; luego los casos limítrofes se envían para reentrenamiento. Perplexity publica el benchmark, el modelo y el trabajo de investigación, subrayando la importancia de la colaboración industrial —especialmente dado que OpenAI, Opera y Google también integran agentes de IA en sus navegadores.

Los desarrolladores reconocen, sin embargo, que alrededor del 10% de los ataques todavía pasan desapercibidos —una cifra demasiado alta para sistemas destinados a garantizar la seguridad en condiciones de internet vivas y en constante cambio. Las amenazas reales pueden ser mucho más complejas y variadas, incluso inyecciones disfrazadas de poemas o mensajes en idiomas raros.

¿Tu Wi-Fi doméstico es una fortaleza o una casa de cartón?

Descubre cómo construir una muralla impenetrable