El 80 % del tráfico — no son personas, y esta es la nueva realidad de Internet.
En un nuevo informe de Fastly Threat Insights, los investigadores analizaron más de 6,5 billones de solicitudes web al mes para detectar nuevos patrones en el tráfico generado por bots de IA. Este segmento de sistemas automatizados crece con rapidez y ya está afectando de forma notable la infraestructura de Internet, la carga en los sitios y las formas de acceso al contenido.
Según el informe, la actividad punta de algunos bots llega a 39 000 solicitudes por minuto hacia un solo recurso, lo que puede sobrecargar incluso a servidores grandes y provocar efectos comparables con ataques DDoS. Con mayor frecuencia sufren la presión las plataformas de comercio electrónico, entretenimiento y alta tecnología, cuyas bases de datos y catálogos actualizables resultan especialmente valiosos para los desarrolladores de modelos de lenguaje. Como resultado, los propietarios de sitios afrontan gastos crecientes, estadísticas de visitas distorsionadas y caídas de rendimiento.
El mayor volumen de tráfico lo generan los crawlers que recopilan contenido para entrenar modelos: alrededor del 80% de todas las solicitudes. Más de la mitad de ese rastreo corresponde a Meta*, un 23% a Google y cerca del 20% a OpenAI. En comparación, los fetchers —bots que recuperan páginas en el momento de la consulta del usuario— representan solo una quinta parte de la actividad. Pero son precisamente ellos los que provocan los picos más intensos: casi todo ese segmento pertenece a OpenAI, cuyos bots ChatGPT y OAI-SearchBot realizan el 98% de las solicitudes en tiempo real. Competidores aislados, como Perplexity, todavía manejan volúmenes menores, pero su participación crece de forma constante.
La geografía de las fuentes de datos también importa: la gran mayoría de la información para entrenamiento procede de Norteamérica, lo que implica que muchos modelos heredan el sesgo cultural y político de esa región. Un alcance más diverso muestran Diffbot e ICC Crawler, que recogen activamente material de Europa, Oriente Medio y África. En Asia destaca la contribución de actores japoneses —SoftBank y el instituto estatal NICT— centrados en el segmento local de Internet.
La situación varía según la región y la industria. En Norteamérica casi el 90% del tráfico lo constituyen crawlers, mientras que en Europa predominan los fetchers —hasta el 59%. En el sector educativo estos últimos son el principal problema: estudiantes e investigadores usan masivamente ChatGPT, lo que se traduce directamente en carga sobre los recursos. En medios y entretenimiento se observa una imagen similar: los fetchers consultan publicaciones y noticias recientes, generando picos de solicitudes. En sanidad, sector público y comercio electrónico, por el contrario, hasta el 96% de las solicitudes corresponden a crawlers.
Fastly subraya que el 87% del tráfico de bots, en general, tiene carácter malicioso —desde robo de credenciales hasta fraudes publicitarios—, y en el caso de los bots de IA el riesgo incluye además el uso descontrolado de contenido y la monetización oculta de recursos ajenos. Para reducir la presión, la compañía recomienda una protección en múltiples capas: desde el uso de estándares como robots.txt y X-Robots-Tag hasta la implementación de captchas, limitaciones de velocidad y soluciones especializadas de gestión de bots. Una opción es redirigir las solicitudes a plataformas con licencia, lo que permite no solo controlar el acceso, sino también obtener ingresos por el uso del contenido en el entrenamiento de modelos.
También se presta atención a los operadores de buena fe. Los autores del informe les piden transparencia: publicar rangos de direcciones IP, indicar un User-Agent con nombre único, respetar las reglas de robots.txt y limitar la frecuencia de solicitudes. OpenAI pone el ejemplo publicando abiertamente los rangos de direcciones de sus bots, y Common Crawl mantiene un calendario de rastreo predecible que facilita la preparación de los propietarios de sitios. El incumplimiento de estos principios conduce al bloqueo y al aumento de la desconfianza, mientras que una política transparente ayuda a construir relaciones sostenibles entre desarrolladores de IA y la comunidad de Internet.
* La empresa Meta y sus productos (incluidos Instagram, Facebook, Threads) están reconocidos como extremistas; su actividad está prohibida en el territorio de la Federación Rusa.