¿Por qué pagar si se puede eludir? Perplexity AI enfrenta acciones legales por un esquema "gris" de recopilación de datos

¿Por qué pagar si se puede eludir? Perplexity AI enfrenta acciones legales por un esquema "gris" de recopilación de datos

En vez de comprar una licencia cara, el servicio recurrió a intermediarios "en la sombra".

image

Reddit presentó una demanda contra Perplexity AI, acusando a la empresa de la descarga masiva no autorizada de contenido de usuarios desde la plataforma. En la demanda también aparecen tres proveedores de servicios proxy — SerpApi, Oxylabs y AWMProxy, — que el demandante considera intermediarios técnicos en un esquema a gran escala para eludir las restricciones de acceso a los datos. Según Reddit, estas empresas actúan como «asaltantes del camión blindado» digitales, violando barreras técnicas y accediendo a información protegida sin el permiso del propietario.

La empresa afirma que Perplexity, que desarrolla su propio servicio de respuestas con IA, es cliente de al menos uno de esos servicios y evita intencionadamente celebrar un acuerdo oficial de acceso a datos similar a los ya suscritos con OpenAI y Google. Según Reddit, tales acciones indican una negativa deliberada de Perplexity a cumplir las reglas establecidas a favor del acceso ilegal a uno de los conjuntos más valiosos de textos de usuarios en internet.

Según los documentos presentados en el tribunal, en mayo de 2024 Reddit ya había enviado a Perplexity una petición para que dejara de usar los datos del sitio. En respuesta, Perplexity aseguró que no utiliza el contenido de Reddit para el entrenamiento de modelos y que respeta las restricciones establecidas en robots.txt. Sin embargo, según el demandante, después de eso las menciones al contenido de Reddit en el sistema de Perplexity solo aumentaron. Como ejemplo se cita una publicación de prueba, disponible exclusivamente para los rastreadores de Google — pocas horas después su contenido apareció en los resultados del servicio de IA, hecho que Reddit interpreta como un indicio de un reescaneo de la página de resultados de búsqueda.

La demanda subraya que el material de Reddit constituye una base de conocimientos única, creada por personas, ordenada por popularidad y actualizada regularmente, lo que la hace especialmente valiosa para el entrenamiento de redes neuronales. Reddit considera que dicho contenido ha sido objeto de atención en un contexto de intensa competencia entre empresas que desarrollan modelos generativos, y que Perplexity recurre deliberadamente a un «lavado de datos» a través de proveedores en la sombra para no pagar una licencia.

Además, Reddit recuerda que anteriormente ya inició procedimientos legales contra otra empresa de IA — Anthropic, — acusándola de acceso no autorizado a la plataforma, pese a las declaraciones públicas en sentido contrario.

En Perplexity, por su parte, dijeron que aún no han recibido una copia oficial de la demanda, pero que están preparados para defender su derecho de acceso a datos abiertos. Un portavoz de la compañía subrayó que el servicio busca ofrecer respuestas precisas basadas en información verificada y que no tiene intención de alejarse de los principios de transparencia y del interés público.

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Suscribirse