Perplexity: rastreamento furtivo e desrespeito às diretrizes de bots

Estamos testemunhando um comportamento furtivo de rastreamento por parte do Perplexity, um motor de respostas movido por inteligência artificial. Embora o Perplexity inicialmente utilize seu agente de usuário declarado, quando se depara com um bloqueio de rede, parece tentar ocultar sua identidade de rastreamento para contornar as preferências do site. Observamos que o Perplexity está constantemente modificando seu agente de usuário e alterando seus ASNs de origem para esconder sua atividade de rastreamento, além de ignorar ou, às vezes, nem mesmo acessar arquivos robots.txt.

A internet, como conhecemos nos últimos trinta anos, está passando por mudanças rápidas, mas uma coisa permanece inalterada: ela se baseia na confiança. Existem preferências claras de que os rastreadores devem ser transparentes, ter um propósito definido, realizar atividades específicas e, o mais importante, seguir as diretrizes e preferências dos sites. Com base no comportamento observado do Perplexity, que é incompatível com essas preferências, decidimos removê-los como um bot verificado e adicionamos heurísticas às nossas regras gerenciadas para bloquear esse rastreamento furtivo.

Realizamos testes após recebermos reclamações de clientes que haviam desautorizado a atividade de rastreamento do Perplexity em seus arquivos robots.txt e também criado regras WAF para bloquear especificamente os dois rastreadores declarados do Perplexity: PerplexityBot e Perplexity-User. Esses clientes relataram que o Perplexity ainda conseguia acessar seu conteúdo, mesmo quando seus bots eram considerados bloqueados. Confirmamos que os rastreadores do Perplexity estavam realmente sendo bloqueados nas páginas específicas e, em seguida, realizamos vários testes direcionados para confirmar qual comportamento exato poderíamos observar.

Criamos múltiplos novos domínios, semelhantes a testexample.com e secretexample.com. Esses domínios foram recém-adquiridos e ainda não haviam sido indexados por nenhum motor de busca ou tornados publicamente acessíveis de maneira descoberta. Implementamos um arquivo robots.txt com diretrizes para impedir o acesso de qualquer bot respeitoso a qualquer parte do site.

Ao consultar o Perplexity AI com perguntas sobre esses domínios, descobrimos que o Perplexity ainda fornecia informações detalhadas sobre o conteúdo exato hospedado em cada um desses domínios restritos. Essa resposta foi inesperada, pois tomamos todas as precauções necessárias para evitar que esses dados fossem recuperáveis por seus rastreadores.

Observamos que o Perplexity não apenas utiliza seu agente de usuário declarado, mas também um navegador genérico destinado a se passar pelo Google Chrome em macOS quando seu rastreador declarado é bloqueado. Este rastreador não declarado utilizou múltiplos IPs que não estão listados na faixa oficial de IPs do Perplexity, alternando entre eles em resposta à política restritiva do robots.txt e aos bloqueios do Cloudflare. Além de alternar IPs, notamos requisições oriundas de diferentes ASNs em tentativas de evadir ainda mais os bloqueios dos sites.

Em contraste com o comportamento do Perplexity, o uso de boas práticas por operadores de bots bem-intencionados deve incluir transparência, identificação honesta com um agente de usuário único e respeito às diretrizes de robots.txt. Exemplos de empresas que seguem essas melhores práticas incluem a OpenAI, que fornece explicações detalhadas sobre o propósito de seus rastreadores e não tenta contornar as diretrizes do robots.txt.

Testes realizados com o ChatGPT demonstraram que ele parou de rastrear quando confrontado com diretrizes de bloqueio e não houve tentativas adicionais de rastreamento, demonstrando uma resposta adequada às preferências dos proprietários de sites. Para proteger-se, os clientes que já possuem regras de bloqueio em vigor estão protegidos, e aqueles que não desejam bloquear o tráfego podem configurar regras que desafiem as requisições, permitindo que humanos reais prossigam. Já adicionamos correspondências de assinatura para o rastreador furtivo em nossa regra gerenciada que bloqueia atividades de rastreamento de IA, disponível para todos os clientes, incluindo os gratuitos.

Com a recente introdução do Dia da Independência do Conteúdo, mais de dois milhões e meio de sites optaram por proibir completamente o treinamento de IA através de nosso recurso de robots.txt gerenciado. Esperamos uma mudança no comportamento de bots e rastreadores devido a essas novas funcionalidades, e prevemos que as técnicas utilizadas para evitar a detecção continuarão a evoluir.