文章来源:智汇AI 发布时间:2025-08-07
Cloudflare发布报告,指控AI初创公司Perplexity无视robots.txt禁令,通过改变身份标识绕过拦截规则抓取网站内容。Perplexity否认指控,称Cloudflare的博文是“销售噱头”。
暂无访问智汇AI8月5日消息,当地时间周一,Cloudflare发布了一份报告,指控AI初创公司Perplexity在网站已明确标注禁止AI抓取的情况下仍进行抓取,并通过改变身份标识规避拦截规则。
报告显示,Perplexity忽略网站robots.txt文件(用于告知搜索引擎和AI公司哪些页面可供索引)及针对其已知爬虫的拦截规则,调整UA和ASN信息,通过更换身份和网络地址等手段绕过屏蔽并抓取大量内容。
Cloudflare称,他们通过“机器学习与网络信号相结合”的方式,识别出了Perplexity爬虫的特征,其行为涉及“数万个域名,每天数百万次请求”。
针对指控,Perplexity发言人JesseDwyer表示:Cloudflare的博文是“销售噱头”,并表示文中截图“显示没有内容被访问”。在后续邮件中,Dwyer进一步否认,称Cloudflare提到的机器人“甚至不是我们的”。
Cloudflare表示,其调查源于客户投诉——部分客户已在robots文件中添加规则并专门拦截Perplexity的已知爬虫,但仍遭其抓取。Cloudflare测试后确认属实。
作为回应,Cloudflare已将Perplexity的爬虫移出认证名单(用于标识合法爬虫),并添加新的技术拦截其行为。
智汇AI注意到,这并非Perplexity首次面临此类指控。去年《Wired》等媒体也曾指控Perplexity抄袭其内容;首席执行官AravindSrinivas在Disrupt2024大会上面对媒体问询却不敢回答。
参考资料:
《Perplexityisusingstealth,undeclaredcrawlerstoevadewebsiteno-crawldirectives》