文章来源:智汇AI 发布时间:2025-09-02
「 这场猫捉老鼠的游戏永远不会结束,爬虫总会进化,想办法绕过各种陷阱。」
暂无访问“我的网站被爬崩了,自己要付流量费,人家却用我的内容训练出AI模型,还赚足了眼球。”
自从AI机器人开始流行,很多网站开发者叫苦不堪。而近日,云服务巨头Fastly发布的一份报告让人看完直呼“现实往往我们仅听到的部分更为残酷。”
报告显示,现在AI爬虫正疯狂冲击互联网,它们抓取网站的速度极快,占了AI机器人流量的80%,剩下的20%是按需抓取。
这些AI机器人对没有设立防护的网站而言,可不是闹着玩的——其峰值流量甚至能达到每分钟39,000个请求!换句话说,一个普通网站可能在一分钟之内被AI爬虫和抓取程序“轰炸”上千次,每秒都在承受超负荷压力。
而报告还揭露了罪魁祸首们还是如今众人所知的Meta、OpenAI等主流AI大厂,为此,开发者也正在蓄力开启「反击之战」。
在这份报告里,Fastly把AI机器人分成两类,按它们的行为和用途来区分:爬虫(Crawlers)和抓取(Fetchers)。
所谓爬虫机器人,它的工作方式像搜索引擎,它们会系统地扫描网站,把内容收集起来,用于建立可搜索的索引或者用来训练语言模型。这一步是AI模型“训练阶段”的前提。
数据上看,爬虫机器人占了AI机器人请求量的近80%,抓取机器人占剩下的20%。
爬虫机器人通常会去抓取公开可访问、有权威的网站内容,比如新闻网站、教育资源、**页面、技术文档或者公开数据集。
报告显示,AI爬虫流量几乎全部被几家公司瓜分:Meta、Google和OpenAI三家加起来就已经占了95%,其中Meta占52%,Google23%,OpenAI20%。
抓取机器人就像模型的“小助理”,当AI回答问题时,它们会马上去找相关的网页或资料,让模型能引用权威、最新的信息来支撑答案。也就是说,模型在生成回答的时候,不只是凭自己记忆里的内容,还能实时参考外部数据,这个过程就叫做“推理阶段”。
数据显示,几乎所有抓取请求里,ChatGPT-User和OpenAISearchBot共计占98%,也就是说OpenAI主要靠ChatGPT,对网站带来的抓取流量影响最大。其次,Perplexity的抓取请求量只有1.53%,不过它的影响力在慢慢上升。
报告进一步指出,排名前四的爬虫公司——Meta、Google、OpenAI和Claude——似乎对商业网站特别感兴趣,总爱“盯着”这类内容。
再来看一看AI爬虫的流量趋势。数据显示,近几个月以来,Meta的爬虫明显在慢慢“加速”。
同时,大多数爬虫的频次都挺随性的,有时候会悄悄爬,流量平平,这也导致很多网站可能都没有意识到自己的网站被爬取了。
不过,有时候这些AI机器人流量也会爬得过分,连续几天甚至几周,流量可能直接飙到平常的2–3倍。
宏观数据背后,其实有不少真实的案例。比如我们此前报道过的乌克兰一家专注于人体3D模型的网站Trilegangers。
作为一家销售3D扫描数据的网站,Trilegangers的七名员工花了十多年时间,建立了网络上最大的“人体数字替身”数据库。殊不知,今年年初,这个一直运行良好的网站突然崩了。CEOOleksandrTomchuk赶紧召集工程师排查,结果发现——在网站已经更新了robots.txt的情况下,OpenAI使用600个IP来抓取数据,直接把网站爬崩了。
Tomchuk自述,如果爬虫抓得再温和一些,他可能永远都不会注意到这个问题。为此,Tomchuk公开怒斥道:“他们的爬虫程序正在摧毁我们的网站!这基本上是一次DDoS攻击。”
确实,AI机器人如果设计得不合理,会无意中给很多网站服务器带来巨大压力,导致网站慢、服务中断,甚至增加运营成本。尤其是大规模AI机器人流量飙升的时候,更让人头疼。
Fastly也在报告中分享了他们的一些真实案例:
有个爬虫峰值能达到每分钟1,000次请求,虽然听起来不算“过”,但对依赖数据库查询或者像Gitea这种提供Git仓库浏览的系统来说,短时间的高峰就可能让网站卡顿、超时或者出问题。
按需抓取的情况就更夸张了:有一次,一个抓取器峰值竟然达到每分钟39,000次请求!这样的流量就算没有恶意,也能把服务器压得喘不过气来,消耗带宽,甚至产生类似DDoS攻击的效果。
过量的机器人流量不仅影响用户体验,还会推高基础设施成本,让网站数据分析失真。
遗憾的是,Fastly的高级安全研究员ArunKumar在报告里说,AI机器人正在改变人们访问和体验互联网的方式,同时给数字平台带来了新的复杂问题。不管是为了训练AI收集数据,还是为了实时提供答案,这些机器人都会带来可见性、控制和成本上的新挑战。“看不到的东西就没法保护,没有明确的验证标准,AI自动化的风险就会成为数字团队的盲点。”
随着AI的使用越来越广泛,以及相关工具的发展加速,AI爬虫事件似乎只会越来越多,而不是减少。面对这些“无视规则”的爬虫,开发者们开始主动反击,用各种奇招保护自己的网站。
一位名为XeIaso的FOSS开发者曾于今年一月公开怒斥亚马逊的AI爬虫工具,称其疯狂抓取自己的Git代码托管服务,导致网站频繁崩溃,几乎无法正常运行。
然而,公开喊话并没有起到任何震慑作用,反而有时爬虫行为愈演愈烈。
忍无可忍的XeIaso自己开发了一套叫“Anubis”的系统(https://git.xeserv.us/)。
这是一个基于工作量证明(Proof-of-Work)的反爬虫机制。当用户访问启用了Anubis的网站时,Anubis会要求浏览器完成一个基于SHA-256的PoW挑战。
这一挑战需要消耗一定的计算资源,普通用户几乎察觉不到延迟,但对于大规模爬虫而言,这种额外的计算开销会显著增加抓取成本,从而起到抑制作用。
还有一些开发者则采取了更“激烈”的手段。有一天,IbrahimDiallo偶然发现,有个网站在实时偷他的博客内容:每当有人访问他们的页面,他们就立刻爬取他最新的文章,把名字和品牌标识删掉,然后假装是自己写的。
一开始,Ibrahim尝试“手动反击”,故意喂爬虫一些假数据,让对方搬错内容。但没过多久,他觉得这种方式太麻烦,于是决定使用自己的秘密武器——“ZIP炸弹”。
这个“炸弹”的工作原理是:当爬虫访问他的网站时,他返回一个看起来没问题的小压缩文件。爬虫的服务器会自动下载并尝试解压,结果几GB的“*”文件瞬间释放,直接让系统崩溃。
验证码也被赋予了游戏化的新玩法。云服务平台Vercel的CEOGuillermoRauch不久前结合AI推出了一种《毁灭战士》(DOOM)式验证码。用户要证明自己是人类,必须在“噩梦模式”下击败三个敌人才能进入网站。
不过,这种方法虽然有效挡住了爬虫,但也让普通用户体验变得耗时繁琐。
大型网络基础设施公司也在行动。之前Cloudflare发布了AI迷宫(AILabyrinth),专门对付未经允许的爬虫。系统检测到异常行为时,会把爬虫引入一个充满虚假页面的迷宫,让爬虫消耗资源、迷失方向。Cloudflare透露,每天AI爬虫在其网络上发起的请求超过500亿次,占总流量近1%。
通过以上这些“反爬虫机制”,这样一来,那些靠爬虫到处薅内容的AI公司就得多掏钱了。因为流量被拖慢、资源被消耗,他们不得不增加服务器和硬件投入。简单讲,就是让爬虫想干同样的活儿,成本变得更高、不划算。
Fastly的高级安全研究员ArunKumar对此建议道,小网站尤其是动态内容丰富的网站,首先可以配置robots.txt来减少守规矩爬虫流量;若有技术能力,还可以部署像Anubis这样的系统来进一步控制爬虫。
然而现实来看,这些手段若使用不当,也可能误伤正常用户,降低用户体验。
同时,也正如ArunKumar所言,「这场猫捉老鼠的游戏永远不会结束,爬虫总会进化,想办法绕过各种陷阱。」