一分钟3.9万次请求，网站被AI爬虫“碾压”，Meta和OpenAI遭点名，开发者接连祭出神级反爬“武器”

文章来源：智汇AI 发布时间：2025-09-02

「这场猫捉老鼠的游戏永远不会结束，爬虫总会进化，想办法绕过各种陷阱。」

暂无访问

“我的网站被爬崩了，自己要付流量费，人家却用我的内容训练出AI模型，还赚足了眼球。”

自从AI机器人开始流行，很多网站开发者叫苦不堪。而近日，云服务巨头Fastly发布的一份报告让人看完直呼“现实往往我们仅听到的部分更为残酷。”

报告显示，现在AI爬虫正疯狂冲击互联网，它们抓取网站的速度极快，占了AI机器人流量的80%，剩下的20%是按需抓取。

这些AI机器人对没有设立防护的网站而言，可不是闹着玩的——其峰值流量甚至能达到每分钟39,000个请求！换句话说，一个普通网站可能在一分钟之内被AI爬虫和抓取程序“轰炸”上千次，每秒都在承受超负荷压力。

而报告还揭露了罪魁祸首们还是如今众人所知的Meta、OpenAI等主流AI大厂，为此，开发者也正在蓄力开启「反击之战」。

AI爬虫正在摧毁网站，Meta、Google、OpenAI是“主谋”？

在这份报告里，Fastly把AI机器人分成两类，按它们的行为和用途来区分：爬虫（Crawlers）和抓取（Fetchers）。

所谓爬虫机器人，它的工作方式像搜索引擎，它们会系统地扫描网站，把内容收集起来，用于建立可搜索的索引或者用来训练语言模型。这一步是AI模型“训练阶段”的前提。

数据上看，爬虫机器人占了AI机器人请求量的近80%，抓取机器人占剩下的20%。

爬虫机器人通常会去抓取公开可访问、有权威的网站内容，比如新闻网站、教育资源、**页面、技术文档或者公开数据集。

报告显示，AI爬虫流量几乎全部被几家公司瓜分：Meta、Google和OpenAI三家加起来就已经占了95%，其中Meta占52%，Google23%，OpenAI20%。

抓取机器人就像模型的“小助理”，当AI回答问题时，它们会马上去找相关的网页或资料，让模型能引用权威、最新的信息来支撑答案。也就是说，模型在生成回答的时候，不只是凭自己记忆里的内容，还能实时参考外部数据，这个过程就叫做“推理阶段”。

数据显示，几乎所有抓取请求里，ChatGPT-User和OpenAISearchBot共计占98%，也就是说OpenAI主要靠ChatGPT，对网站带来的抓取流量影响最大。其次，Perplexity的抓取请求量只有1.53%，不过它的影响力在慢慢上升。

报告进一步指出，排名前四的爬虫公司——Meta、Google、OpenAI和Claude——似乎对商业网站特别感兴趣，总爱“盯着”这类内容。

再来看一看AI爬虫的流量趋势。数据显示，近几个月以来，Meta的爬虫明显在慢慢“加速”。

同时，大多数爬虫的频次都挺随性的，有时候会悄悄爬，流量平平，这也导致很多网站可能都没有意识到自己的网站被爬取了。

不过，有时候这些AI机器人流量也会爬得过分，连续几天甚至几周，流量可能直接飙到平常的2–3倍。

宏观数据背后，其实有不少真实的案例。比如我们此前报道过的乌克兰一家专注于人体3D模型的网站Trilegangers。

作为一家销售3D扫描数据的网站，Trilegangers的七名员工花了十多年时间，建立了网络上最大的“人体数字替身”数据库。殊不知，今年年初，这个一直运行良好的网站突然崩了。CEOOleksandrTomchuk赶紧召集工程师排查，结果发现——在网站已经更新了robots.txt的情况下，OpenAI使用600个IP来抓取数据，直接把网站爬崩了。

Tomchuk自述，如果爬虫抓得再温和一些，他可能永远都不会注意到这个问题。为此，Tomchuk公开怒斥道：“他们的爬虫程序正在摧毁我们的网站！这基本上是一次DDoS攻击。”

看不见的成本只能由网站管理员及公司自行承担

确实，AI机器人如果设计得不合理，会无意中给很多网站服务器带来巨大压力，导致网站慢、服务中断，甚至增加运营成本。尤其是大规模AI机器人流量飙升的时候，更让人头疼。

Fastly也在报告中分享了他们的一些真实案例：

有个爬虫峰值能达到每分钟1,000次请求，虽然听起来不算“过”，但对依赖数据库查询或者像Gitea这种提供Git仓库浏览的系统来说，短时间的高峰就可能让网站卡顿、超时或者出问题。

按需抓取的情况就更夸张了：有一次，一个抓取器峰值竟然达到每分钟39,000次请求！这样的流量就算没有恶意，也能把服务器压得喘不过气来，消耗带宽，甚至产生类似DDoS攻击的效果。

过量的机器人流量不仅影响用户体验，还会推高基础设施成本，让网站数据分析失真。

遗憾的是，Fastly的高级安全研究员ArunKumar在报告里说，AI机器人正在改变人们访问和体验互联网的方式，同时给数字平台带来了新的复杂问题。不管是为了训练AI收集数据，还是为了实时提供答案，这些机器人都会带来可见性、控制和成本上的新挑战。“看不到的东西就没法保护，没有明确的验证标准，AI自动化的风险就会成为数字团队的盲点。”