2026年机器人流量光怪陆离的世界

发布日期:2026-05-08 10:03:17   浏览量 :0
发布日期:2026-05-08 10:03:17  
0

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

应对机器人流量的三种策略。

  1. 放弃。随它去。想拿什么就拿什么。想多快就多快。花我的钱。偷走它。重复使用它。人生苦短。
  2. 躲在 Cloudflare 后面。让他们去处理吧。让重新验证码(re-CAPTCHA)去烦扰你的用户。向 Cloudflare 付费,并被推销更多服务。
  3. 更多地了解它,并尽你所能增加其难度。在光芒消逝中愤怒抗争。等等。

我完全理解选项 1 和 2。人生苦短,还有其他优先事项要处理,没必要与那些甚至不知道 robots.txt 本该是什么、更别提阅读或遵守它的机器人进行一场无法获胜的战斗。

然而,本着愚蠢地在不触碰 Cesium 或 Three.js 的情况下编写整个 WebGL/WebGPU 网站的精神,我宁愿更多地了解它。

所以前几周,我在日志中看到,来自阿里巴巴数据网络托管中心的几个完整网段基本上正在抓取整个网站的所有语言中的所有叶子节点页面。由于有 35,000 颗卫星,且每个页面都有多种语言版本,这意味着页面数量巨大。他们轮换用户代理并使用大量 IP 地址,但他们很容易被识别和封锁——只需直接禁止所涉及的全部网段即可。我已经配置好我的 Web 服务器,以便从命令行界面只需输入“ban x.y.z/n”(或解除禁止),并有监控脚本持续执行此操作。

这让情况安静了几天。但随后他们又回来了。这次他们从三万五千个 IP 地址回来,每个 IP 只进行一次获取请求,他们使用了一组相对较小但合法的轮换用户代理。

在调查这种表面上看似无法封锁的模式时,我发现所有这些住宅 IP 都在使用 HTTP 1.1 协议。这提供了一个检测选项。如果你使用的是现代浏览器且使用 HTTP 1.1,你将被封锁。因为所有现代浏览器都使用 HTTP 2.x。然而,对于机器人来说,情况则参差不齐。但合法的机器人拥有合法的用户代理。(注意:我不建议你遵循这个生活黑客技巧。Gemini 可以为你详细说明为什么这是一个坏主意)。

但问题是。为什么?当信息都是瞬时的,为什么要花钱通过住宅代理 IP 爬取整个 URL 树呢?这就像爬取一个全球天气网站一样。毫无用处。

答案可能是:人工智能训练。在某处,有人决定他们想要为数万个域名建立完整的镜像,并且不在乎数据是否是一个由无数相同且无意义的曲折通道组成的迷宫,或者是曼尼托巴省的天气,亦或是此刻谷歌的股价。他们只是想要这些数据,并且会违背人类在发明 robots.txt 等文件时设立的所有脆弱的“法律”。

这就是今天的现状。你的流量中(在简单的服务器日志中)有 75% 或更多是假的。即使它看起来是真实的,也很可能是假的。你正在支付出站带宽成本,为人工智能训练、搜索引擎优化情报、竞争优势关键词数据集以及天知道其他用途提供养分。

当然,Google Analytics(谷歌分析)会解析出所有这些内容,因为我怀疑爬虫程序懒得运行记录“真实用户”的 Google 代码片段。(百度蜘蛛及其他爬虫现在越来越倾向于执行所有 JavaScript)。但是,如果你正在为内容分发网络付费,或者按带宽付费,那么

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部