我测试了15个大语言模型用于网络爬虫，但最终选择了构建启发式算法

无人提及的问题：600KB 的文档对象模型（DOM）

当我开始构建网络爬虫时，显而易见的做法是将页面发送给大型语言模型（LLM），并要求它提取数据。很简单，对吧？

错。典型的产品列表页面包含 500–700KB 的原始文档对象模型（DOM）数据。将其发送给任何模型都意味着你每页需要支付约 150,000 个令牌（token）的费用，每个请求等待 15–30 秒，并且在处理任何复杂内容时都会触及上下文长度限制。

我在第一页就撞上了这堵墙。

四个月，十五个模型，结果相同

我测试了所有模型：GPT-4、GPT-4o、Gemini 1.5 Pro、Gemini Ultra、Claude 3 Opus、Claude 3.5 Sonnet、Mistral Large、Llama 3 70B、Cohere Command R+，以及一些较小的微调模型。

结果始终如一：

GPT-4 / Gemini Ultra：准确，但每页耗时 25–35 秒
Claude 3.5 Sonnet：准确性与延迟之比最佳，但仍需 5–10 秒
较小模型：速度更快，但不断产生字段名称的幻觉（即生成错误信息）

没有模型能解决延迟问题，因为我要求它们解决的是一个错误的问题。

预处理器的突破

真正的问题不在于模型，而在于输入大小。

我构建了一个文档对象模型（DOM）预处理器：

移除所有 <script>、<style> 和跟踪像素
移除导航栏、页脚、侧边栏元素
合并不携带语义内容的深层嵌套包装器
应用 SimHash 算法对结构相同的子树进行去重

结果：580KB → 4.2KB。减少了 99.3%。

当输入大小为 4KB 时，每个模型都变得快速起来。但更有趣的事情发生了：在这种规模下，重复模式变得显而易见。相同的结构重复了 20、50、100 次——产品卡片、目录行、搜索结果。

架构决策

如果仅从结构上看模式已经显而易见，为什么我还要付费让模型去寻找它呢？

我编写了一个启发式检测器：

识别具有 3 个或以上结构相同兄弟元素的元素
根据深度、子节点数量一致性和文本密度对候选列表进行评分
在 0 毫秒 内返回排序后的列表候选项

然后，人工智能在检测之后介入——不是为了识别列表，而是为了标记字段并结构化输出。这是一个只需 200 个令牌的任务，而不是 150,000 个令牌的任务。

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。

上一篇 : 结构优于字节：Metarc 如何在真实代码上超越 tar+zstd

下一篇 : 38% 的模型上下文协议服务器没有身份验证——位列开放 Web 应用安全项目模型上下文协议十大安全风险之中

扫一扫在手机上阅读

看了又看

如何一次性检查多达 1500 个域名的年龄

信源博客入驻

最长之夜：在日落前破解四重密码，然后回答图灵的问题

我在两小时后就不断触达克劳德代码的五小时限制，于是我构建了这个工具。

关于我们

热门推荐

合作伙伴

免责声明：本站部分资讯来源于网络，如有侵权请及时联系客服，我们将尽快处理

立即咨询

友情链接:

杭州电子商务研究院企通社 epower企服引擎二十二科技集团第一商务域名交易爱名奖 LTD方法论营销SaaS 22知协 .Co.Ltd数字门户 ToB总监联盟网站编辑器官微名片丽水山泉浙工大校友企业家联谊会站点智能 DMP 西湖龙井茶官网标诺网欧朋不锈钢全屋定制智元营销港宏桥通用站点案例库索易软件巨量星球更多

浙公网安备33010602013138号浙ICP备16025413号-9

支持反馈关注数据

步骤	方法	延迟
列表检测	启发式算法	0.2 毫秒
字段标记	大型语言模型（小输入）