2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
小红书(RedNote,有时被称为“Little Red Book”或简称 XHS)是许多西方团队在 2024 至 2025 年间意识到需要监控的平台。当时,美国对抖音国际版(TikTok)的监管乱象促使数百万用户以及品牌关注度转向了中国平台。如今,它已成为中国排名第一的生活方式与商品发现网络,拥有超过 3 亿的月活跃用户,其基于搜索的发现模式使其区别于其他所有中国社交平台。
问题在于:没有官方的公开应用程序接口(API)。试图监控它的西方团队通常最终要么 (a) 每年支付 2 万至 5 万美元给企业级供应商,以获取有限的中国市场覆盖数据;要么 (b) 尝试自行抓取数据,却发现小红书拥有中国社交领域中最激进的反抓取技术栈之一。
本文将深入探讨实际的技术挑战,并通过真实的 Python 代码展示自行开发(DIY)和托管服务两种方法。我曾在 Apify 上发布过一个托管的小红书抓取工具,稍后会提及——但本文的目标是让你充分理解这一问题领域,从而做出明智的“自建还是购买”决策,而非向你推销任何产品。
小红书实际提供的数据
在进入技术细节之前:小红书暴露了哪些数据?哪些数据真正有用?
一篇小红书笔记的结构大致如下:
- 标题(通常非常简短,有时为空)
- 正文文本 —— 长篇描述,包含商品提及、话题标签、地点标签
- 图片轮播 —— 1 到 9 张图片。关键点:相当一部分商品信息存在于图片的文字覆盖层中,而非正文中
- 互动指标 —— 点赞、收藏、评论、分享
- 作者个人资料 —— 用户名、头像、粉丝/关注数量、简介、认证状态、地点
- 标签/分类 —— 话题标签及平台分配的分类
对于大多数监控用例而言,比点赞更重要的指标是收藏。小红书上的收藏最接近于“我想稍后购买此商品”的含义——它与购买意向密切相关。小红书上的点赞则是随意性的互动,类似于推特(Twitter)上的点赞。
个人资料数据的结构类似:
- 用户 ID、小红书 ID(red ID)、昵称、头像
- 简介/描述
- 粉丝/关注数量
- 地点、性别、个人资料标签
- 所有笔记获得的总点赞数
- 认证状态
技术挑战(为何这比抓取推特更难)
如果你曾抓取过西方社交平台,你的默认工具包可能是 httpx 或 requests 库,再加上可能的住宅代理。而小红书会使这些默认方案全部失效。
挑战 1:传输层安全协议(TLS)指纹识别
小红书使用传输层安全协议(TLS)指纹识别(具体为 JA3/JA4)来识别并阻止非来自真实浏览器的请求。requests 库具有特定的 Python TLS 指纹,会被小红书的机器人检测层立即识别。
标准的解决方案是使用 curl_cffi,它允许你伪装成 Chrome 或 Safari 浏览器的 TLS 指纹:
from curl_cffi import requests as curl_requests
# 伪装 Chrome 120 的 TLS 指纹
response = curl_requests.get(
"https://www.xiaohon
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。