2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
灵感来源
我看到了安德烈·卡帕西关于使用大语言模型(LLM)构建个人知识库的热门帖子——无需向量数据库,也无需分块处理流水线。只需 Markdown 文件、Obsidian 和 Claude Code 即可。
其核心理念令我震撼:
- 创建一个包含
raw/和wiki/子文件夹的目录 - 将原始文档、文章、文字稿等放入其中
- 指示大语言模型读取原始文件,并生成带有关系、标签和反向链接的维基页面
我立刻想到:我必须实现这个想法,而且要做得更好。
我所构建的内容
我在卡帕西概念的基础上,将其扩展为一个功能完整的个人第二大脑,并做了多项改进:
原始概念(致谢:安德烈·卡帕西)
- 基于 Markdown 的维基系统,采用
raw/→wiki/处理流程 - 大语言模型读取原始材料并生成结构化的维基页面
- 页面通过
[[反向链接]]相互关联 - Obsidian 中的图谱视图展示各页面之间的连接关系
我的改进之处
1. 多格式内容摄入
原始方案仅支持文本或 Markdown 格式。我新增了对以下格式的支持:
- PDF 文件 → 通过 Marker 工具先转换为 Markdown,再进行处理
- YouTube 文字稿 → 自动获取并摄入
- 网络文章 → 自动抓取并清理内容
- 任意基于文本的格式
2. 智能重复检测
在创建新的维基页面前,系统会检查是否已存在相似主题的页面。若存在,则合并新信息,而非创建重复页面。
3. 自动生成索引
系统会自动维护一个主索引文件 _Index.md,其中包含:
- 所有维基页面的分类链接
- 快速参考描述
- 最后更新时间戳
4. 关系映射
每个维基页面均包含:
- 前置元数据(frontmatter)中的
related_topics字段 - 内联的
[[反向链接]],指向相关概念 - 用于跨领域主题的标签
5. 来源追踪
每个维基页面都会记录其生成所依据的原始文件,确保你始终可以追溯到原始出处。
项目结构
knowledge-base/
├── raw/ # 将文件放在此处
│ ├── articles/
│ ├── transcripts/
│ ├── notes/
│ └── pdfs/
├── wiki/ # 自动生成的维基页面
│ ├── _Index.md # 主索引文件
│ ├── concept-name.md # 各个独立页面
│ └── ...
├── .claude/
│ └── commands/
│ └── ingest.md # 内容摄入提示指令
└── CLAUDE.md # 项目使用说明
内容摄入的工作原理
其神奇之处在于摄入提示指令。当你运行该指令时,Claude Code 会:
-
扫描
raw/目录,查找新增或修改过的文件 - 读取 每个文件,并提取关键概念、实体及相互关系
- 检查 现有维基页面是否存在内容重叠
- 创建或更新 维基页面,包含正确的前置元数据、反向链接和标签
- 更新 主索引文件
以下是一个自动生成的维基页面示例:
---
title: 免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。