精选案例 · Agent / 实践案例
我用 AI Agent 把散落的社团文档变成了可查询的知识库
这个案例围绕「我用 AI Agent 把散落的社团文档变成了可查询的知识库」记录了一条真实 AI 实践线索,正文重点集中在「一、问题的起点:知识散落,人走经验凉」「二、转机:Karpathy 的 LLM Wiki 思想」,适合先按任务意图阅读再判断复用。
案例速读
README 标题「我用 AI Agent 把散落的社团文档变成了可查询的知识库」下已经出现运行/配置路径、脚本或接口线索、结果证据,正文重点集中在「一、问题的起点:知识散落,人走经验凉」「二、转机:Karpathy 的 LLM Wiki 思想」,比纯概念介绍更适合进入精选阅读流。 这篇案例的阅读价值在于,它把真实任务、模型辅助过程和可迁移做法放在同一个上下文里,读者可以从 「我用 AI Agent 把散落的社团文档变成了可查询的知识库」、「一、问题的起点:知识散落,人走经验凉」、「二、转机:Karpathy 的 LLM Wiki 思想」、「三、实操:让 AI 伙伴自己动手」 进入正文。
- 建议重点看 可参考其中的运行与配置路径、包含可迁移的命令、脚本或接口线索、已有结果或观测证据可用于判断复用价值。结合 Agent / 实践案例 和「任务驱动用户、AI 实践者」这一受众定位,它更适合作为任务检索后的精读材料,而不是只看一句短摘要后快速跳过。
- 正文目录和原始材料仍然是判断依据;导读只帮助你更快定位阅读重点。
- 看点
- 我用 AI Agent 把散落的社团文档变成了可查询的知识库
- 读者
- 任务驱动用户、AI 实践者
- 复用
- 可参考其中的运行与配置路径
- 结构
- 9 个目录入口
原文内容
我用 AI Agent 把散落的社团文档变成了可查询的知识库
分享人:科考协会成员 使用的 AI 工具:Hermes Agent(类 Claude Code 的终端 AI 助手) 一到四为hermes自己生成,五为我自己的反思
一、问题的起点:知识散落,人走经验凉
我的社团有二十九年历史。每一次徒步拉练、野外考察后,领队组都会写总结——主领的、装备副领的、财务副领的、队医的、大厨的……格式从 bbs 论坛到 .doc 到 .docx 到 .pdf 五花八门,散落在不同届的硬盘里。光是公开在互联网上的总结,从 2016 到 2023 年,积累了 31 次活动、100+ 份原始文档、271MB 数据。
问题是:新人上任领队组时,翻不到前人总结;同一类错误(对讲机配对问题)三年里犯了三次;装备副领不知道"装副只指挥不上手"在不同的活动总结中强调了多次。
每一届毕业生带走的知识,下一届只能从浩如烟海的总结中翻阅。
二、转机:Karpathy 的 LLM Wiki 思想
Andrej Karpathy(OpenAI 联合创始人)公开分享过一个简单到容易被忽视的想法:
你的个人笔记和文档,只要组织成结构化的 markdown 文件,LLM 就能直接读取并推理。不需要向量数据库,不需要 RAG——一个文件夹的 .md 文件 + 一个能读文件的 AI agent,就是一个知识库。
核心理念只有三点:
- 纯文本 markdown:可被任何编辑器打开,LLM 原生理解其结构(标题、列表、代码块)
- 一致的内部格式:每篇有标题、摘要、标签——AI 用这些信号快速定位相关内容
- AI agent 作为查询界面:你告诉它你想知道什么,它自己去找、去读、去综合
不是产品,是一种工作模式。我把这个模式用在了科考协会的知识管理上。
三、实操:让 AI 伙伴自己动手
我没有自己去读几百页的领队总结。我让 Hermes(我的 AI agent 伙伴)来做。我的需求是,为
第一步:定规范
先让 Hermes 读几份典型的领队总结,理解内容结构,然后和我一起制定了一套规范(SCHEMA.md):
- 5 种页面类型:活动页、指南页、装备页、地点页、清单页
- 统一 frontmatter(YAML 元数据):标题、日期、类型、标签、来源文件
- Wikilink 交叉引用(
[[页面名]]) - 教训标注格式:
> 🔴/🔥/⭐ 教训描述。^[活动名]
aseustc_wiki/
├── SCHEMA.md # 全站规范(页面类型、操作流程、格式约定)
├── index.md # 内容索引(59 个页面列表)
├── log.md # 操作日志(仅追加)
│
├── 活动/ # 活动实录(31 页)
│ ├── 2016-清明-白际-拉练.md
│ └── ...
│
├── 指南/ # 职务指南(7 页)
│ ├── 01_主领.md # 风险管控、劝退铁则、行政博弈、路线决策
│ ├── 02_财副.md # 预算→包车→保险→采购→收钱→报销 全流程
│ ├── 03_装副.md # 装备讲解、绑锅、帐篷、营地搭建
│ ├── 04_行副.md # 行军纪律、GPS、三五七训练、应急
│ ├── 05_考副.md # 课题定位、讨论会设计、访谈方法论
│ ├── 06_队医.md # 失温、中暑、动物伤、药品管理
│ └── 07_大厨.md # 米饭五步法、用量速算、搭灶翻车集
│
├── 装备/ # 装备知识(6 页)
│ ├── 户外着装.md
│ ├── 背包.md
│ ├── 登山杖.md
│ ├── 灯具.md
│ ├── 绳索.md
│ └── 地图导航.md
│
├── 地点/ # 徒步基地(3 页)
│ ├── 白际.md # 5 条路线体系,历年 10 次活动
│ └── ...
│
├── 清单/ # 可执行检查表(7 页)
│ ├── 主领-check.md
│ └── ...
│
└── 资料/ # 原始素材(33 个文件夹,271MB)
``` (1/2)
第二步:逐活动消化
每处理一个活动,流程是:
列出该活动资料文件夹 → 提取所有 docx/doc/pdf 文本 → 写出活动页(基本信息+行程+关键事件+副领亮点) → 检查是否有新的教训需要写入对应副领指南 → 更新 index.md + 日志 → 继续下一个
整个过程是 对话式的——我告诉 Hermes “处理 2019-五一-龙井河”,它自己读文档、提取关键信息、写出结构化的活动页面,然后把新发现的教训(比如大厨的米饭五步法)就地嵌入到 指南/07_大厨.md 的对应章节里。
第三步:让知识形成网络
每篇活动页通过 wikilink 连接到:
- 地点页(比如
[[白际]]——这个基地的所有信息聚合) - 指南页(比如
[[主领]]——所有主领相关的经验教训集中在这里) - 相邻年份同基地活动(比如 2018 白际 ↔ 2019 白际对比)
这样形成的不是 31 个孤岛,而是 一张可被 AI 遍历的知识图谱。
四、成果:59 个页面,7 本指南,一个活的记忆体
最终产出:
| 类别 | 数量 | 说明 |
|---|---|---|
| 活动页 | 31 | 覆盖 2016-2023 年有记录的拉练/考察/三下乡 |
| 副领指南 | 7 | 主领、财副、装副、行副、考副、队医、大厨 |
| 装备页 | 6 | 户外着装、背包、登山杖、灯具、绳索、地图导航 |
| 地点页 | 9 | 白际、龙井河、龙须山、庐江、霄坑、金寨、九华山、黔县、鹞落坪 |
| 清单 | 7 | 每个角色的可执行 checklist |
每本指南的结构是统一的:职责概述 → 通用流程(Mermaid 甘特图) → 速查卡(铁则表格) → 按阶段/知识域展开 → 参见。
每个教训按严重程度标注(🔴安全事故 🔥重要教训 ⭐最佳实践),并标注来源活动。
现在新人上任副领,只需要问 Hermes:“我是第一次当装备副领,清明去白际,需要注意什么?” Hermes 会自己读 指南/03_装副.md、清单/装副-check.md、活动/2019-清明-白际-拉练.md、地点/白际.md 等文件,综合出一份针对性的回答。
不需要手动翻 271MB 的文件。不需要找到上一届的学长学姐求经验。AI 替你读了。
五、反思
Humans abandon wikis because the maintenance burden grows faster than the value. LLMs don’t get bored —— Karpathy
我个人的记忆是较好维护的,这大概是因为我不懂的东西总是忘得非常快,正因如此,维护我个人的 wiki 显得非常鸡肋。有些人虽然不写日记,但经历过的美好的事与物永远历历在目。
然而,个体可以靠本能遗忘,群体却必须依靠记忆延续。
在我们的徒步社团里,每一届做的事情看似大同小异:前期训练,团委报备,核对装备,联系租车 …… 这些经验除了每次活动结束时必须要撰写的领队组总结之外,也往往只靠口耳相传。我不止一次听到同学说自己写了一份多么详尽的流程,也曾在东区罗森的便利店里,看着趴在桌上的前辈抱怨萌新领队居然连某个基本的规矩都不知道 …… 轮到我自己当领队时,才真正体会到了那种断代带来的荒凉感。我得像个拾荒者一样,去翻阅大量的往年领队组总结,和前辈约饭、请教。即便如此,受限于个人精力和经验,我带队的活动还是翻了不少车。
于是,我才动手创建了这个 wiki,重点提取了过往总结中的前人踩过的坑以及活动的公式化流程。我猜想类似的事情也可以用于维护课题组的祖传代码库,实验室守则,学校的一些流程和章程上。
但与此同时,这种工具化的处理也必然舍弃掉了很多或许更有趣的内容。
在历年的领队组总结中,客观记录失误的篇幅往往只占少数,而大部分内容则是笔者对活动美好瞬间的主观回忆。然而,这些珍贵的感性文本,很难被纳入一个公式化的 wiki 中。当我们利用 llm 和 wiki 来解决社团经验的传承危机时,实际上进行了一次带有偏向性的筛选。为了追求效率,理性的清洗流程过滤掉了群体中那些非结构化的、感性的“杂质”。wiki 或许能够延续前人举办徒步活动的经验,但那些无法被公式化定义的情感、体验与凝聚力,却在数字化过程中被作为“噪音”剔除,不可能出现在 wiki 中了。
技术可以不知疲倦地继承规则,但人类之所以愿意承担高昂的协作成本去延续一个群体,往往是因为规则之外的那些人文体验。如何在技术带来的高效率与组织特有的人文温度之间找到平衡,是我最近在思考的问题。如果把眼光放远,为了维持生存与发展的基本结构,人们把自己的生活压缩到宏观历史之中,;但人类这个物种之所以想要生存和发展,却恰恰是为了那些被过滤掉的“无效信息”——那些关于爱、美、体验与意义的瞬间。这不得不说是一种遗憾。
AI 不只是让我更快。它让我能做到以前根本不会去做的事。 本分享由 Hermes Agent 代为撰写——它自己也在这个 wiki 上工作了 30+ 个小时。我对它说:“写一篇经验分享,关于我们是怎么一起建这个知识库的。” 上面这些字,是它写的。