本文作为 02.开发-15.RAG 的入口:先看 一级工程框架,再进入 二级方法文档,最后查看完整方法覆盖清单。
术语约定采用“中文主 + 英文括注”,例如:召回(Retrieval)、重排(Rerank)、索引(Indexing)、切分(Chunking)、护栏(Guardrails)。
一、一级:RAG 整体工程框架
从落地视角,RAG 可拆为一条可迭代流水线;一级节点即各阶段必须拍板的工程关键点(顺序大致对应数据流,部分环节可并行或循环)。
1 | flowchart TB |
- 节点 5 与索引、生成横切:增量更新、缓存与预算约束会反向影响索引策略与调用路径。
- 节点 6 横切全流程:模块化拆分与离线/在线评估驱动各节点迭代。
二、一级概述文档入口
二(附)、各一级框架:100 篇生物学文献量级总览(参考)
假设:约 100 篇生物学 PDF(期刊/预印本,约 10–15 页/篇,含图表与参考文献);离线批处理为主;硬件参考 单卡 NVIDIA A10 24GB + 32GB 系统内存。下表为端到端粗算,二级方法细分对比见各 框架概述(RAG-01~RAG-06)。
| 一级框架 | 对应概述文档 | 典型适用范围(生物学) | 100 篇文献·资源消耗(粗算) | 100 篇文献·时间消耗(粗算) |
|---|---|---|---|---|
| 1 数据接入与文档切分 | RAG-01 | 组学方法、动物模型、试剂与统计表述混杂 | 内存 16–32 GB;临时盘 10–25 GB(解析重);GPU 可选 | 解析+切分+质检:约 4–14 CPU·h(或 2–6 GPU·h 含加速) |
| 2 索引与召回 | RAG-02 | 从「基因名/通路」到「段落语义」的多粒度检索 | 向量/稀疏/图等多形态索引磁盘 约 5–30 GB(与是否 ColBERT/多模/图强相关);GPU 8–24 GB | 建索引:约 1–12 GPU·h(跨度大,见 RAG-02 分表) |
| 3 重排与证据组装 | RAG-03 | 证据排序、长证据压缩、可审计引用 | Cross-encoder/压缩模型 GPU 8–16 GB | 离线评测一批问答:约 0.5–4 GPU·h;在线每问 +0.1–1 s |
| 4 生成与智能体编排 | RAG-04 | 方法解读、图表问答、合规表述 | 长上下文或 Agent API $ 或 GPU 20–48 GB | 单次深度问答 15 s–数 min;非「一次吃掉 100 篇」 |
| 5 在线运营与成本治理 | RAG-05 | 预印本更新、高并发课程/平台问答 | 缓存 4–32 GB;训练闭环 16–24 GB GPU | 增量管线 秒–分钟级新鲜度;反馈微调 数 GPU·h/轮 |
| 6 模块化架构与评估闭环 | RAG-06 | 团队迭代、门禁与 A/B | 评测集 < 2 GB;实验日志按流量 | 回归跑分 0.5–4 GPU·h/次;A/B 数天–两周 |
三、二级:各工程节点下的方法/算法单篇
下表为 一级(工程节点)→ 二级(本目录方法篇) 主归属;少数篇目跨多节点时在「说明」中注明。
| 一级节点 | 二级方法篇(链接) | 说明 |
|---|---|---|
| 1 数据接入与文档切分 | Chunking-centric RAG、Document Parsing、Hierarchical Chunking | 切分策略决定召回上限,解析质量决定切分质量 |
| 2 索引与召回 | Naive RAG、Advanced RAG、Hybrid RAG、Boolean Retrieval、Sparse Vector、ColBERT、Graph RAG、Multimodal RAG、Query Rewrite、Retrieval Router、Fusion | 索引结构与召回路径强耦合,通常联合设计与调参 |
| 3 重排与证据组装 | Retrieval/Rerank-centric、Context Compression、Citation Packing | 精排、融合、压缩与引用组装 |
| 4 生成与智能体编排 | Long-context RAG、Agentic RAG、Grounded Generation、Guardrails | 长上下文、Agent 编排、证据绑定与安全护栏 |
| 5 在线运营与成本治理 | Streaming/Online RAG、Caching/Cost-aware、Fallback/SLA、Feedback Learning | 增量索引、新鲜度、缓存降本、SLA 与反馈闭环 |
| 6 模块化架构与评估闭环 | Modular RAG、Evaluation Benchmark、AB Experiment | 模块解耦、评测基准与线上实验门禁 |
四、二级方法覆盖清单
按一级框架汇总后的二级方法覆盖如下:
- 01 数据切分:
Chunking-centric、Document-Parsing、Hierarchical-Chunking。 - 02 索引召回:
Naive、Advanced、Hybrid、Boolean、Sparse、ColBERT、Graph、Multimodal、Query-Rewrite、Retrieval-Router、Fusion。 - 03 重排组装:
Retrieval-Rerank-centric、Context-Compression、Citation-Packing。 - 04 生成编排:
Long-context、Agentic、Grounded-Generation、Guardrails。 - 05 在线治理:
Streaming-Online、Caching-Cost-aware、Fallback-SLA、Feedback-Learning。 - 06 模块评估:
Modular、Evaluation-Benchmark、AB-Experiment。
五、15 类方法对比(按「方法类型」横向选型)
| 方法 | 核心思想 | 优点 | 局限 | 资源/时延 | 适用场景 |
|---|---|---|---|---|---|
| Naive RAG | 一次检索+一次生成 | 实现最简单 | 漏召回、上下文噪声 | 低资源、低时延 | FAQ、内部知识问答起步 |
| Advanced RAG | 查询改写、多路检索、重排 | 质量明显提升 | 链路变长、调参多 | 中资源、中时延 | 准确率要求更高的企业问答 |
| Modular RAG | 将检索/重排/生成模块化 | 易替换、易演进 | 系统复杂度上升 | 中资源 | 中大型平台工程化 |
| Graph RAG | 用实体关系图增强推理 | 多跳关系问题强 | 建图成本高 | 中高资源、高离线成本 | 研报分析、法条/专利关系 |
| Agentic RAG | Agent 决策“何时检索何时调用工具” | 复杂任务鲁棒 | 失控风险、成本高 | 高资源、高时延 | 任务编排、分析助手 |
| Multimodal RAG | 图文音视频统一检索与生成 | 非文本知识可用 | 表征与索引难 | 高资源 | 质检、医疗影像、图纸问答 |
| Long-context RAG | 依赖超长上下文减少检索链路 | 系统更直接 | token 成本高,易分心 | 高推理成本 | 小规模高价值文档集 |
| Hybrid RAG | BM25 + Dense + Rerank 组合 | 召回更稳 | 组件多、维护复杂 | 中高资源 | 通用企业检索平台 |
| Chunking-centric RAG | 以切分策略驱动上限 | 可显著提召回质量 | 需按领域定制 | 低中资源 | 任意 RAG 的基础能力 |
| Retrieval/Rerank-centric | 重点优化召回与排序 | 可控提升最明显 | 依赖标注与评估 | 中资源 | 搜索问答、客服质检 |
| Sparse Vector Retrieval | 用稀疏词项权重表达语义(可解释) | 召回可解释、部署轻 | 语义泛化弱于 dense | 低中资源、低时延 | 术语密集、合规检索 |
| Boolean Retrieval | AND/OR/NOT 精确过滤 | 可控性极强 | 召回覆盖受限 | 低资源、极低时延 | 规则检索、预筛选 |
| ColBERT Retrieval | late interaction token 级匹配 | 精度高于单向量 dense | 索引和算力开销更大 | 中高资源、中时延 | 高精度语义检索 |
| Streaming/Online RAG | 增量更新索引与在线学习 | 新鲜度高 | 一致性与回滚难 | 中高运维成本 | 新闻、行情、运维告警 |
| Caching/Cost-aware RAG | 多级缓存+预算控制 | 降本增效明显 | 命中策略复杂 | 低推理成本 | 高并发生产系统 |
六、怎么选:实战侧重点
- 先确定目标函数:准确率优先、时延优先、成本优先,三者通常不可同时最优。
- 起步建议:
Naive -> Hybrid/Advanced -> 模块化,避免一开始就 Agentic。 - 高价值垂域:关系复杂选 Graph,非文本资产多选 Multimodal。
- 线上落地:必须配 评估 + 缓存/预算 + 监控,否则成本和质量都会漂移。
七、本目录文章索引(按文件名)
- RAG-00.方法概述(本文)
- RAG-02索引召回-Naive-RAG
- RAG-02索引召回-Advanced-RAG
- RAG-06模块评估-Modular-RAG
- RAG-02索引召回-Graph-RAG
- RAG-04生成编排-Agentic-RAG
- RAG-02索引召回-Multimodal-RAG
- RAG-04生成编排-Long-Context-RAG
- RAG-02索引召回-Hybrid-RAG
- RAG-01数据切分-Chunking-centric-RAG
- RAG-03重排组装-Retrieval-Rerank-centric-RAG
- RAG-02索引召回-Sparse-Vector-Retrieval
- RAG-02索引召回-Boolean-Retrieval
- RAG-02索引召回-ColBERT-Retrieval
- RAG-05在线治理-Streaming-Online-RAG
- RAG-05在线治理-Caching-Cost-aware-RAG
- RAG-01数据切分-Document-Parsing-RAG
- RAG-01数据切分-Hierarchical-Chunking-RAG
- RAG-02索引召回-Query-Rewrite-RAG
- RAG-02索引召回-Retrieval-Router-RAG
- RAG-02索引召回-Fusion-RAG
- RAG-03重排组装-Context-Compression-RAG
- RAG-03重排组装-Citation-Packing-RAG
- RAG-04生成编排-Grounded-Generation-RAG
- RAG-04生成编排-Guardrails-RAG
- RAG-05在线治理-Fallback-SLA-RAG
- RAG-05在线治理-Feedback-Learning-RAG
- RAG-06模块评估-Evaluation-Benchmark-RAG
- RAG-06模块评估-AB-Experiment-RAG