RAG-00.方法概述

本文作为 `02.开发-15.RAG` 的入口：先看一级工程框架，再进入二级方法文档，最后查看完整方法覆盖清单。
术语约定采用“中文主 + 英文括注”，例如：召回（Retrieval）、重排（Rerank）、索引（Indexing）、切分（Chunking）、护栏（Guardrails）。

一、一级：RAG 整体工程框架

从落地视角，RAG 可拆为一条可迭代流水线；一级节点即各阶段必须拍板的工程关键点（顺序大致对应数据流，部分环节可并行或循环）。

flowchart TB
  subgraph L1["一级：工程关键节点"]
    N1[1 数据接入与文档切分]
    N2[2 索引与召回]
    N3[3 重排与证据组装]
    N4[4 生成与智能体编排]
    N5[5 在线运营与成本治理]
    N6[6 模块化架构与评估闭环]
  end
  N1 --> N2 --> N3 --> N4
  N4 -.-> N6
  N5 -.-> N2
  N5 -.-> N4
  N6 -.-> N1

节点 5 与索引、生成横切：增量更新、缓存与预算约束会反向影响索引策略与调用路径。
节点 6 横切全流程：模块化拆分与离线/在线评估驱动各节点迭代。

二、一级概述文档入口

二（附）、各一级框架：100 篇生物学文献量级总览（参考）

假设：约 100 篇生物学 PDF（期刊/预印本，约 10–15 页/篇，含图表与参考文献）；离线批处理为主；硬件参考 单卡 NVIDIA A10 24GB + 32GB 系统内存。下表为端到端粗算，二级方法细分对比见各 框架概述（RAG-01～RAG-06）。

一级框架	对应概述文档	典型适用范围（生物学）	100 篇文献·资源消耗（粗算）	100 篇文献·时间消耗（粗算）
1 数据接入与文档切分	RAG-01	组学方法、动物模型、试剂与统计表述混杂	内存 16–32 GB；临时盘 10–25 GB（解析重）；GPU 可选	解析+切分+质检：约 4–14 CPU·h（或 2–6 GPU·h 含加速）
2 索引与召回	RAG-02	从「基因名/通路」到「段落语义」的多粒度检索	向量/稀疏/图等多形态索引磁盘约 5–30 GB（与是否 ColBERT/多模/图强相关）；GPU 8–24 GB	建索引：约 1–12 GPU·h（跨度大，见 RAG-02 分表）
3 重排与证据组装	RAG-03	证据排序、长证据压缩、可审计引用	Cross-encoder/压缩模型 GPU 8–16 GB	离线评测一批问答：约 0.5–4 GPU·h；在线每问 +0.1–1 s
4 生成与智能体编排	RAG-04	方法解读、图表问答、合规表述	长上下文或 Agent API $ 或 GPU 20–48 GB	单次深度问答 15 s–数 min；非「一次吃掉 100 篇」
5 在线运营与成本治理	RAG-05	预印本更新、高并发课程/平台问答	缓存 4–32 GB；训练闭环 16–24 GB GPU	增量管线秒–分钟级新鲜度；反馈微调数 GPU·h/轮
6 模块化架构与评估闭环	RAG-06	团队迭代、门禁与 A/B	评测集 < 2 GB；实验日志按流量	回归跑分 0.5–4 GPU·h/次；A/B 数天–两周

三、二级：各工程节点下的方法/算法单篇

下表为 一级（工程节点）→ 二级（本目录方法篇） 主归属；少数篇目跨多节点时在「说明」中注明。

一级节点	二级方法篇（链接）	说明
1 数据接入与文档切分	Chunking-centric RAG、Document Parsing、Hierarchical Chunking	切分策略决定召回上限，解析质量决定切分质量
2 索引与召回	Naive RAG、Advanced RAG、Hybrid RAG、Boolean Retrieval、Sparse Vector、ColBERT、Graph RAG、Multimodal RAG、Query Rewrite、Retrieval Router、Fusion	索引结构与召回路径强耦合，通常联合设计与调参
3 重排与证据组装	Retrieval/Rerank-centric、Context Compression、Citation Packing	精排、融合、压缩与引用组装
4 生成与智能体编排	Long-context RAG、Agentic RAG、Grounded Generation、Guardrails	长上下文、Agent 编排、证据绑定与安全护栏
5 在线运营与成本治理	Streaming/Online RAG、Caching/Cost-aware、Fallback/SLA、Feedback Learning	增量索引、新鲜度、缓存降本、SLA 与反馈闭环
6 模块化架构与评估闭环	Modular RAG、Evaluation Benchmark、AB Experiment	模块解耦、评测基准与线上实验门禁

四、二级方法覆盖清单

按一级框架汇总后的二级方法覆盖如下：

01 数据切分：Chunking-centric、Document-Parsing、Hierarchical-Chunking。
02 索引召回：Naive、Advanced、Hybrid、Boolean、Sparse、ColBERT、Graph、Multimodal、Query-Rewrite、Retrieval-Router、Fusion。
03 重排组装：Retrieval-Rerank-centric、Context-Compression、Citation-Packing。
04 生成编排：Long-context、Agentic、Grounded-Generation、Guardrails。
05 在线治理：Streaming-Online、Caching-Cost-aware、Fallback-SLA、Feedback-Learning。
06 模块评估：Modular、Evaluation-Benchmark、AB-Experiment。

五、15 类方法对比（按「方法类型」横向选型）

方法	核心思想	优点	局限	资源/时延	适用场景
Naive RAG	一次检索+一次生成	实现最简单	漏召回、上下文噪声	低资源、低时延	FAQ、内部知识问答起步
Advanced RAG	查询改写、多路检索、重排	质量明显提升	链路变长、调参多	中资源、中时延	准确率要求更高的企业问答
Modular RAG	将检索/重排/生成模块化	易替换、易演进	系统复杂度上升	中资源	中大型平台工程化
Graph RAG	用实体关系图增强推理	多跳关系问题强	建图成本高	中高资源、高离线成本	研报分析、法条/专利关系
Agentic RAG	Agent 决策“何时检索何时调用工具”	复杂任务鲁棒	失控风险、成本高	高资源、高时延	任务编排、分析助手
Multimodal RAG	图文音视频统一检索与生成	非文本知识可用	表征与索引难	高资源	质检、医疗影像、图纸问答
Long-context RAG	依赖超长上下文减少检索链路	系统更直接	token 成本高，易分心	高推理成本	小规模高价值文档集
Hybrid RAG	BM25 + Dense + Rerank 组合	召回更稳	组件多、维护复杂	中高资源	通用企业检索平台
Chunking-centric RAG	以切分策略驱动上限	可显著提召回质量	需按领域定制	低中资源	任意 RAG 的基础能力
Retrieval/Rerank-centric	重点优化召回与排序	可控提升最明显	依赖标注与评估	中资源	搜索问答、客服质检
Sparse Vector Retrieval	用稀疏词项权重表达语义（可解释）	召回可解释、部署轻	语义泛化弱于 dense	低中资源、低时延	术语密集、合规检索
Boolean Retrieval	AND/OR/NOT 精确过滤	可控性极强	召回覆盖受限	低资源、极低时延	规则检索、预筛选
ColBERT Retrieval	late interaction token 级匹配	精度高于单向量 dense	索引和算力开销更大	中高资源、中时延	高精度语义检索
Streaming/Online RAG	增量更新索引与在线学习	新鲜度高	一致性与回滚难	中高运维成本	新闻、行情、运维告警
Caching/Cost-aware RAG	多级缓存+预算控制	降本增效明显	命中策略复杂	低推理成本	高并发生产系统

六、怎么选：实战侧重点

先确定目标函数：准确率优先、时延优先、成本优先，三者通常不可同时最优。
起步建议：Naive -> Hybrid/Advanced -> 模块化，避免一开始就 Agentic。
高价值垂域：关系复杂选 Graph，非文本资产多选 Multimodal。
线上落地：必须配 评估 + 缓存/预算 + 监控，否则成本和质量都会漂移。