RAG-00.方法概述

本文作为 02.开发-15.RAG 的入口:先看 一级工程框架,再进入 二级方法文档,最后查看完整方法覆盖清单。
术语约定采用“中文主 + 英文括注”,例如:召回(Retrieval)、重排(Rerank)、索引(Indexing)、切分(Chunking)、护栏(Guardrails)。

一、一级:RAG 整体工程框架

从落地视角,RAG 可拆为一条可迭代流水线;一级节点即各阶段必须拍板的工程关键点(顺序大致对应数据流,部分环节可并行或循环)。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
flowchart TB
subgraph L1["一级:工程关键节点"]
N1[1 数据接入与文档切分]
N2[2 索引与召回]
N3[3 重排与证据组装]
N4[4 生成与智能体编排]
N5[5 在线运营与成本治理]
N6[6 模块化架构与评估闭环]
end
N1 --> N2 --> N3 --> N4
N4 -.-> N6
N5 -.-> N2
N5 -.-> N4
N6 -.-> N1
  • 节点 5 与索引、生成横切:增量更新、缓存与预算约束会反向影响索引策略与调用路径。
  • 节点 6 横切全流程:模块化拆分与离线/在线评估驱动各节点迭代。

二、一级概述文档入口


二(附)、各一级框架:100 篇生物学文献量级总览(参考)

假设:约 100 篇生物学 PDF(期刊/预印本,约 10–15 页/篇,含图表与参考文献);离线批处理为主;硬件参考 单卡 NVIDIA A10 24GB + 32GB 系统内存。下表为端到端粗算,二级方法细分对比见各 框架概述(RAG-01~RAG-06)。

一级框架 对应概述文档 典型适用范围(生物学) 100 篇文献·资源消耗(粗算) 100 篇文献·时间消耗(粗算)
1 数据接入与文档切分 RAG-01 组学方法、动物模型、试剂与统计表述混杂 内存 16–32 GB;临时盘 10–25 GB(解析重);GPU 可选 解析+切分+质检:约 4–14 CPU·h(或 2–6 GPU·h 含加速)
2 索引与召回 RAG-02 从「基因名/通路」到「段落语义」的多粒度检索 向量/稀疏/图等多形态索引磁盘 约 5–30 GB(与是否 ColBERT/多模/图强相关);GPU 8–24 GB 建索引:约 1–12 GPU·h(跨度大,见 RAG-02 分表)
3 重排与证据组装 RAG-03 证据排序、长证据压缩、可审计引用 Cross-encoder/压缩模型 GPU 8–16 GB 离线评测一批问答:约 0.5–4 GPU·h;在线每问 +0.1–1 s
4 生成与智能体编排 RAG-04 方法解读、图表问答、合规表述 长上下文或 Agent API $ 或 GPU 20–48 GB 单次深度问答 15 s–数 min;非「一次吃掉 100 篇」
5 在线运营与成本治理 RAG-05 预印本更新、高并发课程/平台问答 缓存 4–32 GB;训练闭环 16–24 GB GPU 增量管线 秒–分钟级新鲜度;反馈微调 数 GPU·h/轮
6 模块化架构与评估闭环 RAG-06 团队迭代、门禁与 A/B 评测集 < 2 GB;实验日志按流量 回归跑分 0.5–4 GPU·h/次;A/B 数天–两周

三、二级:各工程节点下的方法/算法单篇

下表为 一级(工程节点)→ 二级(本目录方法篇) 主归属;少数篇目跨多节点时在「说明」中注明。

一级节点 二级方法篇(链接) 说明
1 数据接入与文档切分 Chunking-centric RAGDocument ParsingHierarchical Chunking 切分策略决定召回上限,解析质量决定切分质量
2 索引与召回 Naive RAGAdvanced RAGHybrid RAGBoolean RetrievalSparse VectorColBERTGraph RAGMultimodal RAGQuery RewriteRetrieval RouterFusion 索引结构与召回路径强耦合,通常联合设计与调参
3 重排与证据组装 Retrieval/Rerank-centricContext CompressionCitation Packing 精排、融合、压缩与引用组装
4 生成与智能体编排 Long-context RAGAgentic RAGGrounded GenerationGuardrails 长上下文、Agent 编排、证据绑定与安全护栏
5 在线运营与成本治理 Streaming/Online RAGCaching/Cost-awareFallback/SLAFeedback Learning 增量索引、新鲜度、缓存降本、SLA 与反馈闭环
6 模块化架构与评估闭环 Modular RAGEvaluation BenchmarkAB Experiment 模块解耦、评测基准与线上实验门禁

四、二级方法覆盖清单

按一级框架汇总后的二级方法覆盖如下:

  • 01 数据切分Chunking-centricDocument-ParsingHierarchical-Chunking
  • 02 索引召回NaiveAdvancedHybridBooleanSparseColBERTGraphMultimodalQuery-RewriteRetrieval-RouterFusion
  • 03 重排组装Retrieval-Rerank-centricContext-CompressionCitation-Packing
  • 04 生成编排Long-contextAgenticGrounded-GenerationGuardrails
  • 05 在线治理Streaming-OnlineCaching-Cost-awareFallback-SLAFeedback-Learning
  • 06 模块评估ModularEvaluation-BenchmarkAB-Experiment

五、15 类方法对比(按「方法类型」横向选型)

方法 核心思想 优点 局限 资源/时延 适用场景
Naive RAG 一次检索+一次生成 实现最简单 漏召回、上下文噪声 低资源、低时延 FAQ、内部知识问答起步
Advanced RAG 查询改写、多路检索、重排 质量明显提升 链路变长、调参多 中资源、中时延 准确率要求更高的企业问答
Modular RAG 将检索/重排/生成模块化 易替换、易演进 系统复杂度上升 中资源 中大型平台工程化
Graph RAG 用实体关系图增强推理 多跳关系问题强 建图成本高 中高资源、高离线成本 研报分析、法条/专利关系
Agentic RAG Agent 决策“何时检索何时调用工具” 复杂任务鲁棒 失控风险、成本高 高资源、高时延 任务编排、分析助手
Multimodal RAG 图文音视频统一检索与生成 非文本知识可用 表征与索引难 高资源 质检、医疗影像、图纸问答
Long-context RAG 依赖超长上下文减少检索链路 系统更直接 token 成本高,易分心 高推理成本 小规模高价值文档集
Hybrid RAG BM25 + Dense + Rerank 组合 召回更稳 组件多、维护复杂 中高资源 通用企业检索平台
Chunking-centric RAG 以切分策略驱动上限 可显著提召回质量 需按领域定制 低中资源 任意 RAG 的基础能力
Retrieval/Rerank-centric 重点优化召回与排序 可控提升最明显 依赖标注与评估 中资源 搜索问答、客服质检
Sparse Vector Retrieval 用稀疏词项权重表达语义(可解释) 召回可解释、部署轻 语义泛化弱于 dense 低中资源、低时延 术语密集、合规检索
Boolean Retrieval AND/OR/NOT 精确过滤 可控性极强 召回覆盖受限 低资源、极低时延 规则检索、预筛选
ColBERT Retrieval late interaction token 级匹配 精度高于单向量 dense 索引和算力开销更大 中高资源、中时延 高精度语义检索
Streaming/Online RAG 增量更新索引与在线学习 新鲜度高 一致性与回滚难 中高运维成本 新闻、行情、运维告警
Caching/Cost-aware RAG 多级缓存+预算控制 降本增效明显 命中策略复杂 低推理成本 高并发生产系统

六、怎么选:实战侧重点

  1. 先确定目标函数:准确率优先、时延优先、成本优先,三者通常不可同时最优。
  2. 起步建议Naive -> Hybrid/Advanced -> 模块化,避免一开始就 Agentic。
  3. 高价值垂域:关系复杂选 Graph,非文本资产多选 Multimodal。
  4. 线上落地:必须配 评估 + 缓存/预算 + 监控,否则成本和质量都会漂移。

七、本目录文章索引(按文件名)

-------------本文结束感谢您的阅读-------------