RAG-04.生成编排框架概述

背景与边界

生成编排负责把证据转化为回答,并通过策略保证稳定性与可追溯性。

要完成的工作

  • 输入:证据包、用户问题、会话上下文。
  • 处理:提示模板、结构化输出、Agent 调度、失败回退。
  • 输出:可引用、可解释、可控风格答案。

实现目标

  • 事实一致且引用完整。
  • 复杂任务可步骤化完成。
  • 成本与时延可控。

主要难点

  • 长上下文注意力稀释。
  • Agent 链路不确定性与超时。

成熟解决方案

  • Long-context + 证据标记。
  • Agent 步数/预算/超时限制。
  • Grounded Generation 约束生成。
  • Guardrails 风险拦截与回退。

二级方法对比(含 100 篇生物学文献量级)

说明:本阶段成本主要在 推理侧(单次问答),与「100 篇文献」的关系体现为:针对该语料库的典型长上下文/多步任务的资源与耗时。假设使用 32k–128k 上下文窗口 的商用 API 或本地 24GB 级 GPU;生物问答常含 方法细节、统计与图表解读,token 消耗偏高。

二级方法 适用范围 特点 100 篇文献·资源消耗(估算) 100 篇文献·时间消耗(估算)
Long-context RAG 小中库、愿付 token 换简化链路 少检索、多原文拼接,注意力稀释风险 长上下文模型 显存 20–40 GB 或 API $/百万 token 为主 单次深度综述式问答:约 15–90 s(视总 token);100 篇不是一次吃完,通常按 批次文档 多次调用
Agentic RAG 多步检索、计算与比对 工具循环 + 预算/步数限制 多轮 LLM + 工具调用,GPU 16–48 GB 或 API 累加 单次复杂任务30 s–数 min;100 篇语料上跑 批处理评测 可达 数 GPU·h
Grounded Generation 强事实绑定、降幻觉 生成后 NLI/支撑度 过滤或重写 附加 NLI GPU 4–8 GB 每问+0.5–3 s
Guardrails 合规、医疗/生物安全提示 输入/输出策略与拦截 规则引擎 + 小分类器,增量极小 每问+5–80 ms(复杂策略则更高)

与二级文档映射

-------------本文结束感谢您的阅读-------------