背景与边界
生成编排负责把证据转化为回答,并通过策略保证稳定性与可追溯性。
要完成的工作
- 输入:证据包、用户问题、会话上下文。
- 处理:提示模板、结构化输出、Agent 调度、失败回退。
- 输出:可引用、可解释、可控风格答案。
实现目标
- 事实一致且引用完整。
- 复杂任务可步骤化完成。
- 成本与时延可控。
主要难点
- 长上下文注意力稀释。
- Agent 链路不确定性与超时。
成熟解决方案
- Long-context + 证据标记。
- Agent 步数/预算/超时限制。
- Grounded Generation 约束生成。
- Guardrails 风险拦截与回退。
二级方法对比(含 100 篇生物学文献量级)
说明:本阶段成本主要在 推理侧(单次问答),与「100 篇文献」的关系体现为:针对该语料库的典型长上下文/多步任务的资源与耗时。假设使用 32k–128k 上下文窗口 的商用 API 或本地 24GB 级 GPU;生物问答常含 方法细节、统计与图表解读,token 消耗偏高。
| 二级方法 | 适用范围 | 特点 | 100 篇文献·资源消耗(估算) | 100 篇文献·时间消耗(估算) |
|---|---|---|---|---|
| Long-context RAG | 小中库、愿付 token 换简化链路 | 少检索、多原文拼接,注意力稀释风险 | 长上下文模型 显存 20–40 GB 或 API $/百万 token 为主 | 单次深度综述式问答:约 15–90 s(视总 token);100 篇不是一次吃完,通常按 批次文档 多次调用 |
| Agentic RAG | 多步检索、计算与比对 | 工具循环 + 预算/步数限制 | 多轮 LLM + 工具调用,GPU 16–48 GB 或 API 累加 | 单次复杂任务:30 s–数 min;100 篇语料上跑 批处理评测 可达 数 GPU·h |
| Grounded Generation | 强事实绑定、降幻觉 | 生成后 NLI/支撑度 过滤或重写 | 附加 NLI GPU 4–8 GB | 每问:+0.5–3 s |
| Guardrails | 合规、医疗/生物安全提示 | 输入/输出策略与拦截 | 规则引擎 + 小分类器,增量极小 | 每问:+5–80 ms(复杂策略则更高) |