RAG-03.重排组装框架概述

背景与边界

重排(Rerank)与组装决定进入生成(Generation)上下文的证据质量,直接影响答案准确性。

要完成的工作

  • 输入:多路召回候选集。
  • 处理:重排、去重、冲突消解、上下文压缩、引用组装。
  • 输出:Top-N 证据包。

实现目标

  • 提升事实正确率与引用命中率。
  • 控制上下文 token 成本。

主要难点

  • 精排模型成本与吞吐的平衡。
  • 排序相关性与覆盖度冲突。

成熟解决方案

  • 两阶段排序(first-pass + 精排)。
  • MMR 多样性组装。
  • 上下文压缩(Context Compression)。
  • 引用组装(Citation Packing)。

二级方法对比(含 100 篇生物学文献量级)

假设:语料为 100 篇生物学 PDF 建库后的 候选 chunk 池(规模同前);重排/压缩/引用组装既可离线跑 固定评测集(如 200–500 条生物问答),也可按「单次用户提问」看在线增量。硬件参考 A10 24GB。下表「时间」在离线场景指 对一批问答或全库段落做一次批处理 的量级。

二级方法 适用范围 特点 100 篇文献·资源消耗(估算) 100 篇文献·时间消耗(估算)
Retrieval/Rerank-centric 高准搜索问答、证据排序敏感 双塔召回 + Cross-encoder 精排,精度优先 Cross-encoder 推理 GPU 8–16 GB;候选池越大越吃算力 离线:对 5k–20k (q,chunk) 对评测 约 0.5–3 GPU·h在线:每问 +80–400 ms
Context Compression 长证据、多段拼接 在 token 预算下压证据,控成本与噪声 压缩/抽取模型 GPU 8–14 GB(若用小模型可更低) 离线:对 100 条长上下文场景 约 0.5–2 GPU·h在线:每问 +200–800 ms
Citation Packing 合规、可追溯、审计 claim 与最小证据 span 对齐 NLI/对齐模型可选 GPU 4–8 GB 在线:每问 +100–600 ms(与 claim 条数相关)

与二级文档映射

-------------本文结束感谢您的阅读-------------