背景与边界
重排(Rerank)与组装决定进入生成(Generation)上下文的证据质量,直接影响答案准确性。
要完成的工作
- 输入:多路召回候选集。
- 处理:重排、去重、冲突消解、上下文压缩、引用组装。
- 输出:Top-N 证据包。
实现目标
- 提升事实正确率与引用命中率。
- 控制上下文 token 成本。
主要难点
- 精排模型成本与吞吐的平衡。
- 排序相关性与覆盖度冲突。
成熟解决方案
- 两阶段排序(first-pass + 精排)。
- MMR 多样性组装。
- 上下文压缩(Context Compression)。
- 引用组装(Citation Packing)。
二级方法对比(含 100 篇生物学文献量级)
假设:语料为 100 篇生物学 PDF 建库后的 候选 chunk 池(规模同前);重排/压缩/引用组装既可离线跑 固定评测集(如 200–500 条生物问答),也可按「单次用户提问」看在线增量。硬件参考 A10 24GB。下表「时间」在离线场景指 对一批问答或全库段落做一次批处理 的量级。
| 二级方法 | 适用范围 | 特点 | 100 篇文献·资源消耗(估算) | 100 篇文献·时间消耗(估算) |
|---|---|---|---|---|
| Retrieval/Rerank-centric | 高准搜索问答、证据排序敏感 | 双塔召回 + Cross-encoder 精排,精度优先 | Cross-encoder 推理 GPU 8–16 GB;候选池越大越吃算力 | 离线:对 5k–20k (q,chunk) 对评测 约 0.5–3 GPU·h;在线:每问 +80–400 ms |
| Context Compression | 长证据、多段拼接 | 在 token 预算下压证据,控成本与噪声 | 压缩/抽取模型 GPU 8–14 GB(若用小模型可更低) | 离线:对 100 条长上下文场景 约 0.5–2 GPU·h;在线:每问 +200–800 ms |
| Citation Packing | 合规、可追溯、审计 | claim 与最小证据 span 对齐 | NLI/对齐模型可选 GPU 4–8 GB | 在线:每问 +100–600 ms(与 claim 条数相关) |