RAG-03.重排组装框架概述

发表于 2026-03-26 | 分类于开发

一级框架 03 重排组装：候选证据精排、去噪与上下文构建的关键机制。

背景与边界

重排（Rerank）与组装决定进入生成（Generation）上下文的证据质量，直接影响答案准确性。

要完成的工作

输入：多路召回候选集。
处理：重排、去重、冲突消解、上下文压缩、引用组装。
输出：Top-N 证据包。

实现目标

提升事实正确率与引用命中率。
控制上下文 token 成本。

主要难点

精排模型成本与吞吐的平衡。
排序相关性与覆盖度冲突。

成熟解决方案

两阶段排序（first-pass + 精排）。
MMR 多样性组装。
上下文压缩（Context Compression）。
引用组装（Citation Packing）。

二级方法对比（含 100 篇生物学文献量级）

假设：语料为 100 篇生物学 PDF 建库后的 候选 chunk 池（规模同前）；重排/压缩/引用组装既可离线跑 固定评测集（如 200–500 条生物问答），也可按「单次用户提问」看在线增量。硬件参考 A10 24GB。下表「时间」在离线场景指 对一批问答或全库段落做一次批处理 的量级。

二级方法	适用范围	特点	100 篇文献·资源消耗（估算）	100 篇文献·时间消耗（估算）
Retrieval/Rerank-centric	高准搜索问答、证据排序敏感	双塔召回 + Cross-encoder 精排，精度优先	Cross-encoder 推理 GPU 8–16 GB；候选池越大越吃算力	离线：对 5k–20k (q,chunk) 对评测约 0.5–3 GPU·h；在线：每问 +80–400 ms
Context Compression	长证据、多段拼接	在 token 预算下压证据，控成本与噪声	压缩/抽取模型 GPU 8–14 GB（若用小模型可更低）	离线：对 100 条长上下文场景约 0.5–2 GPU·h；在线：每问 +200–800 ms
Citation Packing	合规、可追溯、审计	claim 与最小证据 span 对齐	NLI/对齐模型可选 GPU 4–8 GB	在线：每问 +100–600 ms（与 claim 条数相关）

与二级文档映射

-------------本文结束感谢您的阅读-------------