RAG-05.在线治理框架概述

背景与边界

在线治理是从“能跑”到“稳定运营”的关键，覆盖新鲜度、成本、SLA 与风险控制。

说明：在线治理的「100 篇文献」既可理解为 一次性全量接入/重放，也可理解为 长期服务该语料库 的增量与运维成本。下表区分 离线批处理 与 在线稳态。

二级方法	适用范围	特点	100 篇文献·资源消耗（估算）	100 篇文献·时间消耗（估算）
Streaming/Online	预印本更新快、方法勘误多	增量管道、幂等与可见性	消息队列 + Worker CPU 集群；嵌入环节仍要 GPU 8–16 GB	全量重放 100 篇变更事件：约 1–5 h（视解析/嵌入是否复用）；端到端延迟（变更到可检索）常秒–分钟级 SLA
Caching/Cost-aware	高并发、重复问法多	语义/检索/生成多级缓存与预算	Redis 等 4–32 GB（视 QPS 与 TTL）；省 GPU 推理	命中率稳定后单问 p95 可降 30%–70%；与 100 篇无固定线性关系，取决于访问分布
Fallback/SLA	高峰、故障仍要可用	超时熔断与降级链	与主链相比增量可忽略（配置与旁路）	降级切换毫秒–百毫秒；全库问答质量可能下降需监控
Feedback Learning	持续运营、收集点踩/纠错	日志挖掘 → hard negative / 微调	离线训练 GPU 16–24 GB；存储日志视留存期	一轮从 100 篇相关会话构造样本并微调：约 2–12 GPU·h（高度依赖流程自动化）