← 上级:RL-07.应用实战
本文提供可勾选清单;配套 Notebook 将清单落实为可执行检查与多 seed 评估。
一、配套 Notebook
📓 rl_project_checklist_walkthrough.ipynb
以 CartPole 平衡 POC 为例走查:MDP 文档 → KPI 对齐 → 多 seed PPO → 门禁判定 → JSON 实验记录。
二、各案例 Notebook 与交付物对照
| 案例 | Notebook | 核心交付 | 上线前必过门禁 |
|---|---|---|---|
| AGV 平衡 POC | cartpole_control_baseline.ipynb | PPO 曲线、eval>450 | 多 seed、对比随机 |
| 5 槽位推荐 | bandit_news_recommendation.ipynb | Regret 曲线 | UCB 优于贪心、5% A/B |
| 集群调度 | bioinfo_cluster_scheduling.ipynb | 等待时间 vs FIFO | shadow p99 改善 |
| Sim2Real | sim2real_pendulum_dr.ipynb | DR 缩小 gap | 真机/HIL 限速试跑 |
| Checklist 走查 | rl_project_checklist_walkthrough.ipynb | JSON 实验记录 | gate_passed |
三、立项五问(必答)
- MDP 闭环:$S,A,R,\gamma$ 可写进文档且与代码一致?
- 奖励 = KPI:是否列出 reward hacking 反例?
- 仿真/日志:能否 cheap 采样(sim / bandit / trace)?
- 非平稳:重训频率与监控指标?
- 评估 + A/B:离线指标与在线 shadow 方案?
四、建模文档模板
| 章节 | 内容 |
|---|---|
| 状态 | 字段、归一化、延迟 |
| 动作 | 离散/连续、约束、非法动作过滤 |
| 奖励 | 公式、塑形、与 GMV/SLA 映射 |
| Episode | 起止、truncated 处理 |
| 反例 | 刷分、逃逸、安全隐患 |
五、开发阶段交付
| 阶段 | 交付 | 参考 |
|---|---|---|
| Baseline | 规则/SB3 曲线 | RL-06-SB3 |
| 自研 v1 | 训练循环 + 日志 | RL-04 |
| 调参 | config.yaml | RL-04-06-超参与调优 |
| 复现 | seed + requirements | RL-06-05-实验记录与复现 |
六、上线门禁
- ≥3 seed,关键指标 mean ± std
- 显著优于 baseline(统计或业务阈值)
- 影子模式 / 小流量 A/B
- 回滚开关与告警
- 安全/合规(机器人、金融等)
七、监控
| 指标 | 说明 |
|---|---|
| 回报代理 | 与训练 reward 对齐的线上可算指标 |
| 动作分布 KL | 检测策略漂移 |
| SLA / p99 | 调度、推荐延迟类 |
| 探索率 / 熵 | Bandit/RL 非平稳时再训触发 |
八、工程链路

九、小结
- 每个实战案例均有 ipynb + 难点方案表;Checklist Notebook 串联 POC 流程。
- 索引:RL-00.系列概述