RL-07-05-实战-项目Checklist

发表于 2026-05-28 | 分类于开发，强化学习

RL 项目立项到上线 Checklist；CartPole POC 走查 Notebook 与各案例交付物对照。

← 上级：RL-07.应用实战

本文提供可勾选清单；配套 Notebook 将清单落实为可执行检查与多 seed 评估。

一、配套 Notebook

📓 rl_project_checklist_walkthrough.ipynb

以 CartPole 平衡 POC 为例走查：MDP 文档 → KPI 对齐 → 多 seed PPO → 门禁判定 → JSON 实验记录。

二、各案例 Notebook 与交付物对照

案例	Notebook	核心交付	上线前必过门禁
AGV 平衡 POC	cartpole_control_baseline.ipynb	PPO 曲线、eval>450	多 seed、对比随机
5 槽位推荐	bandit_news_recommendation.ipynb	Regret 曲线	UCB 优于贪心、5% A/B
集群调度	bioinfo_cluster_scheduling.ipynb	等待时间 vs FIFO	shadow p99 改善
Sim2Real	sim2real_pendulum_dr.ipynb	DR 缩小 gap	真机/HIL 限速试跑
Checklist 走查	rl_project_checklist_walkthrough.ipynb	JSON 实验记录	gate_passed

三、立项五问（必答）

MDP 闭环：$S,A,R,\gamma$ 可写进文档且与代码一致？
奖励 = KPI：是否列出 reward hacking 反例？
仿真/日志：能否 cheap 采样（sim / bandit / trace）？
非平稳：重训频率与监控指标？
评估 + A/B：离线指标与在线 shadow 方案？

四、建模文档模板

章节	内容
状态	字段、归一化、延迟
动作	离散/连续、约束、非法动作过滤
奖励	公式、塑形、与 GMV/SLA 映射
Episode	起止、truncated 处理
反例	刷分、逃逸、安全隐患

五、开发阶段交付

阶段	交付	参考
Baseline	规则/SB3 曲线	RL-06-SB3
自研 v1	训练循环 + 日志	RL-04
调参	config.yaml	RL-04-06-超参与调优
复现	seed + requirements	RL-06-05-实验记录与复现

六、上线门禁

≥3 seed，关键指标 mean ± std
显著优于 baseline（统计或业务阈值）
影子模式 / 小流量 A/B
回滚开关与告警
安全/合规（机器人、金融等）

七、监控

指标	说明
回报代理	与训练 reward 对齐的线上可算指标
动作分布 KL	检测策略漂移
SLA / p99	调度、推荐延迟类
探索率 / 熵	Bandit/RL 非平稳时再训触发

八、工程链路

RL 项目工程链路

九、小结

每个实战案例均有 ipynb + 难点方案表；Checklist Notebook 串联 POC 流程。
索引：RL-00.系列概述

-------------本文结束感谢您的阅读-------------