← 上级:RL-06.评估环境与工具链
一、Stable-Baselines3(SB3)
1 | pip install stable-baselines3[extra] |
1 | from stable_baselines3 import PPO, DQN, SAC |
| 算法 | SB3 类 | 典型环境 |
|---|---|---|
| DQN | DQN |
离散、低维/Atari(CnnPolicy) |
| PPO | PPO |
通用 |
| A2C | A2C |
轻量 On-Policy |
| SAC | SAC |
连续 MuJoCo |
| TD3 | TD3 |
连续 |
二、Callback 与日志
1 | from stable_baselines3.common.callbacks import EvalCallback, CheckpointCallback |
tensorboard_log="./tb" 启用 TensorBoard。
三、CleanRL
单文件 PyTorch 实现,适合读源码对照 RL-04 自研实现。
GitHub: vwxyzjn/cleanrl
四、RLlib
Ray 生态,分布式采样与大规模超参搜索;入门成本高于 SB3。
五、选用建议
| 目标 | 工具 |
|---|---|
| 快速 baseline | SB3 |
| 学实现 | CleanRL → 本系列 RL-04 |
| 生产原型 | SB3 + 自研 env |
| 大规模 | RLlib |
六、小结
- SB3 = 验证自研代码是否合理的参照系。
- 下一篇:实验记录与复现