RL-06-02-经典基准环境

← 上级:RL-06.评估环境与工具链

选环境 = 选 观测维度、动作类型、奖励密度、难度曲线


一、入门(Classic Control)

环境 obs act 奖励 推荐算法
CartPole-v1 4 维 Box Discrete(2) 稠密 +1 DQN, PPO
MountainCar-v0 2 维 Discrete(3) 稀疏 Q-Learning, PPO + 塑形
Acrobot-v1 6 维 Discrete(3) 稀疏 -1/步 PPO
LunarLander-v2 8 维 Discrete(4) 或 Box(2) 混合 PPO, DQN

CartPole 目标:连续 500 步平衡;RL-07-01-实战-CartPole到MuJoCo 首站。


二、表格友好

环境 说明
FrozenLake-v1 离散状态,Q 表
Taxi-v3 离散,500 状态
CliffWalking SARSA vs Q-Learning 经典

三、Atari

说明
观测 210×160 RGB → 84×84 灰度 ×4 帧
动作 离散(如 4~18)
算法 DQN 及变体
预处理 frame skip=4, max-pool, reward clip

ALE/Breakout-v5 等需 ROM 许可。


四、MuJoCo 连续控制

环境 难度
HalfCheetah-v4
Walker2d-v4 中高
Ant-v4
Humanoid-v4 很高

算法:SAC、TD3、PPO。动作 Box 连续。


五、选型速查

1
2
3
4
离散 + 低维 → Q-Learning / DQN / PPO
离散 + 图像 → DQN / PPO(CNN)
连续 → PPO / SAC / TD3
教学 → FrozenLake, CartPole

六、小结

  • 由易到难:CartPole → LunarLander → MuJoCo / Atari
  • 下一篇:评估指标
-------------本文结束感谢您的阅读-------------