RL-03-14-算法-Model-Based简介

← 上级:RL-03.算法分类与选型 · 对照:Model-Free 各篇

Model-Free 方法(Q-Learning、DQN、PPO 等)不显式学习 $P(s’|s,a)$。Model-Based RL 则学习或利用环境模型 $\hat{P}, \hat{R}$,在模型内规划生成虚拟数据,往往样本效率更高,但受模型误差制约。

段末注释:基于模型的强化学习(Model-Based Reinforcement Learning)指显式学习环境动力学模型并用于决策的 RL 范式;后文简称 Model-Based


一、基本循环

1
2
3
真实交互 → 更新模型 $\hat{P}, \hat{R}$
→ 在模型中 rollout / 规划 → 改进策略
→ 再交互验证
优势 风险
少样本、可「想象」轨迹 模型错 → 策略在假环境过拟合
可解释、可安全检查 高维连续动力学难学准

二、经典:Dyna-Q

表格 Q-Learning + 少量真实步 + 模型模拟额外更新:每步真实交互后,用学到的模型生成 $n$ 条虚构转移继续 Q 更新。

完整算法、伪代码与 Dyna-Q+ 见专篇 RL-03-13-算法-Dyna-Q


三、MCTS + 学习(博弈)

蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)在已知或可模拟环境中展开决策树:

  1. Selection:按 UCB 等选叶节点
  2. Expansion:扩展子节点
  3. Simulation: rollout 估回报
  4. Backpropagation:回传更新统计

AlphaGo 类系统:策略网络(选边)+ 价值网络(估局面)+ MCTS(搜索),RL 与搜索结合,非纯 Model-Free。

段末注释:蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)通过树搜索与随机模拟评估动作;后文沿用 MCTS


四、学习动力学模型(Deep Model-Based)

方向 思路
World Models 学 VAE 压缩观测 + RNN 预测下一隐状态,Agent 在隐空间规划
PETS / MBPO 学概率动力学 ensemble,在模型中采样轨迹训策略
Dreamer 隐空间想象 rollout,直接优化 actor-critic
MuZero 学隐式模型 + MCTS,无真实环境模型也可规划

五、Model-Based vs Model-Free

Model-Free Model-Based
样本效率 通常较低 通常较高
实现复杂度 相对低(PPO/SAC 成熟) 模型 + 规划,工程量大
误差来源 函数逼近、Bootstrap + 模型偏差
典型应用 游戏、机器人(仿真多) 样本贵、可建准模拟器

实践建议:工程入门用 PPO/SAC;若仿真器可信且样本极贵,再调研 MBPO / Dreamer 等。


六、与 AlphaGo / 机器人

系统 模型角色
AlphaGo 完美规则模拟 + MCTS + 神经网络
机器人 Sim2Real 物理仿真器作「模型」,RL 在 sim 训练
离线 RL 用数据学动力学 + 保守策略(与 Model-Based 交叉)

应用见 RL-07.应用实战


七、延伸阅读

  • Sutton:Dyna 架构
  • Silver et al.:AlphaGo / MuZero
  • Hafner et al.:Dreamer 系列

八、小结

  • Model-Based = 学 $\hat{P},\hat{R}$ + 规划/想象数据。
  • Dyna-Q 表格入门:RL-03-13-算法-Dyna-Q;深度时代看 World Models / Dreamer / MuZero
  • 与 Model-Free 互补:样本效率 vs 实现稳健性。
  • 回到 Model-Free 索引:RL-03.算法分类与选型
-------------本文结束感谢您的阅读-------------