RL-02.原理与数学基础

← 系列入口:RL-00.系列概述 · 上一篇:RL-01.概述与问题建模

RL-01 中,我们用 Agent–Environment 循环建立了直觉。本文把该循环形式化为马尔可夫决策过程(Markov Decision Process,MDP),并导出价值函数与 Bellman 方程——几乎所有 RL 算法都是对这些对象的不同近似与更新方式

段末注释:马尔可夫决策过程(Markov Decision Process,MDP)由状态集、动作集、转移概率、奖励与折扣因子构成;后文沿用 MDP


一、MDP 五元组

一个 MDP 记为 $(S, A, P, R, \gamma)$:

符号 含义
$S$ 状态空间
$A$ 动作空间(可与 $s$ 有关,记 $A(s)$)
$P(s’|s,a)$ 转移概率:在 $s$ 执行 $a$ 后进入 $s’$ 的概率
$R(s,a,s’)$ 或 $R(s,a)$ 期望即时奖励
$\gamma \in [0,1]$ 折扣因子

马尔可夫性:下一状态只依赖当前 $(s,a)$,与更早历史无关(给定当前状态)。若只有观测 $o$ 而非 $s$,则对应 POMDP

MDP 与 Bellman 直觉示意


二、策略与回报

策略 $\pi(a|s)$:在状态 $s$ 选择动作 $a$ 的概率(确定性策略可写 $a=\mu(s)$)。

从 $t$ 时刻起的折扣回报

$$
G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}
$$

优化目标:找到 $\pi^*$,使期望回报最大:

$$
J(\pi) = \mathbb{E}_{\tau \sim \pi}\left[ G_0 \right]
$$


三、价值函数

3.1 状态价值函数 $V^\pi(s)$

在策略 $\pi$ 下,从状态 $s$ 出发的期望回报:

$$
V^\pi(s) = \mathbb{E}_\pi\left[ G_t \mid S_t = s \right]
$$

3.2 动作价值函数 $Q^\pi(s,a)$

在 $s$ 先执行 $a$,之后按 $\pi$ 行动的期望回报:

$$
Q^\pi(s,a) = \mathbb{E}_\pi\left[ G_t \mid S_t = s, A_t = a \right]
$$

关系:$V^\pi(s) = \sum_a \pi(a|s) Q^\pi(s,a)$。

3.3 最优价值与最优策略

$$
V^(s) = \max_\pi V^\pi(s), \quad Q^(s,a) = \max_\pi Q^\pi(s,a)
$$

最优策略:$\pi^(a|s) = 1$ 当 $a = \arg\max_a Q^(s,a)$(并列最大时可任意打破平局)。


四、Bellman 方程

Bellman 方程把「当前价值」表达为「即时奖励 + 折扣后继价值」,是动态规划与 RL 更新的核心。

4.1 Bellman 期望方程(给定 $\pi$)

$$
V^\pi(s) = \sum_a \pi(a|s) \sum_{s’} P(s’|s,a) \left[ R(s,a,s’) + \gamma V^\pi(s’) \right]
$$

$$
Q^\pi(s,a) = \sum_{s’} P(s’|s,a) \left[ R(s,a,s’) + \gamma \sum_{a’} \pi(a’|s’) Q^\pi(s’,a’) \right]
$$

4.2 Bellman 最优方程

$$
V^(s) = \max_a \sum_{s’} P(s’|s,a) \left[ R(s,a,s’) + \gamma V^(s’) \right]
$$

$$
Q^(s,a) = \sum_{s’} P(s’|s,a) \left[ R(s,a,s’) + \gamma \max_{a’} Q^(s’,a’) \right]
$$

Q-Learning 即用采样近似上式右侧的 $\max_{a’} Q(s’,a’)$;策略迭代 / 价值迭代 则在已知 $P,R$ 时精确求解。


五、从 Bellman 到算法:三条更新路线

从 Bellman 方程到 DP / MC / TD 及下游算法

路线 是否需要模型 $P$ 代表方法
动态规划 需要 Policy Iteration, Value Iteration
蒙特卡洛(Monte Carlo,MC 不需要 每局用完整 $G_t$ 更新
时序差分(Temporal Difference,TD 不需要 TD(0), Q-Learning, SARSA, DQN

段末注释:时序差分(Temporal Difference,TD)指用一步或多步的 Bootstrap 目标更新价值估计;后文沿用 TD


六、探索与利用

仅最大化当前 $Q$ 估计会导致未试动作永不被探索。常用启发式:

方法 做法
$\varepsilon$-greedy 以概率 $\varepsilon$ 随机动作,否则 $\arg\max_a Q(s,a)$
Softmax / Boltzmann 按 $Q$ 值比例随机,温度参数控制探索程度
UCB 偏向上次尝试次数少的动作(多臂 bandit 经典)

探索率 $\varepsilon$ 常随训练衰减:前期多探索,后期多利用。


七、Model-Based vs Model-Free(原理视角)

  • Model-Based:显式学习或给定 $\hat{P},\hat{R}$,在模型内规划(如 Dyna、MCTS 结合学习)。
  • Model-Free:不估计转移模型,直接学 $V/Q/\pi$(Q-Learning、PPO 等)。

环境模型未知时,工程上 Model-Free + Deep RL 更常见;见 RL-03.算法分类与选型


八、本模块二级文档(已发布)

文档 内容
RL-02-01-MDP与Bellman方程 MDP 结构、折扣回报、Bellman 推导与算例
RL-02-02-价值函数与策略 $V$/$Q$ 关系、策略改进定理、价值/策略迭代
RL-02-03-探索与利用 MAB、$\varepsilon$-greedy、UCB、Softmax

建议阅读顺序

  1. MDP 与 Bellman 方程
  2. 价值函数与策略
  3. 探索与利用RL-03-02-算法-Q-Learning

九、阅读顺序


十、小结

  • MDP 把 RL 问题写为 $(S,A,P,R,\gamma)$ + 策略 $\pi$。
  • $V$ / $Q$ 量化「有多好」;Bellman 方程 给出递归结构。
  • 算法 = 在未知 $P$ 下对 Bellman 目标的 MC / TD / 梯度 采样更新。
  • 下一篇:按 Model-Free、On/Off-Policy、Value/Policy 轴展开算法地图。
-------------本文结束感谢您的阅读-------------