RL-03-11-算法-PPO

← 上级:RL-03.算法分类与选型 · 前置:RL-03-10-算法-TRPO · 数据结构:RL-05 Rollout Buffer

近端策略优化(Proximal Policy Optimization,PPO)(Schulman et al., 2017)通过限制策略更新幅度,在实现简单性与稳定性之间取得平衡,是 OpenAI、Stable-Baselines3 等的默认 On-Policy 基线

段末注释:近端策略优化(Proximal Policy Optimization,PPO)用裁剪替代 KL 硬约束,限制新旧策略概率比;后文沿用 PPO

PPO 裁剪目标示意


一、从 TRPO 到 PPO

TRPO 用 KL 散度约束 $\text{KL}(\pi_{\theta_{old}} | \pi_\theta) \leq \delta$,保证单调改进,但共轭梯度 + 线搜索实现复杂。

PPO裁剪实现类似「信任域」效果,仅一阶优化。


二、概率比与 Surrogate 目标

$$
r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}
$$

无约束 surrogate:

$$
L^{CPI}(\theta) = \mathbb{E}_t \left[ r_t(\theta) \hat{A}_t \right]
$$

PPO-Clip

$$
L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) \hat{A}_t, ; \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right]
$$

  • $\hat{A}_t > 0$:限制 $r_t$ 过大(防止过度增强该动作)
  • $\hat{A}_t < 0$:限制 $r_t$ 过小

常用 $\epsilon = 0.2$。


三、完整损失(Actor-Critic)

$$
L = -L^{CLIP} + c_1 \mathcal{L}^{VF} - c_2 \mathcal{H}[\pi_\theta]
$$

含义
$L^{CLIP}$ 策略损失
$\mathcal{L}^{VF} = (V_\theta(s_t) - V_t^{target})^2$ 价值函数 MSE
$\mathcal{H}$ 熵 bonus,鼓励探索

四、GAE 优势估计

广义优势估计(Generalized Advantage Estimation,GAE):

$$
\hat{A}t = \sum{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}, \quad \delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)
$$

$\lambda \in [0,1]$:0 接近 TD(0),1 接近 MC。常用 $\lambda=0.95$。

段末注释:广义优势估计(Generalized Advantage Estimation,GAE)在偏差与方差之间插值估计优势函数;后文沿用 GAE


五、训练流程

  1. 用 $\pi_{\theta_{old}}$ 收集 Rollout 长度 $T$(如 2048 步)
  2. 算 $V(s_t)$、$\hat{A}_t$、returns
  3. 对同一批数据做 $K$ 个 epoch mini-batch 更新(如 $K=10$)
  4. $\theta_{old} \leftarrow \theta$,重复

数据存于 Rollout Buffer不复用旧策略数据(On-Policy)。


六、超参数(SB3 默认量级)

超参 典型
Rollout 步数 2048
Batch / epoch 64 × 10
$\gamma$ 0.99
GAE $\lambda$ 0.95
Clip $\epsilon$ 0.2
学习率 3e-4
熵系数 $c_2$ 0.01
价值系数 $c_1$ 0.5

七、PPO 优缺点

优点 缺点
实现简单、调参鲁棒 On-Policy,样本效率一般
离散/连续统一 大量 epoch 可能过拟合小 batch
工业界广泛使用 极长 horizon 任务仍难

八、小结

  • PPO = Clip surrogate + GAE + 多 epoch 小批量更新
  • 工程首选 On-Policy 算法;连续控制也可试 SAC
  • 相关:Actor-Critic
-------------本文结束感谢您的阅读-------------