RL-03-07-算法-DQN变体

← 上级:RL-03.算法分类与选型 · 基础:RL-03-06-算法-DQN

2015 年 DQN 之后,社区围绕过估计、样本效率、网络结构提出一系列改进。Rainbow(Hessel et al., 2018)将六项技巧合并,Atari 上显著超越原版 DQN。本文按「单点改进 → 组合」梳理。


一、Double DQN(DDQN)

问题:$y = r + \gamma \max_{a’} Q_{\bar{\phi}}(s’,a’)$ 中 $\max$ 与神经网络误差叠加 → Q 过估计

做法(Van Hasselt et al., 2016):解耦选择与评估——

$$
a^* = \arg\max_{a’} Q_\phi(s’, a’), \quad y = r + \gamma Q_{\bar{\phi}}(s’, a^*)
$$

在线网络动作,目标网络评估,减轻过估计。


二、Dueling DQN

思想:对某些状态,选哪条动作无所谓(价值由状态本身决定),应显式分离:

$$
Q(s,a) = V(s) + A(s,a) - \frac{1}{|A|}\sum_{a’} A(s,a’)
$$

网络两路输出 $V(s)$ 与 $A(s,a)$,再合成 $Q$。优势函数 $A$ 表示「相对平均动作好多少」。


三、Prioritized Experience Replay(PER)

思想:TD 误差大的 transition 更值得多学。

$$
P(i) \propto \left( |\delta_i| + \epsilon \right)^\alpha
$$

采样后用重要性权重 $w_i$ 修正:

$$
w_i = \left( N \cdot P(i) \right)^{-\beta}
$$

实现需 SumTree $O(\log N)$ 采样,见 RL-05 Prioritized Replay

超参 典型
$\alpha$ 0.6
$\beta$ 0.4 → 1.0 退火

四、Multi-step Learning

用 $n$ 步回报作为 TD 目标:

$$
G_t^{(n)} = \sum_{k=0}^{n-1} \gamma^k r_{t+k+1} + \gamma^n \max_{a’} Q_{\bar{\phi}}(s_{t+n}, a’)
$$

$n>1$ 时目标方差与偏差折中,常 $n=3$。


五、Distributional RL(C51)

不估 $\mathbb{E}[G]$ 标量,而学回报分布 $Z(s,a)$(如 51 个原子),用 Wasserstein 或 KL 距离更新。对风险敏感任务更有表达力。


六、Noisy Networks

参数化噪声替代 $\varepsilon$-greedy:线性层权重加可学习噪声,探索随训练自适应。


七、Rainbow 组合

组件 作用
Double Q 减过估计
Dueling 结构先验
PER 样本加权
Multi-step n-step 目标
Distributional 分布 Q
Noisy Net 探索

工程建议:不必一次全开;常见递进 DQN → DDQN → +PER → +Dueling,逐步验证曲线。


八、对比表

变体 主要解决 额外成本
Double DQN Q 过估计 几乎无
Dueling 状态价值主导 略增参数
PER 样本效率 SumTree 实现
Multi-step 信用分配 存储 n 步链
Rainbow 综合 调参复杂

九、小结

  • DQN 变体围绕 TD 目标、采样、网络结构、探索 四条线改进。
  • 入门:Double DQN + PER 性价比最高。
  • 下一篇:Policy Gradient(直接优化策略)。
-------------本文结束感谢您的阅读-------------