← 上级:RL-03.算法分类与选型 · 基础:RL-03-06-算法-DQN
2015 年 DQN 之后,社区围绕过估计、样本效率、网络结构提出一系列改进。Rainbow(Hessel et al., 2018)将六项技巧合并,Atari 上显著超越原版 DQN。本文按「单点改进 → 组合」梳理。
一、Double DQN(DDQN)
问题:$y = r + \gamma \max_{a’} Q_{\bar{\phi}}(s’,a’)$ 中 $\max$ 与神经网络误差叠加 → Q 过估计。
做法(Van Hasselt et al., 2016):解耦选择与评估——
$$
a^* = \arg\max_{a’} Q_\phi(s’, a’), \quad y = r + \gamma Q_{\bar{\phi}}(s’, a^*)
$$
在线网络选动作,目标网络评估,减轻过估计。
二、Dueling DQN
思想:对某些状态,选哪条动作无所谓(价值由状态本身决定),应显式分离:
$$
Q(s,a) = V(s) + A(s,a) - \frac{1}{|A|}\sum_{a’} A(s,a’)
$$
网络两路输出 $V(s)$ 与 $A(s,a)$,再合成 $Q$。优势函数 $A$ 表示「相对平均动作好多少」。
三、Prioritized Experience Replay(PER)
思想:TD 误差大的 transition 更值得多学。
$$
P(i) \propto \left( |\delta_i| + \epsilon \right)^\alpha
$$
采样后用重要性权重 $w_i$ 修正:
$$
w_i = \left( N \cdot P(i) \right)^{-\beta}
$$
实现需 SumTree $O(\log N)$ 采样,见 RL-05 Prioritized Replay。
| 超参 | 典型 |
|---|---|
| $\alpha$ | 0.6 |
| $\beta$ | 0.4 → 1.0 退火 |
四、Multi-step Learning
用 $n$ 步回报作为 TD 目标:
$$
G_t^{(n)} = \sum_{k=0}^{n-1} \gamma^k r_{t+k+1} + \gamma^n \max_{a’} Q_{\bar{\phi}}(s_{t+n}, a’)
$$
$n>1$ 时目标方差与偏差折中,常 $n=3$。
五、Distributional RL(C51)
不估 $\mathbb{E}[G]$ 标量,而学回报分布 $Z(s,a)$(如 51 个原子),用 Wasserstein 或 KL 距离更新。对风险敏感任务更有表达力。
六、Noisy Networks
用参数化噪声替代 $\varepsilon$-greedy:线性层权重加可学习噪声,探索随训练自适应。
七、Rainbow 组合
| 组件 | 作用 |
|---|---|
| Double Q | 减过估计 |
| Dueling | 结构先验 |
| PER | 样本加权 |
| Multi-step | n-step 目标 |
| Distributional | 分布 Q |
| Noisy Net | 探索 |
工程建议:不必一次全开;常见递进 DQN → DDQN → +PER → +Dueling,逐步验证曲线。
八、对比表
| 变体 | 主要解决 | 额外成本 |
|---|---|---|
| Double DQN | Q 过估计 | 几乎无 |
| Dueling | 状态价值主导 | 略增参数 |
| PER | 样本效率 | SumTree 实现 |
| Multi-step | 信用分配 | 存储 n 步链 |
| Rainbow | 综合 | 调参复杂 |
九、小结
- DQN 变体围绕 TD 目标、采样、网络结构、探索 四条线改进。
- 入门:Double DQN + PER 性价比最高。
- 下一篇:Policy Gradient(直接优化策略)。