RL-03-07-算法-DQN变体

2015 年 DQN 之后，社区围绕过估计、样本效率、网络结构提出一系列改进。Rainbow（Hessel et al., 2018）将六项技巧合并，Atari 上显著超越原版 DQN。本文按「单点改进 → 组合」梳理。

一、Double DQN（DDQN）

问题：$y = r + \gamma \max_{a’} Q_{\bar{\phi}}(s’,a’)$ 中 $\max$ 与神经网络误差叠加 → Q 过估计。

做法（Van Hasselt et al., 2016）：解耦选择与评估——

$$
a^* = \arg\max_{a’} Q_\phi(s’, a’), \quad y = r + \gamma Q_{\bar{\phi}}(s’, a^*)
$$

在线网络选动作，目标网络评估，减轻过估计。

思想：对某些状态，选哪条动作无所谓（价值由状态本身决定），应显式分离：

$$
Q(s,a) = V(s) + A(s,a) - \frac{1}{|A|}\sum_{a’} A(s,a’)
$$

网络两路输出 $V(s)$ 与 $A(s,a)$，再合成 $Q$。优势函数 $A$ 表示「相对平均动作好多少」。

思想：TD 误差大的 transition 更值得多学。

$$
P(i) \propto \left( |\delta_i| + \epsilon \right)^\alpha
$$

采样后用重要性权重 $w_i$ 修正：

$$
w_i = \left( N \cdot P(i) \right)^{-\beta}
$$

实现需 SumTree $O(\log N)$ 采样，见 RL-05 Prioritized Replay。

超参	典型
$\alpha$	0.6
$\beta$	0.4 → 1.0 退火

用 $n$ 步回报作为 TD 目标：

$$
G_t^{(n)} = \sum_{k=0}^{n-1} \gamma^k r_{t+k+1} + \gamma^n \max_{a’} Q_{\bar{\phi}}(s_{t+n}, a’)
$$

$n>1$ 时目标方差与偏差折中，常 $n=3$。

不估 $\mathbb{E}[G]$ 标量，而学回报分布 $Z(s,a)$（如 51 个原子），用 Wasserstein 或 KL 距离更新。对风险敏感任务更有表达力。

用参数化噪声替代 $\varepsilon$-greedy：线性层权重加可学习噪声，探索随训练自适应。

工程建议：不必一次全开；常见递进 DQN → DDQN → +PER → +Dueling，逐步验证曲线。