RL-03-05-算法-时序差分

时序差分（Temporal Difference，TD）用一步（或多步）Bootstrap 目标更新价值估计：无需等 episode 结束，可每步在线学习。Q-Learning、SARSA、DQN、PPO 中的 GAE 等均建立在 TD 思想之上。

段末注释：时序差分（Temporal Difference，TD）指用当前价值估计构造目标、逐步修正的 RL 更新范式；后文沿用 TD。

一、TD 核心：Bootstrap

蒙特卡洛目标：完整回报 $G_t$（无偏、高方差）。
TD 目标：$R_{t+1} + \gamma V(S_{t+1})$（有偏、低方差）。

$$
V(S_t) \leftarrow V(S_t) + \alpha \left[ \underbrace{R_{t+1} + \gamma V(S_{t+1})}_{\text{TD 目标}} - V(S_t) \right]
$$

TD 误差：

$$
\delta_t = R_{t+1} + \gamma V(S_{t+1}) - V(S_t)
$$

「差分」即预测 $V(S_t)$ 与一步后继目标之差。

在固定策略 $\pi$ 下估计 $V^\pi$：

步骤	操作
1	在 $S_t$ 按 $\pi$ 执行 $A_t$，观测 $R_{t+1}, S_{t+1}$
2	$\delta_t = R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$
3	$V(S_t) \leftarrow V(S_t) + \alpha \delta_t$

收敛（表格、适当 $\alpha$）：$V \to V^\pi$。

对 $Q(s,a)$ 的 TD(0) 更新：

SARSA（On-Policy）：

$$
Q(S_t,A_t) \leftarrow Q + \alpha \left[ R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t,A_t) \right]
$$

Q-Learning（Off-Policy）：

$$
Q(S_t,A_t) \leftarrow Q + \alpha \left[ R_{t+1} + \gamma \max_{a’} Q(S_{t+1},a’) - Q(S_t,A_t) \right]
$$

详见 SARSA、Q-Learning。二者是 TD 控制在 Q 函数上的两种策略绑定方式。

$n$ 步回报 + Bootstrap：

$$
G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + \cdots + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+n})
$$

$$
V(S_t) \leftarrow V(S_t) + \alpha \left( G_t^{(n)} - V(S_t) \right)
$$

Rainbow DQN 使用 multi-step return；PPO 的 GAE 可看作在优势估计上的 $\lambda$-return 推广。

多步信用分配的紧凑实现：资格迹 $e(s,a)$ 标记近期访问：

$$
e(s,a) \leftarrow \gamma \lambda , e(s,a) + \mathbf{1}(S_t=s, A_t=a)
$$

$$
Q(s,a) \leftarrow Q(s,a) + \alpha , \delta_t , e(s,a)
$$

TD 误差 $\delta_t$ 是「预测错多少」的统一信号。

动态规划（已知 P）
    ↓
TD(0) ←── n-step TD ←── MC（G_t 目标）
    ↓
TD(λ) + 资格迹
    ↓
SARSA（On） / Q-Learning（Off）
    ↓
DQN（函数逼近 + Replay + 目标网络）