RL-05-06-结构-资格迹

资格迹（Eligibility Trace）$e(s,a)$ 记录「最近被访问程度」，实现 TD($\lambda$) 多步信用分配。

一、更新规则

每步：

$$
e(s,a) \leftarrow \gamma \lambda , e(s,a) + \mathbf{1}(S_t=s, A_t=a)
$$

$$
Q(s,a) \leftarrow Q(s,a) + \alpha , \delta_t , e(s,a)
$$

对所有 $(s,a)$ 或仅维护非零条目（稀疏迹）。

E = np.zeros_like(Q)
# 每步
E *= gamma * lam
E[s, a] += 1.0
delta = r + gamma * Q[s_next].max() - Q[s, a]
Q += alpha * delta * E

SARSA 版用 $Q[s_next, a_next]$ 算 $\delta$。

PPO 的 GAE 在轨迹上反向算优势，等价于 函数逼近 + $\lambda$ returns 的工程实现；深度 RL 很少显式存 $e(s,a)$ 全表。