RL-05-06-结构-资格迹

← 上级:RL-05.专属数据结构 · 原理:RL-03-04-算法-蒙特卡洛

资格迹(Eligibility Trace)$e(s,a)$ 记录「最近被访问程度」,实现 TD($\lambda$) 多步信用分配。


一、更新规则

每步:

$$
e(s,a) \leftarrow \gamma \lambda , e(s,a) + \mathbf{1}(S_t=s, A_t=a)
$$

$$
Q(s,a) \leftarrow Q(s,a) + \alpha , \delta_t , e(s,a)
$$

对所有 $(s,a)$ 或仅维护非零条目(稀疏迹)。


二、$\lambda$ 含义

$\lambda$ 行为
0 TD(0)
1 接近 MC(配合衰减)
0.9 常用折中

三、表格实现

1
2
3
4
5
6
E = np.zeros_like(Q)
# 每步
E *= gamma * lam
E[s, a] += 1.0
delta = r + gamma * Q[s_next].max() - Q[s, a]
Q += alpha * delta * E

SARSA 版用 $Q[s_next, a_next]$ 算 $\delta$。


四、与 GAE 关系

PPO 的 GAE 在轨迹上反向算优势,等价于 函数逼近 + $\lambda$ returns 的工程实现;深度 RL 很少显式存 $e(s,a)$ 全表。


五、小结

  • 资格迹 = TD($\lambda$) 的表格存储;深度侧常用 GAE。
  • 下一篇:策略输出
-------------本文结束感谢您的阅读-------------