← 上级:RL-01.概述与问题建模 · 系列:RL-00.系列概述
本系列各篇共用一套符号。本文作为查阅索引:遇到 $\pi^*$、$Q^\pi$、$R_{t+1}$ 等写法时,可在此核对含义。建议与 RL-01.概述与问题建模 配合阅读,或在进入 RL-02.原理与数学基础 前通读一遍。
段末注释:马尔可夫决策过程(Markov Decision Process,MDP)为 RL 问题形式化的标准框架;后文沿用 MDP。
一、时间下标约定
| 符号 | 含义 | 说明 |
|---|---|---|
| $t$ | 离散时间步 | $t = 0, 1, 2, \ldots$ |
| $S_t$ | 第 $t$ 步的状态 | Agent 决策前所处的状态 |
| $A_t$ | 第 $t$ 步的动作 | 在 $S_t$ 下执行的动作 |
| $R_{t+1}$ | 执行 $A_t$ 之后得到的奖励 | Sutton & Barto 惯例:奖励与「导致它的动作」错开一步 |
| $G_t$ | 从 $t$ 时刻起的折扣回报 | $G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$ |
一条轨迹(Trajectory / Episode)记为:
$$
\tau = (S_0, A_0, R_1, S_1, A_1, R_2, \ldots)
$$
工程接口 env.step(action) 返回的 (obs, reward, terminated, truncated, info) 中,obs 对应 $S_{t+1}$,reward 对应 $R_{t+1}$。
二、MDP 五元组
$$
\mathcal{M} = (S, A, P, R, \gamma)
$$
| 符号 | 名称 | 含义 |
|---|---|---|
| $S$ | 状态空间 | 所有可能状态的集合 |
| $A$ 或 $A(s)$ | 动作空间 | 全局动作集,或状态 $s$ 下的合法动作集 |
| $P(s’ \mid s, a)$ | 转移概率 | 在 $s$ 执行 $a$ 后进入 $s’$ 的概率 |
| $R(s,a,s’)$ 或 $R(s,a)$ | 奖励函数 | 一步转移的(期望)即时奖励 |
| $\gamma \in [0,1]$ | 折扣因子 | 未来奖励的衰减系数 |
观测 $O_t$:Agent 实际看到的信息;完全可观测时 $O_t = S_t$,否则为 POMDP(Partially Observable MDP,POMDP)。
段末注释:部分可观测 MDP(Partially Observable MDP,POMDP)指 Agent 无法直接访问真实状态 $S_t$,只能依据观测 $O_t$ 决策;后文沿用 POMDP。
三、策略 $\pi$
策略(Policy)描述 Agent 如何在状态下选动作。
| 符号 | 含义 |
|---|---|
| $\pi(a \mid s)$ | 随机策略:在状态 $s$ 选动作 $a$ 的概率 |
| $\mu(s)$ | 确定性策略:在 $s$ 直接给出唯一动作 $a = \mu(s)$ |
| $\pi_\theta(a \mid s)$ | 参数化策略:$\theta$ 为神经网络等可学习参数 |
| $a \sim \pi(\cdot \mid s)$ | 按策略 $\pi$ 采样动作 $a$ |
随机策略满足 $\sum_a \pi(a \mid s) = 1$;确定性策略可看作 $\pi(a \mid s) = \mathbb{1}[a = \mu(s)]$。
四、上标符号:$\pi$ 与 $*$(重要)
本系列中,价值函数与策略名上的上标有两种常见写法,含义不同:
4.1 上标 $\pi$:「在该策略下」
$$
V^\pi(s), \quad Q^\pi(s,a)
$$
读作「在策略 $\pi$ 下的状态价值 / 动作价值」。上标 $\pi$ 表示:从 $s$(或 $s,a$)出发,之后一直按 $\pi$ 行动时的期望回报。
不是乘法,也不是指数;是 RL 文献中的策略下标写法。
4.2 上标 $*$:「最优」
$$
\pi^, \quad V^(s), \quad Q^*(s,a)
$$
上标 $*$ 表示 最优(Optimal):在所有可行策略中取期望回报最大的那一个。
定义:
$$
V^(s) = \max_\pi V^\pi(s), \qquad Q^(s,a) = \max_\pi Q^\pi(s,a)
$$
最优策略 $\pi^$ 与 $Q^$ 的关系:
$$
\pi^(s) \in \arg\max_a Q^(s,a)
$$
即在状态 $s$,选使 $Q^*(s,a)$ 最大的动作;若多个动作并列最大,任选其一(需满足可达性等条件)。
直观对照:
| 符号 | 问的问题 |
|---|---|
| $Q^\pi(s,a)$ | 在 $s$ 先做 $a$,之后按 $\pi$ 走,期望多好? |
| $Q^*(s,a)$ | 在 $s$ 先做 $a$,之后一直按最优方式走,期望多好? |
| $\pi^*(s)$ | 在 $s$ 应该选哪个动作?→ $\arg\max_a Q^*(s,a)$ |
记忆口诀:$\pi$ 上标 = 「跟着这个策略走」;$*$ 上标 = 「已经是最优答案」。
详见 RL-02-02-价值函数与策略 第二节。
4.3 其他常见上标
| 符号 | 含义 |
|---|---|
| $A^\pi(s,a)$ | 在策略 $\pi$ 下的优势函数 |
| $\pi_{\text{old}}$、$\pi_{\theta_{\text{old}}}$ | PPO 等算法中更新前的旧策略 |
| $Q_{\text{target}}$ | DQN 目标网络输出的 Q 值(工程记号,非上标 $*$) |
注意:$Q_{\text{target}}$ 与 $Q^*$ 不同——前者是算法里用于稳定训练的慢更新网络,后者是理论上的最优动作价值。
五、价值函数与回报
| 符号 | 名称 | 定义(期望回报) |
|---|---|---|
| $G_t$ | 回报 | $\sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$ |
| $V^\pi(s)$ | 状态价值 | $\mathbb{E}_\pi[G_t \mid S_t = s]$ |
| $Q^\pi(s,a)$ | 动作价值 | $\mathbb{E}_\pi[G_t \mid S_t = s, A_t = a]$ |
| $A^\pi(s,a)$ | 优势函数 | $Q^\pi(s,a) - V^\pi(s)$ |
换算关系(同一策略 $\pi$):
$$
V^\pi(s) = \sum_{a} \pi(a \mid s) , Q^\pi(s,a)
$$
$$
Q^\pi(s,a) = \sum_{s’} P(s’ \mid s,a) \left[ R(s,a,s’) + \gamma V^\pi(s’) \right]
$$
优势函数 $A^\pi(s,a)$ 表示:在 $s$ 选 $a$ 比「按 $\pi$ 的平均水平」好多少;Actor-Critic 中常用 $\hat{A}$ 替代 $G_t$ 以降低方差。
六、Bellman 方程相关
| 符号 | 含义 |
|---|---|
| $\mathcal{T}^\pi$ | 给定 $\pi$ 的 Bellman 期望算子 |
| $\mathcal{T}^*$ | Bellman 最优算子(内层对 $a$ 取 $\max$) |
| $\delta_t$ | TD 误差(Temporal Difference Error):$R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$ |
Bellman 最优方程($Q^*$ 形式):
$$
Q^(s,a) = \sum_{s’} P(s’ \mid s,a) \left[ R(s,a,s’) + \gamma \max_{a’} Q^(s’,a’) \right]
$$
Q-Learning 的 TD 目标 $r + \gamma \max_{a’} Q(s’,a’)$ 即对此式的采样近似。
七、算法分类术语
| 术语 | 英文 | 含义 |
|---|---|---|
| 在策略 | On-Policy | 更新用的数据必须来自当前策略(如 SARSA、PPO) |
| 离策略 | Off-Policy | 可用旧策略或行为策略的数据(如 Q-Learning、DQN、SAC) |
| 无模型 | Model-Free | 不显式学习 $P(s’ \mid s,a)$ |
| 有模型 | Model-Based | 学习环境模型并在模型中规划 |
| 表格型 | Tabular | 用 Q 表等显式存储每个 $(s,a)$ |
| 深度 RL | Deep RL | 用神经网络逼近 $V$、$Q$ 或 $\pi$ |
| 缩写 | 全称 | 说明 |
|---|---|---|
| TD | Temporal Difference | 时序差分,用下一步估计 bootstrap |
| MC | Monte Carlo | 蒙特卡洛,用完整 episode 回报 |
| DQN | Deep Q-Network | 深度 Q 网络 |
| PPO | Proximal Policy Optimization | 近端策略优化 |
| TRPO | Trust Region Policy Optimization | 信任域策略优化 |
| SAC | Soft Actor-Critic | 最大熵 Actor-Critic |
| MARL | Multi-Agent Reinforcement Learning | 多智能体强化学习 |
| IL | Imitation Learning | 模仿学习 |
| IRL | Inverse Reinforcement Learning | 逆强化学习 |
| GAIL | Generative Adversarial Imitation Learning | 生成对抗模仿学习 |
| ES | Evolution Strategies | 进化策略 |
| CTDE | Centralized Training with Decentralized Execution | 集中训练分散执行 |
| GAE | Generalized Advantage Estimation | 广义优势估计 |
| PER | Prioritized Experience Replay | 优先经验回放 |
段末注释:时序差分(Temporal Difference,TD)指用下一步价值估计更新当前估计的 bootstrapping 方法;后文沿用 TD。
八、常用希腊字母与超参
| 符号 | 名称 | 典型用途 |
|---|---|---|
| $\gamma$ | 折扣因子 | $[0,1)$,常取 0.99 |
| $\alpha$ | 学习率 | 表格 Q 更新步长;亦泛指优化器 lr |
| $\varepsilon$ | 探索率 | $\varepsilon$-greedy 中随机动作概率 |
| $\lambda$ | 迹衰减 | TD($\lambda$)、GAE 参数 |
| $\theta$ | 策略/网络参数 | $\pi_\theta$、$V_\theta$ |
| $\tau$ | 轨迹 / 温度 | $\tau$ 作轨迹见第一节;Softmax 温度另文说明 |
九、工程与数学对照
| 数学 | Gymnasium / 代码 |
|---|---|
| $S$, $A$ | observation_space, action_space |
| $s, a, r, s’$ | obs, action, reward, next_obs |
| $\pi(a \mid s)$ | policy(obs) → 动作或分布 |
| $Q(s,a)$ | q_net(obs)[action] |
| Episode 终止 | terminated(MDP 终止)/ truncated(限时截断) |
| 随机种子 | 控制 $P$ 与策略采样可复现 |
十、本系列文档命名
| 层级 | 格式 | 示例 |
|---|---|---|
| 一级模块 | RL-0X.主题.md |
RL-02.原理与数学基础.md |
| 二级子篇 | RL-0X-YY-子主题.md |
RL-02-01-MDP与Bellman方程.md |
YY 为模块内建议阅读顺序序号(01、02、…)。
十一、阅读顺序
- 本文 — 符号速查
- RL-01.概述与问题建模 — 概念直觉
- RL-02-01-MDP与Bellman方程 — MDP 与 Bellman 展开
- RL-02-02-价值函数与策略 — $V$/$Q$/$\pi^*$ 深入
十二、小结
- 时间:$R_{t+1}$ 在 $A_t$ 之后产生;$G_t$ 为从 $t$ 起的折扣回报之和。
- 上标 $\pi$:在该策略下的价值;上标 $*$:最优策略 / 最优价值。
- $\pi^(s) = \arg\max_a Q^(s,a)$;$Q_{\text{target}} \neq Q^*$。
- 后续各篇默认沿用本文符号,不再逐一重复定义。