RL-01-01-术语与符号约定

本系列各篇共用一套符号。本文作为查阅索引：遇到 $\pi^*$、$Q^\pi$、$R_{t+1}$ 等写法时，可在此核对含义。建议与 RL-01.概述与问题建模配合阅读，或在进入 RL-02.原理与数学基础前通读一遍。

段末注释：马尔可夫决策过程（Markov Decision Process，MDP）为 RL 问题形式化的标准框架；后文沿用 MDP。

一、时间下标约定

符号	含义	说明
$t$	离散时间步	$t = 0, 1, 2, \ldots$
$S_t$	第 $t$ 步的状态	Agent 决策前所处的状态
$A_t$	第 $t$ 步的动作	在 $S_t$ 下执行的动作
$R_{t+1}$	执行 $A_t$ 之后得到的奖励	Sutton & Barto 惯例：奖励与「导致它的动作」错开一步
$G_t$	从 $t$ 时刻起的折扣回报	$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$

一条轨迹（Trajectory / Episode）记为：

$$
\tau = (S_0, A_0, R_1, S_1, A_1, R_2, \ldots)
$$

工程接口 env.step(action) 返回的 (obs, reward, terminated, truncated, info) 中，obs 对应 $S_{t+1}$，reward 对应 $R_{t+1}$。

二、MDP 五元组

$$
\mathcal{M} = (S, A, P, R, \gamma)
$$

符号	名称	含义
$S$	状态空间	所有可能状态的集合
$A$ 或 $A(s)$	动作空间	全局动作集，或状态 $s$ 下的合法动作集
$P(s’ \mid s, a)$	转移概率	在 $s$ 执行 $a$ 后进入 $s’$ 的概率
$R(s,a,s’)$ 或 $R(s,a)$	奖励函数	一步转移的（期望）即时奖励
$\gamma \in [0,1]$	折扣因子	未来奖励的衰减系数

观测 $O_t$：Agent 实际看到的信息；完全可观测时 $O_t = S_t$，否则为 POMDP（Partially Observable MDP，POMDP）。

段末注释：部分可观测 MDP（Partially Observable MDP，POMDP）指 Agent 无法直接访问真实状态 $S_t$，只能依据观测 $O_t$ 决策；后文沿用 POMDP。

三、策略 $\pi$

策略（Policy）描述 Agent 如何在状态下选动作。

符号	含义
$\pi(a \mid s)$	随机策略：在状态 $s$ 选动作 $a$ 的概率
$\mu(s)$	确定性策略：在 $s$ 直接给出唯一动作 $a = \mu(s)$
$\pi_\theta(a \mid s)$	参数化策略：$\theta$ 为神经网络等可学习参数
$a \sim \pi(\cdot \mid s)$	按策略 $\pi$ 采样动作 $a$

随机策略满足 $\sum_a \pi(a \mid s) = 1$；确定性策略可看作 $\pi(a \mid s) = \mathbb{1}[a = \mu(s)]$。

四、上标符号：$\pi$ 与 $*$（重要）

本系列中，价值函数与策略名上的上标有两种常见写法，含义不同：

4.1 上标 $\pi$：「在该策略下」

$$
V^\pi(s), \quad Q^\pi(s,a)
$$

读作「在策略 $\pi$ 下的状态价值 / 动作价值」。上标 $\pi$ 表示：从 $s$（或 $s,a$）出发，之后一直按 $\pi$ 行动时的期望回报。

不是乘法，也不是指数；是 RL 文献中的策略下标写法。

4.2 上标 $*$：「最优」

$$
\pi^, \quad V^(s), \quad Q^*(s,a)
$$

上标 $*$ 表示最优（Optimal）：在所有可行策略中取期望回报最大的那一个。

定义：

$$
V^(s) = \max_\pi V^\pi(s), \qquad Q^(s,a) = \max_\pi Q^\pi(s,a)
$$

最优策略 $\pi^$ 与 $Q^$ 的关系：

$$
\pi^(s) \in \arg\max_a Q^(s,a)
$$

即在状态 $s$，选使 $Q^*(s,a)$ 最大的动作；若多个动作并列最大，任选其一（需满足可达性等条件）。

直观对照：

符号	问的问题
$Q^\pi(s,a)$	在 $s$ 先做 $a$，之后按 $\pi$ 走，期望多好？
$Q^*(s,a)$	在 $s$ 先做 $a$，之后一直按最优方式走，期望多好？
$\pi^*(s)$	在 $s$ 应该选哪个动作？→ $\arg\max_a Q^*(s,a)$

记忆口诀：$\pi$ 上标 = 「跟着这个策略走」；$*$ 上标 = 「已经是最优答案」。

详见 RL-02-02-价值函数与策略第二节。

4.3 其他常见上标

符号	含义
$A^\pi(s,a)$	在策略 $\pi$ 下的优势函数
$\pi_{\text{old}}$、$\pi_{\theta_{\text{old}}}$	PPO 等算法中更新前的旧策略
$Q_{\text{target}}$	DQN 目标网络输出的 Q 值（工程记号，非上标 $*$）

注意：$Q_{\text{target}}$ 与 $Q^*$ 不同——前者是算法里用于稳定训练的慢更新网络，后者是理论上的最优动作价值。

五、价值函数与回报

符号	名称	定义（期望回报）
$G_t$	回报	$\sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$
$V^\pi(s)$	状态价值	$\mathbb{E}_\pi[G_t \mid S_t = s]$
$Q^\pi(s,a)$	动作价值	$\mathbb{E}_\pi[G_t \mid S_t = s, A_t = a]$
$A^\pi(s,a)$	优势函数	$Q^\pi(s,a) - V^\pi(s)$

换算关系（同一策略 $\pi$）：

$$
V^\pi(s) = \sum_{a} \pi(a \mid s) , Q^\pi(s,a)
$$

$$
Q^\pi(s,a) = \sum_{s’} P(s’ \mid s,a) \left[ R(s,a,s’) + \gamma V^\pi(s’) \right]
$$

优势函数 $A^\pi(s,a)$ 表示：在 $s$ 选 $a$ 比「按 $\pi$ 的平均水平」好多少；Actor-Critic 中常用 $\hat{A}$ 替代 $G_t$ 以降低方差。

六、Bellman 方程相关

符号	含义
$\mathcal{T}^\pi$	给定 $\pi$ 的 Bellman 期望算子
$\mathcal{T}^*$	Bellman 最优算子（内层对 $a$ 取 $\max$）
$\delta_t$	TD 误差（Temporal Difference Error）：$R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$

Bellman 最优方程（$Q^*$ 形式）：

$$
Q^(s,a) = \sum_{s’} P(s’ \mid s,a) \left[ R(s,a,s’) + \gamma \max_{a’} Q^(s’,a’) \right]
$$

Q-Learning 的 TD 目标 $r + \gamma \max_{a’} Q(s’,a’)$ 即对此式的采样近似。

七、算法分类术语

术语	英文	含义
在策略	On-Policy	更新用的数据必须来自当前策略（如 SARSA、PPO）
离策略	Off-Policy	可用旧策略或行为策略的数据（如 Q-Learning、DQN、SAC）
无模型	Model-Free	不显式学习 $P(s’ \mid s,a)$
有模型	Model-Based	学习环境模型并在模型中规划
表格型	Tabular	用 Q 表等显式存储每个 $(s,a)$
深度 RL	Deep RL	用神经网络逼近 $V$、$Q$ 或 $\pi$

缩写	全称	说明
TD	Temporal Difference	时序差分，用下一步估计 bootstrap
MC	Monte Carlo	蒙特卡洛，用完整 episode 回报
DQN	Deep Q-Network	深度 Q 网络
PPO	Proximal Policy Optimization	近端策略优化
TRPO	Trust Region Policy Optimization	信任域策略优化
SAC	Soft Actor-Critic	最大熵 Actor-Critic
MARL	Multi-Agent Reinforcement Learning	多智能体强化学习
IL	Imitation Learning	模仿学习
IRL	Inverse Reinforcement Learning	逆强化学习
GAIL	Generative Adversarial Imitation Learning	生成对抗模仿学习
ES	Evolution Strategies	进化策略
CTDE	Centralized Training with Decentralized Execution	集中训练分散执行
GAE	Generalized Advantage Estimation	广义优势估计
PER	Prioritized Experience Replay	优先经验回放

段末注释：时序差分（Temporal Difference，TD）指用下一步价值估计更新当前估计的 bootstrapping 方法；后文沿用 TD。

八、常用希腊字母与超参

符号	名称	典型用途
$\gamma$	折扣因子	$[0,1)$，常取 0.99
$\alpha$	学习率	表格 Q 更新步长；亦泛指优化器 lr
$\varepsilon$	探索率	$\varepsilon$-greedy 中随机动作概率
$\lambda$	迹衰减	TD($\lambda$)、GAE 参数
$\theta$	策略/网络参数	$\pi_\theta$、$V_\theta$
$\tau$	轨迹 / 温度	$\tau$ 作轨迹见第一节；Softmax 温度另文说明

九、工程与数学对照

数学	Gymnasium / 代码
$S$, $A$	`observation_space`, `action_space`
$s, a, r, s’$	`obs`, `action`, `reward`, `next_obs`
$\pi(a \mid s)$	`policy(obs)` → 动作或分布
$Q(s,a)$	`q_net(obs)[action]`
Episode 终止	`terminated`（MDP 终止）/ `truncated`（限时截断）
随机种子	控制 $P$ 与策略采样可复现

十、本系列文档命名

层级	格式	示例
一级模块	`RL-0X.主题.md`	`RL-02.原理与数学基础.md`
二级子篇	`RL-0X-YY-子主题.md`	`RL-02-01-MDP与Bellman方程.md`

YY 为模块内建议阅读顺序序号（01、02、…）。

十一、阅读顺序

本文 — 符号速查
RL-01.概述与问题建模 — 概念直觉
RL-02-01-MDP与Bellman方程 — MDP 与 Bellman 展开
RL-02-02-价值函数与策略 — $V$/$Q$/$\pi^*$ 深入

十二、小结

时间：$R_{t+1}$ 在 $A_t$ 之后产生；$G_t$ 为从 $t$ 起的折扣回报之和。
上标 $\pi$：在该策略下的价值；上标 $*$：最优策略 / 最优价值。
$\pi^(s) = \arg\max_a Q^(s,a)$；$Q_{\text{target}} \neq Q^*$。
后续各篇默认沿用本文符号，不再逐一重复定义。