RL-00.系列概述

本文作为 02.开发-21.强化学习 的系列入口：先建立整体知识地图，再按 概述 → 原理 → 算法 → 实现 → 数据结构 → 评估工具 → 应用实战 的顺序展开。各一级模块均配有科普漫画风格配图，便于建立直觉。

段末注释：强化学习（Reinforcement Learning，RL）指智能体在与环境交互中通过试错与延迟回报学习策略的机器学习范式；后文沿用 RL。

一、本系列要解决什么问题

与监督学习「给定输入—标签对」不同，RL 关心的是：在不确定环境中，如何通过序贯决策最大化长期累积回报。典型问题包括：

离散/连续控制（游戏、机器人、资源调度）
序贯决策与探索—利用（Exploration–Exploitation）权衡
延迟回报与信用分配（Credit Assignment）
从表格到小状态空间，到高维感知（深度强化学习，Deep RL）

本目录目标：把 RL 从「概念—公式—算法—代码—数据结构—评估—落地」串成可复习、可落地的笔记体系。

二、一级：知识框架总览

强化学习系列知识框架与学习路线

一级模块	核心问题	文档
0 系列概述	知识地图、阅读路线	RL-00.系列概述（本文）
1 概述	RL 是什么、基本元素	RL-01.概述与问题建模
2 原理	MDP、Bellman、价值函数	RL-02.原理与数学基础
3 算法	分类轴与算法谱系	RL-03.算法分类与选型
4 实现	训练循环、PyTorch 工程	RL-04.实现框架与实践
5 数据结构	Q 表、Replay、Rollout	RL-05.专属数据结构
6 评估工具	Gymnasium、指标、SB3	RL-06.评估环境与工具链
7 应用实战	场景建模、选型、落地链路	RL-07.应用实战

三、一级概述文档入口

序号	文档	主题
00	RL-00.系列概述	总览与索引
01	RL-01.概述与问题建模	Agent–Environment、奖励、场景
02	RL-02.原理与数学基础	MDP、Bellman、$V$/$Q$
03	RL-03.算法分类与选型	Model-Free、On/Off-Policy、谱系
04	RL-04.实现框架与实践	训练循环、PyTorch、调试
05	RL-05.专属数据结构	Q-Table、Replay、Rollout
06	RL-06.评估环境与工具链	Gymnasium、基准、SB3
07	RL-07.应用实战	博弈、机器人、推荐、调度

段末注释：马尔可夫决策过程（Markov Decision Process，MDP）为 RL 问题形式化的标准框架；后文沿用 MDP。

四、二级：概述、原理与算法

4.1 概述与建模（已发布）

文档	内容要点
RL-01-01-术语与符号约定	$\pi$、$V^\pi$、$Q^\pi$、$\pi^$、$Q^$、$\gamma$ 等统一符号

4.2 原理与数学（已发布）

文档	内容要点
RL-02-01-MDP与Bellman方程	$P(s’\|s,a)$、折扣回报、Bellman 期望/最优方程
RL-02-02-价值函数与策略	$V(s)$、$Q(s,a)$、策略改进定理
RL-02-03-探索与利用	$\varepsilon$-greedy、UCB、Softmax

4.3 经典与深度算法（已发布）

一级归属	文档	说明
规划	RL-03-01-算法-动态规划	策略/价值迭代（已知 $P,R$）
表格型 / 价值型	RL-03-02-算法-Q-Learning	离策略、Q 表更新
	RL-03-03-算法-SARSA	在策略
	RL-03-04-算法-蒙特卡洛	MC 预测与控制
	RL-03-05-算法-时序差分	TD(0)、n-step、TD($\lambda$)
深度价值型	RL-03-06-算法-DQN	经验回放、目标网络
	RL-03-07-算法-DQN变体	Double、Dueling、PER、Rainbow
策略梯度	RL-03-08-算法-Policy-Gradient	REINFORCE
Actor-Critic	RL-03-09-算法-Actor-Critic	A2C / A3C
	RL-03-10-算法-TRPO	KL 信任域、自然梯度
	RL-03-11-算法-PPO	裁剪 surrogate
	RL-03-12-算法-DDPG-TD3-SAC	连续控制
Model-Based	RL-03-13-算法-Dyna-Q	表格模型 + 模拟 Q
选读	RL-03-14-算法-Model-Based简介	MCTS、Dreamer、MuZero
扩展	RL-03-15-算法-多智能体RL	MADDPG、QMIX、MAPPO
	RL-03-16-算法-模仿与逆强化学习	BC、GAIL、DAgger
	RL-03-17-算法-进化策略	ES、CMA-ES、PBT

MachineLearn 目录交叉引用：

五、二级：实现与实践（已发布）

文档	内容要点
RL-04-01-训练循环与接口约定	reset/step、向量化
RL-04-02-PyTorch实现要点	网络、目标网络、gather
RL-04-03-表格型算法实现	NumPy Q-Learning / SARSA
RL-04-04-DQN实现	CartPole DQN 完整代码
RL-04-05-PPO实现	Rollout + GAE + clip
RL-04-06-超参与调优	调参顺序、config

六、二级：专属数据结构（已发布）

文档	典型算法
RL-05-01-结构-Transition元组	全系列
RL-05-02-结构-Q-Table	Q-Learning、SARSA
RL-05-03-结构-Replay-Buffer	DQN
RL-05-04-结构-Prioritized-Replay	PER
RL-05-05-结构-Rollout-Buffer	PPO、A2C
RL-05-06-结构-资格迹	TD($\lambda$)
RL-05-07-结构-策略输出	PG、PPO、SAC

汇总篇：RL-05.专属数据结构

七、二级：评估、环境与工具（已发布）

文档	内容要点
RL-06-01-Gymnasium与环境接口	Space、Wrapper
RL-06-02-经典基准环境	CartPole、Atari、MuJoCo
RL-06-03-评估指标	回报、样本效率
RL-06-04-Stable-Baselines3与生态	SB3、CleanRL
RL-06-05-实验记录与复现	seed、checkpoint

汇总篇：RL-06.评估环境与工具链

八、二级：应用实战（已发布）

文档	内容要点
RL-07-01-实战-CartPole到MuJoCo	AGV 平衡 POC + ipynb
RL-07-02-实战-推荐与Bandit	5 槽位推荐 + ipynb
RL-07-03-实战-调度仿真	生信集群调度 + ipynb
RL-07-04-实战-Sim2Real	Pendulum DR + ipynb
RL-07-05-实战-项目Checklist	走查清单 + ipynb

汇总篇：RL-07.应用实战

九、算法横向对比（选型速查）

算法	类型	动作空间	策略	核心思想	典型局限
动态规划	表格 / 规划	离散	—	已知 $P,R$，Bellman 迭代	需完整模型
Q-Learning	表格 / 价值	离散	Off-Policy	Q 表 + Bellman	状态空间大不可扩展
Dyna-Q	表格 / Model-Based	离散	Off-Policy	Q + 模拟规划	模型误差、小 MDP
SARSA	表格 / 价值	离散	On-Policy	跟着当前策略更新 Q	同左
DQN	深度 / 价值	离散	Off-Policy	Q 网络 + 经验回放	过估计、连续动作不便
Policy Gradient	深度 / 策略	离散/连续	On-Policy	直接优化 $\mathbb{E}[G]$	高方差
TRPO	深度 / Actor-Critic	离散/连续	On-Policy	KL 信任域 + 自然梯度	实现复杂
PPO	深度 / Actor-Critic	离散/连续	On-Policy	裁剪 surrogate	On-Policy 样本效率
DDPG / TD3 / SAC	深度 / Actor-Critic	连续	Off-Policy	Actor + Critic	调参敏感

十、建议阅读路线

10.1 零基础（概念 → 一个完整算法 → 实战）

RL-01.概述与问题建模
RL-01-01-术语与符号约定（符号速查，可穿插查阅）
RL-02.原理与数学基础
RL-03-02-算法-Q-Learning（或 MachineLearn Q-Learning）
RL-05.专属数据结构 + RL-04.实现框架与实践
RL-06.评估环境与工具链
RL-07.应用实战 — CartPole 案例

10.2 有深度学习基础（深度 RL）

RL-01 / RL-02 速览
RL-05 Replay → RL-03-06-算法-DQN → RL-03-07-算法-DQN变体
RL-03-11-算法-PPO → RL-05 Rollout → RL-04 PPO 实现（规划）
RL-06 指标与 SB3；RL-07 选领域案例

10.3 连续控制

Policy Gradient → Actor-Critic
DDPG / TD3 / SAC
RL-06 MuJoCo 环境 + RL-07 Sim2Real（规划）

10.4 工程落地向

RL-07 五问 + 场景地图
RL-03 选型 → RL-06 评估 checklist
RL-04 工程坑 + 二级实战篇

十一、本目录文章索引

一级模块（已发布）

文档	说明
RL-00.系列概述	本文
RL-01.概述与问题建模	概念与建模
RL-02.原理与数学基础	MDP 与 Bellman
RL-03.算法分类与选型	算法地图
RL-04.实现框架与实践	训练循环与工程
RL-05.专属数据结构	Q 表、Replay、Rollout
RL-06.评估环境与工具链	Gymnasium、SB3
RL-07.应用实战	场景与落地

二级算法篇（已发布）

文档	说明
RL-03-01-算法-动态规划	策略/价值迭代
RL-03-02-算法-Q-Learning	Off-Policy 表格 TD
RL-03-03-算法-SARSA	On-Policy 表格 TD
RL-03-04-算法-蒙特卡洛	MC 方法
RL-03-05-算法-时序差分	TD(0)/n-step/TD($\lambda$)
RL-03-06-算法-DQN	深度 Q 网络
RL-03-07-算法-DQN变体	Double / PER / Rainbow
RL-03-08-算法-Policy-Gradient	REINFORCE
RL-03-09-算法-Actor-Critic	A2C / A3C
RL-03-10-算法-TRPO	KL 信任域
RL-03-11-算法-PPO	近端策略优化
RL-03-12-算法-DDPG-TD3-SAC	连续控制
RL-03-13-算法-Dyna-Q	表格 Model-Based
RL-03-14-算法-Model-Based简介	MCTS / Dreamer 选读
RL-03-15-算法-多智能体RL	MADDPG / QMIX / MAPPO
RL-03-16-算法-模仿与逆强化学习	BC / GAIL / IRL
RL-03-17-算法-进化策略	ES / CMA-ES / PBT

未单独成篇的主流算法（离线 RL、元 RL 等）见 RL-03.算法分类与选型第八节。

二级原理篇（已发布）

文档	说明
RL-02-01-MDP与Bellman方程	Bellman 推导与算例
RL-02-02-价值函数与策略	$V$/$Q$ 与策略改进
RL-02-03-探索与利用	探索策略与 Bandit

二级概述篇（已发布）

文档	说明
RL-01-01-术语与符号约定	全系列符号与术语索引

二级实现 / 数据结构 / 评估 / 实战篇（已发布） — 详见第五～八节；算法共 17 篇；含 RL-04-04-DQN实现、RL-04-05-PPO实现、RL-07-01-实战-CartPole到MuJoCo 等共 30 篇子文档（含概述 1 篇）。

站外延伸阅读

十二、与 `02.开发-20.MachineLearn` 的分工

目录	定位
MachineLearn	机器学习 broad 主题；已有 RL 概述与 Q-Learning 入门
强化学习（本目录）	RL 专系列：原理、算法、实现、数据结构、评估、应用实战

新文章优先写入本目录；MachineLearn 中 RL 文可保留作历史入口，并链到 RL-00。

十三、小结

整体：RL = 序贯决策 + 延迟回报 + 探索；形式化用 MDP。
七块一级模块：概述 → 原理 → 算法 → 实现 → 数据结构 → 评估工具 → 应用实战。
配图：各一级篇含科普漫画风格插图，辅助建立直觉。
二级子篇：概述 1 + 原理 3 + 算法 17 + 实现 6 + 数据结构 7 + 评估 5 + 实战 5，可沿 RL-00 第四～八节顺序阅读；符号疑问查术语与符号约定；算法缺口见 RL-03 第八节；扩展算法见多智能体/模仿/ES；动手建议从 CartPole 实战开始。