本文作为 02.开发-21.强化学习 的系列入口:先建立整体知识地图,再按 概述 → 原理 → 算法 → 实现 → 数据结构 → 评估工具 → 应用实战 的顺序展开。各一级模块均配有科普漫画风格配图,便于建立直觉。
段末注释:强化学习(Reinforcement Learning,RL)指智能体在与环境交互中通过试错与延迟回报学习策略的机器学习范式;后文沿用 RL。
一、本系列要解决什么问题
与监督学习「给定输入—标签对」不同,RL 关心的是:在不确定环境中,如何通过序贯决策最大化长期累积回报。典型问题包括:
- 离散/连续控制(游戏、机器人、资源调度)
- 序贯决策与探索—利用(Exploration–Exploitation)权衡
- 延迟回报与信用分配(Credit Assignment)
- 从表格到小状态空间,到高维感知(深度强化学习,Deep RL)
本目录目标:把 RL 从「概念—公式—算法—代码—数据结构—评估—落地」串成可复习、可落地的笔记体系。
二、一级:知识框架总览

| 一级模块 | 核心问题 | 文档 |
|---|---|---|
| 0 系列概述 | 知识地图、阅读路线 | RL-00.系列概述(本文) |
| 1 概述 | RL 是什么、基本元素 | RL-01.概述与问题建模 |
| 2 原理 | MDP、Bellman、价值函数 | RL-02.原理与数学基础 |
| 3 算法 | 分类轴与算法谱系 | RL-03.算法分类与选型 |
| 4 实现 | 训练循环、PyTorch 工程 | RL-04.实现框架与实践 |
| 5 数据结构 | Q 表、Replay、Rollout | RL-05.专属数据结构 |
| 6 评估工具 | Gymnasium、指标、SB3 | RL-06.评估环境与工具链 |
| 7 应用实战 | 场景建模、选型、落地链路 | RL-07.应用实战 |
三、一级概述文档入口
| 序号 | 文档 | 主题 |
|---|---|---|
| 00 | RL-00.系列概述 | 总览与索引 |
| 01 | RL-01.概述与问题建模 | Agent–Environment、奖励、场景 |
| 02 | RL-02.原理与数学基础 | MDP、Bellman、$V$/$Q$ |
| 03 | RL-03.算法分类与选型 | Model-Free、On/Off-Policy、谱系 |
| 04 | RL-04.实现框架与实践 | 训练循环、PyTorch、调试 |
| 05 | RL-05.专属数据结构 | Q-Table、Replay、Rollout |
| 06 | RL-06.评估环境与工具链 | Gymnasium、基准、SB3 |
| 07 | RL-07.应用实战 | 博弈、机器人、推荐、调度 |
段末注释:马尔可夫决策过程(Markov Decision Process,MDP)为 RL 问题形式化的标准框架;后文沿用 MDP。
四、二级:概述、原理与算法
4.1 概述与建模(已发布)
| 文档 | 内容要点 |
|---|---|
| RL-01-01-术语与符号约定 | $\pi$、$V^\pi$、$Q^\pi$、$\pi^$、$Q^$、$\gamma$ 等统一符号 |
4.2 原理与数学(已发布)
| 文档 | 内容要点 |
|---|---|
| RL-02-01-MDP与Bellman方程 | $P(s’|s,a)$、折扣回报、Bellman 期望/最优方程 |
| RL-02-02-价值函数与策略 | $V(s)$、$Q(s,a)$、策略改进定理 |
| RL-02-03-探索与利用 | $\varepsilon$-greedy、UCB、Softmax |
4.3 经典与深度算法(已发布)
| 一级归属 | 文档 | 说明 |
|---|---|---|
| 规划 | RL-03-01-算法-动态规划 | 策略/价值迭代(已知 $P,R$) |
| 表格型 / 价值型 | RL-03-02-算法-Q-Learning | 离策略、Q 表更新 |
| RL-03-03-算法-SARSA | 在策略 | |
| RL-03-04-算法-蒙特卡洛 | MC 预测与控制 | |
| RL-03-05-算法-时序差分 | TD(0)、n-step、TD($\lambda$) | |
| 深度价值型 | RL-03-06-算法-DQN | 经验回放、目标网络 |
| RL-03-07-算法-DQN变体 | Double、Dueling、PER、Rainbow | |
| 策略梯度 | RL-03-08-算法-Policy-Gradient | REINFORCE |
| Actor-Critic | RL-03-09-算法-Actor-Critic | A2C / A3C |
| RL-03-10-算法-TRPO | KL 信任域、自然梯度 | |
| RL-03-11-算法-PPO | 裁剪 surrogate | |
| RL-03-12-算法-DDPG-TD3-SAC | 连续控制 | |
| Model-Based | RL-03-13-算法-Dyna-Q | 表格模型 + 模拟 Q |
| 选读 | RL-03-14-算法-Model-Based简介 | MCTS、Dreamer、MuZero |
| 扩展 | RL-03-15-算法-多智能体RL | MADDPG、QMIX、MAPPO |
| RL-03-16-算法-模仿与逆强化学习 | BC、GAIL、DAgger | |
| RL-03-17-算法-进化策略 | ES、CMA-ES、PBT |
MachineLearn 目录交叉引用:
五、二级:实现与实践(已发布)
| 文档 | 内容要点 |
|---|---|
| RL-04-01-训练循环与接口约定 | reset/step、向量化 |
| RL-04-02-PyTorch实现要点 | 网络、目标网络、gather |
| RL-04-03-表格型算法实现 | NumPy Q-Learning / SARSA |
| RL-04-04-DQN实现 | CartPole DQN 完整代码 |
| RL-04-05-PPO实现 | Rollout + GAE + clip |
| RL-04-06-超参与调优 | 调参顺序、config |
六、二级:专属数据结构(已发布)
| 文档 | 典型算法 |
|---|---|
| RL-05-01-结构-Transition元组 | 全系列 |
| RL-05-02-结构-Q-Table | Q-Learning、SARSA |
| RL-05-03-结构-Replay-Buffer | DQN |
| RL-05-04-结构-Prioritized-Replay | PER |
| RL-05-05-结构-Rollout-Buffer | PPO、A2C |
| RL-05-06-结构-资格迹 | TD($\lambda$) |
| RL-05-07-结构-策略输出 | PG、PPO、SAC |
汇总篇:RL-05.专属数据结构
七、二级:评估、环境与工具(已发布)
| 文档 | 内容要点 |
|---|---|
| RL-06-01-Gymnasium与环境接口 | Space、Wrapper |
| RL-06-02-经典基准环境 | CartPole、Atari、MuJoCo |
| RL-06-03-评估指标 | 回报、样本效率 |
| RL-06-04-Stable-Baselines3与生态 | SB3、CleanRL |
| RL-06-05-实验记录与复现 | seed、checkpoint |
汇总篇:RL-06.评估环境与工具链
八、二级:应用实战(已发布)
| 文档 | 内容要点 |
|---|---|
| RL-07-01-实战-CartPole到MuJoCo | AGV 平衡 POC + ipynb |
| RL-07-02-实战-推荐与Bandit | 5 槽位推荐 + ipynb |
| RL-07-03-实战-调度仿真 | 生信集群调度 + ipynb |
| RL-07-04-实战-Sim2Real | Pendulum DR + ipynb |
| RL-07-05-实战-项目Checklist | 走查清单 + ipynb |
汇总篇:RL-07.应用实战
九、算法横向对比(选型速查)
| 算法 | 类型 | 动作空间 | 策略 | 核心思想 | 典型局限 |
|---|---|---|---|---|---|
| 动态规划 | 表格 / 规划 | 离散 | — | 已知 $P,R$,Bellman 迭代 | 需完整模型 |
| Q-Learning | 表格 / 价值 | 离散 | Off-Policy | Q 表 + Bellman | 状态空间大不可扩展 |
| Dyna-Q | 表格 / Model-Based | 离散 | Off-Policy | Q + 模拟规划 | 模型误差、小 MDP |
| SARSA | 表格 / 价值 | 离散 | On-Policy | 跟着当前策略更新 Q | 同左 |
| DQN | 深度 / 价值 | 离散 | Off-Policy | Q 网络 + 经验回放 | 过估计、连续动作不便 |
| Policy Gradient | 深度 / 策略 | 离散/连续 | On-Policy | 直接优化 $\mathbb{E}[G]$ | 高方差 |
| TRPO | 深度 / Actor-Critic | 离散/连续 | On-Policy | KL 信任域 + 自然梯度 | 实现复杂 |
| PPO | 深度 / Actor-Critic | 离散/连续 | On-Policy | 裁剪 surrogate | On-Policy 样本效率 |
| DDPG / TD3 / SAC | 深度 / Actor-Critic | 连续 | Off-Policy | Actor + Critic | 调参敏感 |
十、建议阅读路线
10.1 零基础(概念 → 一个完整算法 → 实战)
- RL-01.概述与问题建模
- RL-01-01-术语与符号约定(符号速查,可穿插查阅)
- RL-02.原理与数学基础
- RL-03-02-算法-Q-Learning(或 MachineLearn Q-Learning)
- RL-05.专属数据结构 + RL-04.实现框架与实践
- RL-06.评估环境与工具链
- RL-07.应用实战 — CartPole 案例
10.2 有深度学习基础(深度 RL)
- RL-01 / RL-02 速览
- RL-05 Replay → RL-03-06-算法-DQN → RL-03-07-算法-DQN变体
- RL-03-11-算法-PPO → RL-05 Rollout → RL-04 PPO 实现(规划)
- RL-06 指标与 SB3;RL-07 选领域案例
10.3 连续控制
- Policy Gradient → Actor-Critic
- DDPG / TD3 / SAC
- RL-06 MuJoCo 环境 + RL-07 Sim2Real(规划)
10.4 工程落地向
- RL-07 五问 + 场景地图
- RL-03 选型 → RL-06 评估 checklist
- RL-04 工程坑 + 二级实战篇
十一、本目录文章索引
一级模块(已发布)
| 文档 | 说明 |
|---|---|
| RL-00.系列概述 | 本文 |
| RL-01.概述与问题建模 | 概念与建模 |
| RL-02.原理与数学基础 | MDP 与 Bellman |
| RL-03.算法分类与选型 | 算法地图 |
| RL-04.实现框架与实践 | 训练循环与工程 |
| RL-05.专属数据结构 | Q 表、Replay、Rollout |
| RL-06.评估环境与工具链 | Gymnasium、SB3 |
| RL-07.应用实战 | 场景与落地 |
二级算法篇(已发布)
| 文档 | 说明 |
|---|---|
| RL-03-01-算法-动态规划 | 策略/价值迭代 |
| RL-03-02-算法-Q-Learning | Off-Policy 表格 TD |
| RL-03-03-算法-SARSA | On-Policy 表格 TD |
| RL-03-04-算法-蒙特卡洛 | MC 方法 |
| RL-03-05-算法-时序差分 | TD(0)/n-step/TD($\lambda$) |
| RL-03-06-算法-DQN | 深度 Q 网络 |
| RL-03-07-算法-DQN变体 | Double / PER / Rainbow |
| RL-03-08-算法-Policy-Gradient | REINFORCE |
| RL-03-09-算法-Actor-Critic | A2C / A3C |
| RL-03-10-算法-TRPO | KL 信任域 |
| RL-03-11-算法-PPO | 近端策略优化 |
| RL-03-12-算法-DDPG-TD3-SAC | 连续控制 |
| RL-03-13-算法-Dyna-Q | 表格 Model-Based |
| RL-03-14-算法-Model-Based简介 | MCTS / Dreamer 选读 |
| RL-03-15-算法-多智能体RL | MADDPG / QMIX / MAPPO |
| RL-03-16-算法-模仿与逆强化学习 | BC / GAIL / IRL |
| RL-03-17-算法-进化策略 | ES / CMA-ES / PBT |
未单独成篇的主流算法(离线 RL、元 RL 等)见 RL-03.算法分类与选型 第八节。
二级原理篇(已发布)
| 文档 | 说明 |
|---|---|
| RL-02-01-MDP与Bellman方程 | Bellman 推导与算例 |
| RL-02-02-价值函数与策略 | $V$/$Q$ 与策略改进 |
| RL-02-03-探索与利用 | 探索策略与 Bandit |
二级概述篇(已发布)
| 文档 | 说明 |
|---|---|
| RL-01-01-术语与符号约定 | 全系列符号与术语索引 |
二级实现 / 数据结构 / 评估 / 实战篇(已发布) — 详见第五~八节;算法共 17 篇;含 RL-04-04-DQN实现、RL-04-05-PPO实现、RL-07-01-实战-CartPole到MuJoCo 等共 30 篇子文档(含概述 1 篇)。
站外延伸阅读
十二、与 02.开发-20.MachineLearn 的分工
| 目录 | 定位 |
|---|---|
| MachineLearn | 机器学习 broad 主题;已有 RL 概述与 Q-Learning 入门 |
| 强化学习(本目录) | RL 专系列:原理、算法、实现、数据结构、评估、应用实战 |
新文章优先写入本目录;MachineLearn 中 RL 文可保留作历史入口,并链到 RL-00。
十三、小结
- 整体:RL = 序贯决策 + 延迟回报 + 探索;形式化用 MDP。
- 七块一级模块:概述 → 原理 → 算法 → 实现 → 数据结构 → 评估工具 → 应用实战。
- 配图:各一级篇含科普漫画风格插图,辅助建立直觉。
- 二级子篇:概述 1 + 原理 3 + 算法 17 + 实现 6 + 数据结构 7 + 评估 5 + 实战 5,可沿 RL-00 第四~八节顺序阅读;符号疑问查 术语与符号约定;算法缺口见 RL-03 第八节;扩展算法见 多智能体/模仿/ES;动手建议从 CartPole 实战 开始。