RL-00.系列概述

本文作为 02.开发-21.强化学习系列入口:先建立整体知识地图,再按 概述 → 原理 → 算法 → 实现 → 数据结构 → 评估工具 → 应用实战 的顺序展开。各一级模块均配有科普漫画风格配图,便于建立直觉。

段末注释:强化学习(Reinforcement Learning,RL)指智能体在与环境交互中通过试错与延迟回报学习策略的机器学习范式;后文沿用 RL


一、本系列要解决什么问题

与监督学习「给定输入—标签对」不同,RL 关心的是:在不确定环境中,如何通过序贯决策最大化长期累积回报。典型问题包括:

  • 离散/连续控制(游戏、机器人、资源调度)
  • 序贯决策与探索—利用(Exploration–Exploitation)权衡
  • 延迟回报与信用分配(Credit Assignment)
  • 从表格到小状态空间,到高维感知(深度强化学习,Deep RL)

本目录目标:把 RL 从「概念—公式—算法—代码—数据结构—评估—落地」串成可复习、可落地的笔记体系


二、一级:知识框架总览

强化学习系列知识框架与学习路线

一级模块 核心问题 文档
0 系列概述 知识地图、阅读路线 RL-00.系列概述(本文)
1 概述 RL 是什么、基本元素 RL-01.概述与问题建模
2 原理 MDP、Bellman、价值函数 RL-02.原理与数学基础
3 算法 分类轴与算法谱系 RL-03.算法分类与选型
4 实现 训练循环、PyTorch 工程 RL-04.实现框架与实践
5 数据结构 Q 表、Replay、Rollout RL-05.专属数据结构
6 评估工具 Gymnasium、指标、SB3 RL-06.评估环境与工具链
7 应用实战 场景建模、选型、落地链路 RL-07.应用实战

三、一级概述文档入口

序号 文档 主题
00 RL-00.系列概述 总览与索引
01 RL-01.概述与问题建模 Agent–Environment、奖励、场景
02 RL-02.原理与数学基础 MDP、Bellman、$V$/$Q$
03 RL-03.算法分类与选型 Model-Free、On/Off-Policy、谱系
04 RL-04.实现框架与实践 训练循环、PyTorch、调试
05 RL-05.专属数据结构 Q-Table、Replay、Rollout
06 RL-06.评估环境与工具链 Gymnasium、基准、SB3
07 RL-07.应用实战 博弈、机器人、推荐、调度

段末注释:马尔可夫决策过程(Markov Decision Process,MDP)为 RL 问题形式化的标准框架;后文沿用 MDP


四、二级:概述、原理与算法

4.1 概述与建模(已发布)

文档 内容要点
RL-01-01-术语与符号约定 $\pi$、$V^\pi$、$Q^\pi$、$\pi^$、$Q^$、$\gamma$ 等统一符号

4.2 原理与数学(已发布)

文档 内容要点
RL-02-01-MDP与Bellman方程 $P(s’|s,a)$、折扣回报、Bellman 期望/最优方程
RL-02-02-价值函数与策略 $V(s)$、$Q(s,a)$、策略改进定理
RL-02-03-探索与利用 $\varepsilon$-greedy、UCB、Softmax

4.3 经典与深度算法(已发布)

一级归属 文档 说明
规划 RL-03-01-算法-动态规划 策略/价值迭代(已知 $P,R$)
表格型 / 价值型 RL-03-02-算法-Q-Learning 离策略、Q 表更新
RL-03-03-算法-SARSA 在策略
RL-03-04-算法-蒙特卡洛 MC 预测与控制
RL-03-05-算法-时序差分 TD(0)、n-step、TD($\lambda$)
深度价值型 RL-03-06-算法-DQN 经验回放、目标网络
RL-03-07-算法-DQN变体 Double、Dueling、PER、Rainbow
策略梯度 RL-03-08-算法-Policy-Gradient REINFORCE
Actor-Critic RL-03-09-算法-Actor-Critic A2C / A3C
RL-03-10-算法-TRPO KL 信任域、自然梯度
RL-03-11-算法-PPO 裁剪 surrogate
RL-03-12-算法-DDPG-TD3-SAC 连续控制
Model-Based RL-03-13-算法-Dyna-Q 表格模型 + 模拟 Q
选读 RL-03-14-算法-Model-Based简介 MCTS、Dreamer、MuZero
扩展 RL-03-15-算法-多智能体RL MADDPG、QMIX、MAPPO
RL-03-16-算法-模仿与逆强化学习 BC、GAIL、DAgger
RL-03-17-算法-进化策略 ES、CMA-ES、PBT

MachineLearn 目录交叉引用:


五、二级:实现与实践(已发布)

文档 内容要点
RL-04-01-训练循环与接口约定 reset/step、向量化
RL-04-02-PyTorch实现要点 网络、目标网络、gather
RL-04-03-表格型算法实现 NumPy Q-Learning / SARSA
RL-04-04-DQN实现 CartPole DQN 完整代码
RL-04-05-PPO实现 Rollout + GAE + clip
RL-04-06-超参与调优 调参顺序、config

六、二级:专属数据结构(已发布)

文档 典型算法
RL-05-01-结构-Transition元组 全系列
RL-05-02-结构-Q-Table Q-Learning、SARSA
RL-05-03-结构-Replay-Buffer DQN
RL-05-04-结构-Prioritized-Replay PER
RL-05-05-结构-Rollout-Buffer PPO、A2C
RL-05-06-结构-资格迹 TD($\lambda$)
RL-05-07-结构-策略输出 PG、PPO、SAC

汇总篇:RL-05.专属数据结构


七、二级:评估、环境与工具(已发布)

文档 内容要点
RL-06-01-Gymnasium与环境接口 Space、Wrapper
RL-06-02-经典基准环境 CartPole、Atari、MuJoCo
RL-06-03-评估指标 回报、样本效率
RL-06-04-Stable-Baselines3与生态 SB3、CleanRL
RL-06-05-实验记录与复现 seed、checkpoint

汇总篇:RL-06.评估环境与工具链


八、二级:应用实战(已发布)

文档 内容要点
RL-07-01-实战-CartPole到MuJoCo AGV 平衡 POC + ipynb
RL-07-02-实战-推荐与Bandit 5 槽位推荐 + ipynb
RL-07-03-实战-调度仿真 生信集群调度 + ipynb
RL-07-04-实战-Sim2Real Pendulum DR + ipynb
RL-07-05-实战-项目Checklist 走查清单 + ipynb

汇总篇:RL-07.应用实战


九、算法横向对比(选型速查)

算法 类型 动作空间 策略 核心思想 典型局限
动态规划 表格 / 规划 离散 已知 $P,R$,Bellman 迭代 需完整模型
Q-Learning 表格 / 价值 离散 Off-Policy Q 表 + Bellman 状态空间大不可扩展
Dyna-Q 表格 / Model-Based 离散 Off-Policy Q + 模拟规划 模型误差、小 MDP
SARSA 表格 / 价值 离散 On-Policy 跟着当前策略更新 Q 同左
DQN 深度 / 价值 离散 Off-Policy Q 网络 + 经验回放 过估计、连续动作不便
Policy Gradient 深度 / 策略 离散/连续 On-Policy 直接优化 $\mathbb{E}[G]$ 高方差
TRPO 深度 / Actor-Critic 离散/连续 On-Policy KL 信任域 + 自然梯度 实现复杂
PPO 深度 / Actor-Critic 离散/连续 On-Policy 裁剪 surrogate On-Policy 样本效率
DDPG / TD3 / SAC 深度 / Actor-Critic 连续 Off-Policy Actor + Critic 调参敏感

十、建议阅读路线

10.1 零基础(概念 → 一个完整算法 → 实战)

  1. RL-01.概述与问题建模
  2. RL-01-01-术语与符号约定(符号速查,可穿插查阅)
  3. RL-02.原理与数学基础
  4. RL-03-02-算法-Q-Learning(或 MachineLearn Q-Learning
  5. RL-05.专属数据结构 + RL-04.实现框架与实践
  6. RL-06.评估环境与工具链
  7. RL-07.应用实战 — CartPole 案例

10.2 有深度学习基础(深度 RL)

  1. RL-01 / RL-02 速览
  2. RL-05 Replay → RL-03-06-算法-DQNRL-03-07-算法-DQN变体
  3. RL-03-11-算法-PPO → RL-05 Rollout → RL-04 PPO 实现(规划)
  4. RL-06 指标与 SB3;RL-07 选领域案例

10.3 连续控制

  1. Policy GradientActor-Critic
  2. DDPG / TD3 / SAC
  3. RL-06 MuJoCo 环境 + RL-07 Sim2Real(规划)

10.4 工程落地向

  1. RL-07 五问 + 场景地图
  2. RL-03 选型 → RL-06 评估 checklist
  3. RL-04 工程坑 + 二级实战篇

十一、本目录文章索引

一级模块(已发布)

文档 说明
RL-00.系列概述 本文
RL-01.概述与问题建模 概念与建模
RL-02.原理与数学基础 MDP 与 Bellman
RL-03.算法分类与选型 算法地图
RL-04.实现框架与实践 训练循环与工程
RL-05.专属数据结构 Q 表、Replay、Rollout
RL-06.评估环境与工具链 Gymnasium、SB3
RL-07.应用实战 场景与落地

二级算法篇(已发布)

文档 说明
RL-03-01-算法-动态规划 策略/价值迭代
RL-03-02-算法-Q-Learning Off-Policy 表格 TD
RL-03-03-算法-SARSA On-Policy 表格 TD
RL-03-04-算法-蒙特卡洛 MC 方法
RL-03-05-算法-时序差分 TD(0)/n-step/TD($\lambda$)
RL-03-06-算法-DQN 深度 Q 网络
RL-03-07-算法-DQN变体 Double / PER / Rainbow
RL-03-08-算法-Policy-Gradient REINFORCE
RL-03-09-算法-Actor-Critic A2C / A3C
RL-03-10-算法-TRPO KL 信任域
RL-03-11-算法-PPO 近端策略优化
RL-03-12-算法-DDPG-TD3-SAC 连续控制
RL-03-13-算法-Dyna-Q 表格 Model-Based
RL-03-14-算法-Model-Based简介 MCTS / Dreamer 选读
RL-03-15-算法-多智能体RL MADDPG / QMIX / MAPPO
RL-03-16-算法-模仿与逆强化学习 BC / GAIL / IRL
RL-03-17-算法-进化策略 ES / CMA-ES / PBT

未单独成篇的主流算法(离线 RL、元 RL 等)见 RL-03.算法分类与选型 第八节。

二级原理篇(已发布)

文档 说明
RL-02-01-MDP与Bellman方程 Bellman 推导与算例
RL-02-02-价值函数与策略 $V$/$Q$ 与策略改进
RL-02-03-探索与利用 探索策略与 Bandit

二级概述篇(已发布)

文档 说明
RL-01-01-术语与符号约定 全系列符号与术语索引

二级实现 / 数据结构 / 评估 / 实战篇(已发布) — 详见第五~八节;算法共 17 篇;含 RL-04-04-DQN实现RL-04-05-PPO实现RL-07-01-实战-CartPole到MuJoCo 等共 30 篇子文档(含概述 1 篇)。

站外延伸阅读


十二、与 02.开发-20.MachineLearn 的分工

目录 定位
MachineLearn 机器学习 broad 主题;已有 RL 概述与 Q-Learning 入门
强化学习(本目录) RL 专系列:原理、算法、实现、数据结构、评估、应用实战

新文章优先写入本目录;MachineLearn 中 RL 文可保留作历史入口,并链到 RL-00


十三、小结

  • 整体:RL = 序贯决策 + 延迟回报 + 探索;形式化用 MDP
  • 七块一级模块:概述 → 原理 → 算法 → 实现 → 数据结构 → 评估工具 → 应用实战
  • 配图:各一级篇含科普漫画风格插图,辅助建立直觉。
  • 二级子篇:概述 1 + 原理 3 + 算法 17 + 实现 6 + 数据结构 7 + 评估 5 + 实战 5,可沿 RL-00 第四~八节顺序阅读;符号疑问查 术语与符号约定;算法缺口见 RL-03 第八节;扩展算法见 多智能体/模仿/ES;动手建议从 CartPole 实战 开始。
-------------本文结束感谢您的阅读-------------