RL-02-03-探索与利用

← 上级:RL-02.原理与数学基础 · 算法:RL-03-02-算法-Q-Learning

RL 的奖励信号稀疏且延迟,Agent 必须在尝试未知动作(探索)与执行当前最优(利用)之间权衡。本文从多臂老虎机(Multi-Armed Bandit,MAB)出发,介绍常用探索策略及在 Q-Learning 中的用法。

段末注释:多臂老虎机(Multi-Armed Bandit,MAB)指每步在多个动作中选一个、仅观测该臂奖励的简化 RL 问题;后文沿用 MAB

探索与利用权衡示意


一、为何必须探索

仅选 $\arg\max_a Q(s,a)$ 时:

  • 未试过的动作 $Q(s,a)$ 可能仍为初值 0,永不被选中
  • 环境非平稳时,旧最优可能已失效。

探索保证每个 $(s,a)$ 或每个 bandit 臂有足够样本,使估计收敛到真值或适应变化。


二、多臂老虎机(无状态)

$K$ 个臂,选臂 $a$ 得奖励 $R \sim \mathcal{D}_a$,目标最大化累积奖励。

设定 说明
Regret 与始终选最优臂的奖励差
平稳 $\mathcal{D}_a$ 不随时间变
Contextual 加入上下文 $x$,即 Contextual Bandit

MAB 是 RL 的「单状态」特例;推荐系统常用 Contextual Bandit 做快速 A/B,见 RL-07.应用实战


三、$\varepsilon$-greedy

$$
a = \begin{cases}
\text{Uniform}(A) & \text{概率 } \varepsilon \
\arg\max_a Q(s,a) & \text{概率 } 1-\varepsilon
\end{cases}
$$

优点 缺点
实现极简 探索与利用不区分不确定性
Q-Learning 标配 线性 $\varepsilon$ 可能探索过多或过早利用

3.1 衰减 Schedule

策略 形式
线性 $\varepsilon_t = \max(\varepsilon_{\min}, \varepsilon_0 - kt)$
指数 $\varepsilon_t = \varepsilon_{\min} + (\varepsilon_0 - \varepsilon_{\min}) e^{-\lambda t}$
分阶段 前 10% 步 $\varepsilon=1$,再衰减

DQN 论文:前 $10^6$ 步从 1.0 线性降至 0.1。


四、Softmax / Boltzmann 探索

按 $Q$ 值比例采样:

$$
\pi(a|s) = \frac{\exp(Q(s,a)/\tau)}{\sum_{a’} \exp(Q(s,a’)/\tau)}
$$

温度 $\tau$:

  • $\tau \to 0$:接近贪心
  • $\tau \to \infty$:均匀随机

比 $\varepsilon$-greedy 更「平滑」地偏向高 $Q$ 动作;SAC 等用熵正则化是连续/随机策略侧的延伸。


五、UCB(Upper Confidence Bound)

每臂 $a$ 维护估计 $\hat{Q}_a$ 与次数 $N_a$,选:

$$
a = \arg\max_a \left( \hat{Q}_a + c \sqrt{\frac{\ln t}{N_a}} \right)
$$

乐观面对不确定性:尝试次数 $N_a$ 小的臂 bonus 大,自动探索。

特点 说明
理论 Regret 界 平稳 bandit 下对数级
状态扩展 到 MDP 需每 $(s,a)$ 计数,状态大时不适用

六、Thompson Sampling(简述)

为每臂维护奖励分布的后验(如 Beta),每步从后验采样一值再 $\arg\max$,自然平衡探索与利用。贝叶斯 bandit 常用,工程上 Contextual Bandit 也常见。


七、在 Q-Learning / DQN 中的组合

组件 探索角色
行为策略 $\varepsilon$-greedy 或 Noisy Net
学习目标 Q-Learning 仍对 $\max Q(s’,a’)$(Off-Policy)
衰减 训练后期减小 $\varepsilon$,提高利用

注意:SARSA 的 On-Policy 更新与 $\varepsilon$-greedy 行为一致,悬崖行走等例中更保守。


八、探索不足 vs 过度

现象 可能原因 调整
回报平台早、策略次优 探索不足 提高 $\varepsilon$、延长衰减
曲线震荡、不收敛 探索过多 加快衰减、降 $\varepsilon_{\min}$
局部最优 状态覆盖不全 乐观初值、Intrinsic reward

九、与「利用」相关的非探索技巧

技巧 作用
经验回放 重复利用旧数据(Off-Policy 样本效率)
目标网络 稳定 Bootstrap 目标
PPO clip 限制策略更新,避免一步破坏已有策略

这些不替代探索,但影响利用侧稳定性。


十、小结

  • 探索–利用 = 在不确定下采样 vs 执行当前最优。
  • 入门:$\varepsilon$-greedy + 衰减;Bandit 理论:UCB / Thompson
  • MDP 中探索保证 $(s,a)$ 覆盖;与 Q-Learning、SARSA 行为策略紧密相关。
  • 上一篇:价值函数与策略 · 下一级:RL-03 算法
-------------本文结束感谢您的阅读-------------