RL-03-04-算法-蒙特卡洛

蒙特卡洛（Monte Carlo，MC）方法用完整 episode 的采样回报 $G_t$ 估计价值函数，不做 Bootstrap。它是 TD 与 Q-Learning 的采样理论对照，也用于 episode 短、需无偏估计的场景。

段末注释：蒙特卡洛（Monte Carlo，MC）指用完整轨迹回报估计价值的 RL 方法；后文沿用 MC。

MC 与 TD 对比示意

一、MC vs TD（概览）

从 $t$ 时刻起的回报：

$$
G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots
$$

MC 预测：对策略 $\pi$，用多次 episode 中访问 $s$ 后的 $G_t$ 样本平均估计 $V^\pi(s)$。

变体	规则
First-Visit MC	每个 episode 中，$s$ 首次出现后的 $G_t$ 计入平均
Every-Visit MC	$s$ 每次出现后的 $G_t$ 都计入

两者在适当条件下均收敛到 $V^\pi$；First-Visit 更常用。

更新（增量形式）：

$$
V(S_t) \leftarrow V(S_t) + \alpha \left( G_t - V(S_t) \right)
$$

对 $(s,a)$ 首次访问后的回报取平均，用于 MC 控制：

与动态规划的策略迭代结构相同，但用采样回报替代 Bellman 期望。

广义迭代探索（Greedy in the Limit with Infinite Exploration，GLIE）：探索率渐近趋于 0，但每 $(s,a)$ 仍被无限次访问。

常用 $\varepsilon$-soft 策略改进 + MC 评估，收敛到最优策略（表格、适当条件）。

REINFORCE 策略梯度可看作用 $G_t$ 的 MC 策略梯度特例，见 Policy Gradient。

动态规划（已知 P, R）
    ↓ 模型未知，采样
蒙特卡洛 MC ──→ n-step ──→ TD(0) ──→ Q-Learning / SARSA
                    ↑
              TD(λ) + 资格迹（见 TD 专篇）