得分匹配(Score Matching)与随机微分方程(Stochastic Differential Equation,SDE)为扩散生成提供了与 DDPM 并行的连续时间视角:不再固定 (T=1000) 的离散步,而把加噪建模为伊藤 SDE(Itô SDE),把生成建模为逆向 SDE 或等价的概率流常微分方程(Probability Flow ODE)。Song et al.(2021)证明 VE / VP-SDE 统一了 SMLD(NCSN) 与 DDPM;理解这一框架有助于选择求解器步长、设计连续时间噪声日程,以及阅读现代结构/分子扩散代码中的 sigma 调度。
段末注释:得分 (\nabla_x \log p(x)) 指向数据密度增大的方向;SDE 用随机过程描述连续时间状态演化;ODE 为确定性常微分方程。
前置阅读:5003.大模型-架构-Diffusion-1.前向扩散与变分下界、Diffusion-Math-0 概率与扩散数学基础
1. 得分函数与生成
对未知数据密度 (p(x)),得分定义为:
[
s(x) = \nabla_x \log p(x).
]

朗之万动力学(Langevin dynamics) 可用得分做 MCMC 采样:
[
x_{k+1} = x_k + \frac{\eta}{2},s(x_k) + \sqrt{\eta},\xi_k,
\quad \xi_k \sim \mathcal{N}(0, \mathbf{I}).
]
当 (\eta \to 0) 且步数 (\to \infty),(x_k) 的分布收敛到 (p(x))——但高维、多模态分布上混合极慢。NCSN(Noise Conditional Score Network) 的核心想法:对多噪声级别 (\sigma) 分别学习 (s_\theta(x, \sigma) \approx \nabla_x \log p_\sigma(x)),从大到小退火朗之万,逐步从噪声回到数据流形。
2. 去噪得分匹配(Denoising Score Matching,DSM)
直接对 (\log p(x)) 做分数匹配需计算 (\nabla_x s(x))(Hessian 迹),维数灾难。DSM(Vincent, 2011)等价目标:加噪后预测得分。
设 (x = x_0 + \sigma \epsilon),(x_0 \sim p(x_0)),(\epsilon \sim \mathcal{N}(0,\mathbf{I}))。则:
概念锚点 · 重参数化与加噪:DSM 的 (x = x_0 + \sigma\epsilon) 与 DDPM 的 (x_t = \sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha_t}\epsilon) 同型;(\sigma \leftrightarrow \sqrt{1-\bar\alpha_t})(Math-0 §8–§10)。

[
\nabla_x \log p_\sigma(x) = \mathbb{E}_{x_0\mid x}\Big[-\frac{x - x_0}{\sigma^2}\Big] = -\frac{\mathbb{E}[\epsilon]}{\sigma}.
]
训练目标:
[
\mathcal{L}{\mathrm{DSM}} = \mathbb{E}{x_0,,\epsilon,,\sigma}\Big[\big|s_\theta(x,\sigma) + \frac{\epsilon}{\sigma}\big|^2\Big].
]
与 DDPM 的 (\epsilon)-prediction 关系:(s_\theta \approx -\epsilon/\sigma),且 (\sigma) 与 (\sqrt{1-\bar\alpha_t}) 角色对应。
段末注释:DSM 通过加噪分布避免直接对 (p(x)) 求迹;NCSN 为 Song & Ermon 的噪声条件得分网络系列。
3. 前向 SDE:统一离散扩散
Song et al. 将前向过程写为:
[
\mathrm{d}x = f(x,t),\mathrm{d}t + g(t),\mathrm{d}w,
]
(w) 为标准维纳过程。两类典型 SDE:
3.1 方差爆炸 SDE(VE-SDE,对应 NCSN/SMLD)
[
\mathrm{d}x = \sqrt{\frac{\mathrm{d},\sigma^2(t)}{\mathrm{d}t}},\mathrm{d}w.
]
噪声水平 (\sigma(t)) 从 (\sigma_{\min}) 单调增至 (\sigma_{\max})。边缘分布 (p_t(x)) 方差不断增大,似「爆炸」。
3.2 方差保持 SDE(VP-SDE,对应 DDPM 连续极限)
[
\mathrm{d}x = -\frac{1}{2}\beta(t),x,\mathrm{d}t + \sqrt{\beta(t)},\mathrm{d}w.
]
与离散 DDPM 中 (\sqrt{1-\beta_t},x_{t-1}) 对应;(t\to\infty) 时 (x) 趋于 (\mathcal{N}(0,\mathbf{I}))。
离散 ↔ 连续:DDPM 的 (\beta_t) 是 VP-SDE 在 (t\in[0,1]) 上 Euler–Maruyama 离散化;(T) 越大,离散链越逼近连续 SDE。

4. 逆向 SDE:生成方程
Anderson(1982)给出:若前向满足上述 SDE,则逆向过程(时间倒流)满足:
[
\mathrm{d}x = \Big[f(x,t) - g(t)^2,\nabla_x \log p_t(x)\Big]\mathrm{d}t + g(t),\mathrm{d}\bar w,
]
(\bar w) 为逆向维纳过程。代入学到的 (s_\theta(x,t) \approx \nabla_x \log p_t(x)) 即可数值模拟从 (p_T)(噪声)采样到 (p_0)(数据)。

与 DDPM 采样对应:离散公式中的 (\epsilon_\theta) 即离散化逆向 SDE 的漂移项。
5. 概率流 ODE(确定性采样)
同一前向 SDE 存在等价的概率流 ODE,边缘分布 (p_t(x)) 与 SDE 相同:
[
\mathrm{d}x = \Big[f(x,t) - \frac{1}{2}g(t)^2,\nabla_x \log p_t(x)\Big]\mathrm{d}t.
]
无随机项 → 给定 (x_T) 则 (x_0) 唯一确定。优点:
- 可用 RK45 等 ODE 求解器,步数可调;
- 支持精确似然估计(Change of variables);
- 为 DDIM 提供理论解释(系列第 3 篇)。
实践中:(s_\theta) 用同一网络,SDE 采样随机性更强、多样性更好;ODE 采样更 sharp、步数可更少。
6. 训练:连续时间得分匹配
离散 DDPM 训练可视为对 VP-SDE 的随机时间 (t \sim \mathcal{U}(0,1)) 采样:
[
\mathcal{L} = \mathbb{E}{t,,x_0,,\epsilon}\Big[\lambda(t),\big|s\theta(x_t,t) - \nabla_{x_t}\log q(x_t\mid x_0)\big|^2\Big],
]
(\lambda(t)) 为时间权重(不同参数化对应 noise prediction / v-prediction)。VE-SDE 常在 (\sigma) 对数尺度上均匀采样 (\log\sigma)。
| 框架 | 噪声参数 | 网络输出 | 生物结构任务常见度 |
|---|---|---|---|
| DDPM / VP | (\bar\alpha_t) 或 (t) | (\epsilon_\theta) | 高(RFdiffusion 等) |
| VE / NCSN | (\sigma) | (s_\theta(x,\sigma)) | 中(部分分子 3D) |
| EDM | (\sigma) + 预处理 | (D_\theta) 去噪器 | 高(图像/分子统一预处理) |
EDM(Karras et al., 2022)在 (\sigma) 空间重新参数化数据预处理 (x = c_{\mathrm{in}}(\sigma),D_\theta(c_{\mathrm{noise}}(\sigma),x;\sigma) + c_{\mathrm{skip}}(\sigma),x),改善不同 (\sigma) 上的损失尺度——结构生成社区常借鉴其 sigma 日程 与 Heun 求解器。
7. 数值求解与步长选择
从 (t=T) 到 (0) 离散化逆向 SDE/ODE:
- Euler–Maruyama:DDPM 默认采样的一步法;
- Heun / RK:二阶,相同函数评估次数下误差更小;
- 自适应步长:ODE 求解器根据局部误差调节 (\Delta t)。
生物信息学实践:蛋白质骨架扩散常用 50–200 步(配合 DDIM 或 Heun),而非 1000 步;步数与 RMSD/designability 的 trade-off 需实验标定。
8. 与 DDPM 公式对照表
设 VP-SDE 离散化,(t) 对应 DDPM 步索引:
| 量 | DDPM | 得分 / SDE |
|---|---|---|
| 加噪 | (x_t = \sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha_t}\epsilon) | (x_t \sim p_t) 由 SDE 边缘分布 |
| 网络目标 | (\epsilon_\theta(x_t,t) \approx \epsilon) | (s_\theta(x_t,t) \approx -\epsilon/\sqrt{1-\bar\alpha_t}) |
| 逆向漂移 | 见第 1 篇 (\mu_\theta) | (f - g^2 s_\theta) |
| 确定性采样 | DDIM(第 3 篇) | 概率流 ODE |
9. 小结
得分匹配说明扩散训练本质是学多噪声水平下的对数密度梯度;SDE/ODE 框架把 NCSN 与 DDPM 统一为同一随机过程的不同离散化与参数化。连续视角带来:(1)更灵活的噪声日程与求解器;(2)ODE 确定性采样与似然;(3)与 EDM 等工程最佳实践对齐。阅读结构扩散代码时,看到 sigma、score、vp/ve 等命名,可对照本章映射到具体离散公式。
段末注释:Euler–Maruyama 为一阶 SDE 数值积分;Heun 为二阶 Runge–Kutta 型预测–校正积分。
本篇数学概念索引
| 概念 | 出现章节 | 延伸阅读 |
|---|---|---|
| 得分函数 / 朗之万动力学 | §1 | Math-0 §11 |
| 重参数化 / DSM 加噪 | §2 | Math-0 §8 |
| 噪声日程(连续–离散对应) | §3 | Math-0 §9 |
参考与延伸阅读
- Song & Ermon, Generative Modeling by Estimating Gradients of the Data Distribution(NCSN).
- Song et al., Score-Based Generative Modeling through Stochastic Differential Equations(SDE/ODE 统一).
- Vincent, A Connection Between Score Matching and Denoising Autoencoders(DSM).
- Karras et al., Elucidating the Design Space of Diffusion-Based Generative Models(EDM).
- Anderson, Reverse-Time Diffusion Equation Models(逆向 SDE 理论).