过平滑(Oversmoothing) 是 图神经网络(Graph Neural Network,GNN) / 消息传递神经网络(Message Passing Neural Network,MPNN) 堆叠层数过多时出现的一类表示退化:经多轮「邻居聚合—更新」后,不同节点的嵌入向量趋于相似,图上的区分度(discriminability) 下降,节点分类、图分类、分子性质预测等下游任务性能变差。直观上说,所有节点被「抹成同一灰色」——并非梯度消失那么简单,而是消息传递算子反复作用带来的低通滤波效应。
段末注释:GNN 在图结构数据上通过邻居交换信息学习表示;MPNN 将其抽象为消息—聚合—更新三步;嵌入(embedding) 即节点/图的连续向量表示。
系列导读:5003.LLM概念解析-0.系列导读
关联架构:MPNN-0 §6、范式综述 §GNN
插图:5003.LLM概念解析/concept-fig04~06*.png
1. 直观解释
1.1 比喻
把图上的消息传递想象成颜料在清水里扩散:
- 1–2 层:每个节点只与直接邻居混色,红、蓝、绿节点仍可分辨——学到局部化学环境、一级邻居类型。
- 很多层以后:颜色经全图多跳路径不断平均,最终整图节点变成同一色调——模型无法回答「这个碳原子与那个氮原子有何不同」。
这与扩散模型里的「前向加噪」不同:过平滑是 GNN 层数过深 导致的表征坍缩,不是生成式噪声日程。
1.2 最小定义
设第 (t) 层节点 (v) 的表示为 (h_v^{(t)})。理想情况下,对非同构或不同属性的节点 (u, v),(|h_u^{(t)} - h_v^{(t)}|) 应反映结构/特征差异。过平滑指存在层数 (T),当 (t \geq T) 时:
[
\frac{1}{|V|}\sum_{v \in V} h_v^{(t)} \approx \bar{h}, \quad \text{且各 } h_v^{(t)} \text{ 两两余弦相似度} \to 1.
]
即:节点表示收敛到几乎相同的子空间,失去类间可分性。

2. 背后的原因
2.1 重复邻域平均 = 图上的低通滤波
多数 GNN(GCN、GraphSAGE 均值聚合)一层更新近似:
[
h_v^{(t+1)} = \sigma\Big(W^{(t)} \cdot \mathrm{AGG}_{u \in \mathcal{N}(v)} h_u^{(t)}\Big).
]
无自环或弱自环时,这类似对节点信号做拉普拉斯平滑——高频(节点间差异大的)分量被抑制,低频(全局常数/缓慢变化)分量保留。层数 (t\uparrow) 等价于多次应用低通滤波器,终态趋近拉普拉斯主特征向量方向,节点特征无法区分。
2.2 与图热扩散的类比
连续图上热方程 (\frac{\partial u}{\partial t} = \Delta u) 随时间抹平温度差。离散消息传递在连通图上具有类似动力学:(t) 层 (\approx) 扩散 (t) 步,全图节点趋于平衡态。
2.3 层数 vs 图直径 / 连通度
- 直径小、连通密的图(如小分子、高度社交图):过平滑更早出现,有时 4–8 层已明显。
- 直径大、稀疏图:需更多层才平滑,但此时可能先遇到 过挤压(oversquashing)(远距离信息传不过来)——二者常此消彼长。
2.4 同质性(Homophily)加剧
若相连节点本已相似(「物以类聚」),聚合进一步放大相似、消减差异;分子图中同一官能团内原子本身特征接近,深层 GNN 更易「糊成一片」。

3. 出现的场景
| 场景 | 典型图 | 表现 | 如何察觉 |
|---|---|---|---|
| 分子性质预测 | 原子为节点、键为边 | 深 GNN 验证集先升后降 | 扫层数 (T=2,4,8,16) 画 learning curve |
| 蛋白质接触图 / 口袋 | 残基或原子图 | 结合位点 vs 非位点节点难区分 | 可视化节点 embedding(t-SNE 聚成一团) |
| 知识图谱嵌入 | 实体关系图 | 深层 MPNN link prediction 退化 | 对比浅层 vs 深层 hits@K |
| 单细胞 / 空间转录组 | kNN 细胞图 | 聚类边界模糊 | 与浅层 GCN baseline 对比 |
| 读 MPNN/GNN 论文 | — | 「deeper is not always better」 | 见 MPNN-0 §6 |
LLM 主栈通常不直接谈 oversmoothing——Transformer 全连接注意力不是局部拉普拉斯平滑。但若做 分子 + GNN、AlphaFold 式 pair track 或 知识图谱 + LLM,仍会碰到;亦勿与 MoE 专家坍缩混淆(见 §5)。
4. 解决方案
4.1 残差连接与初始连接(Residual / Initial Connection)
做法:(h_v^{(t+1)} = h_v^{(t)} + \Delta h_v^{(t)}) 或 concat 初始特征 (x_v)。
原理:保留节点自身信息与浅层信号,减缓被邻居平均掉。
代表:GCNII、许多工程实现默认加 residual。
4.2 Jumping Knowledge(JK)
做法:不只用最后一层 (h^{(T)}),而拼接或注意力融合 ({h^{(1)},\ldots,h^{(T)}}) 再读出。
原理:浅层保留局部、高层保留全局,避免「只取已平滑的最深层」。
4.3 控制深度 + 早停层数
做法:分子任务常 3–5 层 即够;用验证集选 (T)。
优点:最简单;SchNet、DimeNet 等化学模型层数受限 partly 因此。
4.4 归一化与去平滑正则(PairNorm、GroupNorm 等)
做法:PairNorm 等显式约束节点间平均距离,对抗表示坍缩。
场景:必须较深 GNN 时的训练稳定手段。
4.5 DropEdge / 随机删边
做法:训练时随机 drop 边,降低有效连通度,减缓扩散速度。
权衡:正则化效果;推理时用完整图。
4.6 注意力与自适应聚合(GAT)
做法:邻居权重由数据学习,而非固定均匀平均。
效果:不能完全消除过平滑,但可减轻「无脑平均」;极深仍可能平滑。
4.7 虚拟节点 / 全局读出(Virtual Node, Set2Set)
做法:加超级节点连所有节点,或图级 pooling 早提取全局信息,节点层不必极深。
生物例子:分子图分类常用 Set2Set + 浅层 MPNN。
4.8 图重写(Rewiring)、长程边
做法:加 virtual edges、positional encoding、Graph Transformers 跳局部瓶颈——更常解决 oversquashing,但与过平滑一并考虑图深度设计。
4.9 与 Transformer 混合
做法:浅 GNN 提取局部几何 + Transformer 做长程(分子 Graphormer、蛋白 EGNN + attention)。
直觉:把「易过平滑的深局部堆叠」换成「浅 GNN + 全局注意力」。

5. 近似概念的异同
| 概念 | 英文 | 对象 | 核心问题 | 与过平滑关系 |
|---|---|---|---|---|
| 过平滑 | Oversmoothing | GNN 节点表示 | 层数↑ → 节点 embedding 趋同 | 本文主题 |
| 过挤压 | Oversquashing | GNN 信息流动 | 瓶颈处远程依赖无法传入 | 互补问题:浅层传不远,深层却平滑;见 MPNN-0 §6 |
| 欠达(Underreaching) | Underreaching | GNN 感受野 | 层数不足,覆盖不了远距离 | 与过平滑相反方向(太浅 vs 太深) |
| 表示坍缩 | Representation Collapse | 对比学习 | 所有样本 embedding 趋同 | 机制不同(InfoNCE/增广),非图专属 |
| 专家坍缩 | Expert Collapse | MoE 路由 | 少数专家垄断 token | 发生在 router,见 概念解析-01 |
| 模式坍缩 | Mode Collapse | GAN 生成 | 输出多样性丧失 | 对抗训练 pathology |
| Transformer 过平滑 | — | 部分 ViT/长序列 文献 | token 表示趋同 | 名词借用,机制是自注意力深度;与 GNN 理论不完全相同 |
记忆口诀:
- 太深 + 图 + 节点长得一样 → 过平滑;
- 太远 + 图 + 传不过去 → 过挤压;
- 太浅 + 图 + 够不着 → 欠达;
- MoE + 专家闲着 → 专家坍缩。
6. 生物信息学读者需要关心吗?
需要,若你的 pipeline 含 GNN/MPNN:
- 小分子/QM9/Drug 性质:SchNet、MPNN、EGNN 层数不宜盲目加深;
- 蛋白界面、接触图:深层 GCN 可能抹平结合位点信号;
- 知识图谱 + 实体链接:深 MPNN 需 JK/残差。
通常不需要,若仅使用 ESM / DNABERT / LLM API 而不建图模型——过平滑不在 Transformer 主线词汇里。
实践建议:从 (T=3\sim 5) 起扫;监控验证集与 节点 embedding 方差;深模型优先加 residual + JK,而非单纯加层。
7. 小结
| 维度 | 要点 |
|---|---|
| 是什么 | 深层消息传递使节点表示趋同,区分度下降 |
| 为什么 | 重复邻域平均 ≈ 图低通滤波 / 热扩散收敛 |
| 何时 | 深 GNN、密图、分子/知识图谱、读 MPNN 文献时 |
| 怎么办 | 浅层、残差、JK、PairNorm、DropEdge、虚拟节点、GNN+Transformer |
| 别混淆 | 过挤压、欠达、表示坍缩、专家坍缩 |
段末注释:WL 测试(Weisfeiler–Lehman)常用来刻画 GNN 表达力上界;过平滑是优化/深度层面的训练现象,与 WL 表达力正交。
参考与延伸阅读
- Li et al., Deeper Insights into Graph Convolutional Networks for Semi-Supervised Learning(过平滑早期分析).
- Xu et al., Representation Learning on Graphs with Jumping Knowledge Networks(JK).
- Chen et al., Simple and Deep Graph Convolutional Networks(GCNII 残差).
- Topping et al., Understanding Over-Squashing and Bottlenecks on Graphs(过挤压).
- 本目录:MPNN-0、概念解析-01 专家坍缩.