5003.大模型-架构-MPNN-0.消息传递神经网络

消息传递神经网络(Message Passing Neural Network,MPNN)不是某一种具体网络,而是一类图神经网络(Graph Neural Network,GNN)的抽象骨架:把「图上学习」统一写成邻居之间反复交换局部信息(消息)并在节点上更新状态的迭代过程。许多经典图卷积层(如 GCNGraphSAGEGAT)都可以视为 MPNN 的特例或轻微变体;在分子性质预测、知识图谱推理、代码/文档图建模等任务里,MPNN 族模型仍是强基线。大语言模型(Large Language Model,LLM)主干通常是 Transformer 这类序列架构,但 MPNN 提供了理解「局部邻域聚合 + 全局读出」的另一套坐标系,便于把图结构归纳偏置注意力式动态路由对照起来。

段末注释:GNN 指在图数据上学习的神经网络总称;GCN 为图卷积网络;GraphSAGE 为采样聚合式图网络;GAT 为图注意力网络;Transformer 这里指以自注意力为序列混合核心的模型;LLM 指以自回归或掩码语言建模为主的大规模语言模型。


1. 动机:为什么需要「消息传递」

图由节点与边组成,数据往往不规则:每个节点的度数不同,没有天然的「从左到右」顺序。若强行展平成序列,会丢失对称性与置换不变性(permutation invariance)。MPNN 的核心想法是:每个节点只直接与其一跳邻居交互,通过堆叠多层,间接获得多跳邻域信息;计算在局部并行,适合稀疏图。


2. MPNN 的一般形式(一层)

设无向图 (G=(V,E)),节点 (v) 在第 (t) 层的隐状态为 (\mathbf{h}_v^{(t)})。一层 MPNN 通常拆成三步。

(1)消息(message)
对每条边 ((u,v)\in E)(或按有向图规定方向),由两端状态与边特征构造一条「从 (u) 指向 (v)」的消息:
[
\mathbf{m}_{u\to v}^{(t)} = \mathrm{MSG}^{(t)}\big(\mathbf{h}_u^{(t)},,\mathbf{h}v^{(t)},,\mathbf{e}{uv}\big).
]

(2)聚合(aggregate)
节点 (v) 把来自邻居的消息合成一个向量,常见写法是对邻居集合 (\mathcal{N}(v)) 做求和、均值、最大值等置换不变聚合:
[
\mathbf{a}v^{(t)} = \mathrm{AGG}^{(t)}\Big(\big{\mathbf{m}{u\to v}^{(t)} : u\in\mathcal{N}(v)\big}\Big).
]

(3)更新(update)
把聚合结果与自身状态结合,得到下一层表示:
[
\mathbf{h}_v^{(t+1)} = \mathrm{UPD}^{(t)}\big(\mathbf{h}_v^{(t)},,\mathbf{a}_v^{(t)}\big).
]

堆叠 (T) 层后,**读出(readout)**阶段把节点级表示 ({\mathbf{h}_v^{(T)}}) 汇总为图级向量(例如对全体节点再做一次置换不变聚合后接 MLP),用于图分类等任务。

段末注释:MLP 指多层感知机;置换不变指节点编号重排后,若对输出做同样重排(图级任务则完全不变),模型结果一致。


3. 与常见 GNN 层的对应关系

  • 图卷积网络(Graph Convolutional Network,GCN):消息常取 (\mathbf{h}_u) 的线性投影并按度数归一化系数加权求和,更新为仿射变换 + 非线性,是典型的「线性消息 + 加权和聚合」。
  • GraphSAGE:强调邻居采样以控制大规模图的计算量;聚合可用 mean / pool / LSTM 等(LSTM 若对邻居有序则破坏严格置换不变,工程上常用无序聚合)。
  • 图注意力网络(Graph Attention Network,GAT):消息系数由**注意力(attention)**在邻居上产生,相当于把聚合权重做成输入依赖的软路由。

它们共享同一叙事:局部消息 → 置换不变聚合 → 节点更新;差异主要在 (\mathrm{MSG})、(\mathrm{AGG}) 的具体参数化与可扩展性技巧。


4. 表达能力:MPNN 能「分清」所有图吗?

一般 MPNN 的判别能力与 Weisfeiler–Lehman(WL) 一维颜色精炼测试同阶:若两个图在 WL 测试下不可区分,许多标准 MPNN 也无法区分。这提示了结构性局限(例如某些高度对称但非同构的图)。后续工作通过高阶 WL子图计数、**结构编码(positional encodings on graphs)**等思路补强;这与 Transformer 在序列上通过位置编码与注意力缓解归纳偏置不足的问题有相似的「加结构信息」味道,但对象从线性序列换成了图。

段末注释:WL 测试是图同构检验的经典近似算法,常用于刻画 GNN 的上界表达能力。


5. 与 Transformer 的对照(直觉)

  • MPNN:聚合域由图拓扑显式给出,一跳一步,深度对应感受野半径;边缺失则信息不流动。
  • Transformer(自注意力):在**全连接(或稀疏化)**的 token 图上,每步让每个 token 向所有 token 发消息,邻域由数据与学习到的相似度决定。

可以把「一层自注意力」看成在完全图上的一类特殊消息传递,但二者默认的先验稀疏结构不同:图任务常强调边即约束;长序列建模则常假设任意位置可能相关并由注意力自适应筛选。


6. 实现与训练时的常见要点

  • 过平滑(oversmoothing):层数过深时,节点表示趋于相似,区分度下降;可用残差、跳跃连接(Jumping Knowledge)、浅层堆叠加读出、或谱域/正则化等手段缓解。
  • 过挤压(oversquashing):薄瓶颈处信息难以跨远距离传播,与图直径、曲率等相关;可配合残差边、虚拟节点、 rewiring、或注意力式长程边。
  • 规模:全图批训练需稀疏张量邻居采样;工业图往往走 GraphSAGE 式小批量训练。

7. 小结

MPNN用「消息—聚合—更新」三步把多数 GNN 层统一在同一形式里,便于分析与扩展;理解它有助于阅读分子模型、知识图谱编码器以及各类「图上的深度学习」论文。若你的主战场是 LLM,可把 MPNN 当作结构化输入通道的参考框架:何时用显式边、何时用全连接注意力,本质是在先验稀疏性表达灵活性之间做权衡。

段末注释:归纳偏置指架构先验地偏好某类函数或不变性,从而影响样本效率与外推行为。


参考与延伸阅读

  • Gilmer et al., Neural Message Passing for Quantum ChemistryMPNN 命名与化学图上的早期系统阐述).
  • Xu et al., How Powerful are Graph Neural Networks?GINWL 对齐的分析框架).
  • Hamilton et al., Inductive Representation Learning on Large GraphsGraphSAGE).
  • Veličković et al., Graph Attention NetworksGAT).
-------------本文结束感谢您的阅读-------------