1. 文献信息
- 题目:Advancing protein evolution with inverse folding models integrating structural and evolutionary constraints
- 期刊:Cell;DOI:https://doi.org/10.1016/j.cell.2025.06.014
- 作者:Hongyuan Fei、Yunjia Li、Yijing Liu、Jingjing Wei、Aojie Chen、Caixia Gao(中国科学院遗传与发育生物学研究所)
- 核心贡献:提出 AiCE(AI-informed Constraints for protein Engineering,人工智能约束蛋白工程),将通用逆折叠模型(inverse folding model) 的大规模序列采样与结构约束、进化耦合约束结合,在无需针对任务再训练专用模型的前提下,提名高适应度(high-fitness,HF) 单点与组合氨基酸突变,用于脱氨酶、核酸酶、逆转录酶等多样蛋白的定向改造。
段末注释:逆折叠指给定三维骨架/结构,预测与之兼容的氨基酸序列;HF 在文中指实验读出(活性、编辑效率、保真度等)显著优于野生型的突变,而非 PLM 似然本身。
2. 研究动机与框架定位
传统蛋白工程依赖随机突变 + 高通量筛选或人工经验选点,成功率低、成本高。近年 蛋白质语言模型(Protein Language Model,PLM) 与 逆折叠网络 可零样本或弱监督地排序突变,但:
- 纯 PLM 零样本打分与实验室目标函数(活性、保真度等)常弱相关;
- 任务专用回归模型(如 EVOLVEpro、UniKP 路线)需要实验反馈迭代,冷启动成本高;
- 组合突变易受负向上位效应(negative epistasis) 拖累,单点 HF 简单叠加往往失效。
AiCE 的假设是:通用逆折叠模型在结构条件下采样出的序列分布,已隐含「结构兼容」的氨基酸偏好;再叠加二级结构分区阈值(结构约束) 与 统计耦合分析(Statistical Coupling Analysis,SCA)/连锁不平衡(Linkage Disequilibrium,LD) 可进一步筛掉不合理突变与不良组合。作者在 60 个深度突变扫描(Deep Mutational Scanning,DMS) 基准上,AiCEsingle 准确率约 16%,引入结构约束后相对无约束方案提升 37%,相对其他 AI 方法提升 36%–90%;8 项湿实验任务成功率 11%–88%。
段末注释:DMS 为高通量测定大量单点/组合突变效应的实验范式;上位效应指多位点突变效应不可由单点效应简单相加。
3. 总体架构:AiCEsingle 与 AiCEmulti
AiCE 由两个串联模块构成,共享同一逆折叠采样得到的多序列比对(Multiple Sequence Alignment,MSA):
| 模块 | 目标 | 核心约束 | 输出 |
|---|---|---|---|
| AiCEsingle | 单点 HF 突变 | 结构约束(DSSP 二级结构 + 出现频率阈值 β/γ) | .mut / .comb |
| AiCEmulti | 多点 HF 组合 | 进化耦合(SCA 矩阵 + LD 矩阵) | .sca.result / .ld.result |
框架不绑定特定逆折叠后端,官方 demo 使用 ProteinMPNN,亦兼容 LigandMPNN、ESM-IF1、SaProt 等。
图注:左侧 AiCEsingle 路径:结构 → 逆折叠采样 → 位点频率 + DSSP → β/γ 筛选;右侧 AiCEmulti 路径:同一 MSA → LD/SCA 矩阵 → 组合打分与逻辑筛选;最终进入湿实验验证。
4. 氨基酸突变设计中的核心指标(详解)
以下按 AiCE 在搜索新序列时实际计算、比较、筛选的量 组织;每一节给出指标含义与预测/计算方法,并与官方实现脚本对应。
4.1 逆折叠采样频率 (f_i(a))(Occurrence Frequency)
含义:在目标蛋白三维结构下,逆折叠模型独立采样 (N) 条序列后,位点 (i) 上氨基酸 (a) 的出现比例;AiCE 以最高频非参考氨基酸作为该位点的提名突变类型。
预测方法:
- 结构解析:PDB/mmCIF →
parse_multiple_chains.py提取主链几何。 - 逆折叠采样:以 ProteinMPNN 为例(
inverse_MPNN.sh),默认num_seq_per_target=1000、sampling_temp=0.5、固定随机种子;每条序列是对同一骨架的条件采样。 - MSA 构建:输出
.fa,首条为参考序列(野生型,WT),其余为采样序列。 - 频率统计(
count_residue_freq.py):对位点 (i),在除参考序列外的所有采样序列中计数各氨基酸(含 gap-),计算
[
f_i(a) = \frac{\mathrm{count}i(a)}{\sum{a’ \in \mathcal{A}} \mathrm{count}_i(a’)} ,
]
其中 (\mathcal{A}) 为 20 种标准氨基酸及 gap。取 (\arg\max_a f_i(a)) 为 highest_freq_aa。 - 输出格式(
.re.freq):每行ref_aa \t highest_freq_aa \t freq%。
设计要点:(f_i) 不是实验活性,而是**「结构条件下逆折叠模型共识序列」** 的代理;采样数 (N) 与温度 (T) 越大/越高,分布越平滑,阈值需相应调整。
段末注释:ProteinMPNN 为基于图神经网络的逆折叠模型;sampling_temp 控制 softmax 采样随机性,低温更保守。
4.2 二级结构标签 SS(Structural Context)
含义:每位点所属二级结构类别,用于决定该位点适用刚性区阈值 β 还是柔性区阈值 γ。
预测方法(predict_dssp.py):
- 对输入 PDB 运行 mkdssp(仓库内置 DSSP 4.4.7;亦可 conda 安装
dssp)。 - 解析 DSSP 输出,将 Kabsch–Sander 符号映射为三类简化标签:
| DSSP 原始符号 | AiCE 简化 SS | 结构类型 |
|---|---|---|
| H, G, I, P | H | α-/3₁₀-/π-螺旋 |
| E, B | E | β-折叠 / β-bridge |
| T, S, ., ? | C | 转角、弯曲、无规卷曲(柔性区) |
- 输出
.ss:每行resnum \t ref_aa \t SS。
在筛选中的作用:SS 是结构约束的开关——同一 (f_i) 在螺旋/折叠核心与 loop 区使用不同通过门槛,反映「柔性区可容忍更多序列多样性」的生物学直觉;消融实验显示仅引入 SS 分区阈值即可带来约 37% 准确率提升。
段末注释:DSSP(Define Secondary Structure of Proteins)依据主链氢键模式指派二级结构;AiCE 将 T/S/无定义归为 C(coil)。
4.3 结构约束阈值 β 与 γ(AiCE Filtering Thresholds)
含义:
- β:全局出现频率阈值(global occurrence threshold),用于 SS ≠ C 的刚性/有序区;默认 0.8。
- γ:柔性区出现频率阈值(flexible region occurrence threshold),用于 SS = C 的 loop/转角区;默认 0.5。
筛选规则(predicted_single_HF_mutations.py):对位点 (i),设参考氨基酸为 (a_i^{\mathrm{ref}}),最高频氨基酸为 (a_i^{\mathrm{alt}}),频率为 (f_i),则提名单点突变当且仅当:
[
a_i^{\mathrm{ref}} \neq a_i^{\mathrm{alt}} \quad \land \quad
\begin{cases}
f_i \geq \beta, & \mathrm{SS}_i \in {H, E} \
f_i \geq \gamma, & \mathrm{SS}_i = C
\end{cases}
]
自动阈值预测(可选):若未手动指定 β/γ,可用预训练回归模型(best_model_a.pkl / best_model_b.pkl)根据蛋白规模与柔性比例推荐:
[
\mathrm{flex_ratio} = \frac{#{\mathrm{SS}=C}}{L}, \quad
(\beta, \gamma) = \mathrm{round}_{0.1}\bigl(\mathrm{MLP}(\mathrm{protein_size}, \mathrm{flex_ratio})\bigr),
]
其中 (L) 为有效残基数,输出四舍五入到 0.1 步长。
物理直觉:有序二级结构内packing更严,要求更高共识度(高 β);柔性 loop 允许更多序列变异仍保持折叠(低 γ)。
段末注释:β、γ 为 AiCE 核心超参数;README 推荐通用起点 0.8 / 0.5;
01.single_mut_Auto_prediction.sh可自动推断。
4.4 连锁不平衡 LD 矩阵(Evolutionary Co-occurrence)
含义:刻画逆折叠采样 MSA 中,不同位点突变型共现的统计关联;高 LD 提示两位点氨基酸在采样序列中倾向于同时出现,组合引入时负向上位风险较低。
预测方法(02.caculated_ld.py):
- 蛋白 → 伪 DNA:按最优密码子表(
OPTIMAL_CODONS)将每条氨基酸序列翻译为 DNA(非真实基因组编码,仅为 LD 计算提供等位基因型表示)。 - DNA → VCF:以首条序列为参考,逐位点比较 REF/ALT,生成
.vcf。 - PLINK v1.9 计算 LD 矩阵 →
.ld(逗号分隔数值矩阵)。 - 对候选组合位点集 (\mathcal{S}),取子矩阵 (\mathbf{L}_{\mathcal{S}}),计算:
| 导出指标 | 公式/定义 |
|---|---|
| Mean Pairwise LD | 上三角非对角元素的算术均值 |
| Log Mean Pairwise LD | 对 (\log(L_{ij} + 10^{-10})) 后同上 |
| Multilocus LD | (\prod_{i<j} L_{ij})(连乘形式的多位点关联) |
组合推荐阈值:默认 Mean Pairwise LD ≥ 0.5 时逻辑标志位置 1(04.com_mut_prediction.sh,-t 可调)。
段末注释:LD 本用于群体遗传学;AiCE 将其借用于采样序列间的共变,作为组合突变的统计共现代理;PLINK 为常用基因型分析工具。
4.5 统计耦合分析 SCA 矩阵(Evolutionary Coupling)
含义:基于 SCA 框架,从 MSA 中提取位点–位点、氨基酸–氨基酸的进化耦合强度,识别功能上协同进化的残基对;用于组合突变时偏好进化耦合高的位点组合。
预测方法(03.caculated_sca.sh + 修改版 pySCA):
- MSA 预处理:
scaProcessMSA.py过滤、加权,生成.db。 - 核心分解:
scaCore.py计算位置相关矩阵 (\mathbf{C}^{\mathrm{SCA}} \in \mathbb{R}^{L \times L})(输出.sca_matrix.tsv)。
核心思想来自 Ranganathan 等 SCA 理论:对对齐序列计算加权协方差张量,经** Frobenius 范数**压缩为 positional correlation。 - 组合打分(
com_mut_prediction.py):对 LD 子矩阵 (\mathbf{L}) 还可导出 SCA-style 加权协方差:
[
\mathrm{SCA}{ij} = w_i w_j \bigl(L{ij} - L_{ii} L_{jj}\bigr),
]
其中权重 (w_i, w_j) 由对角元 (L_{ii}, L_{jj}) 导出(见源码calculate_sca_values)。
组合推荐阈值:默认取 SCA 矩阵全体元素 90% 分位数(percentile = 0.9) 以上为「top 10%」候选;与 LD 逻辑标志联合使用。
与 SaProt 对比:作者报告 AiCEmulti 在 6 个突变文库上与 SaProt 组合预测能力相当,但计算成本显著更低(官方称 5 CPU·h 量级可完成 SpCas9 单/双突提名)。
段末注释:SCA 原用于从天然 MSA 识别功能 sector;AiCE 将其应用于逆折叠合成 MSA,假设共现模式反映结构兼容的组合。
4.6 组合突变逻辑标志(Logical Flag)
含义:对 (k) 位点组合,综合 LD 与 SCA 给出 0/1 推荐标签。
预测方法(04.com_mut_prediction.sh 输出 .ld.result / .sca.result):
1 | Mutation Type Mean Pairwise score Log Mean Pairwise score Logical Flag (0/1) |
- LD 路径:Mean Pairwise LD ≥ 0.5(默认)→ Flag = 1。
- SCA 路径:组合得分处于矩阵 top (1−0.9)=10% → Flag = 1。
- 实践中宜两者同时满足或优先 LD 通过的集合再做 SCA 排序(具体策略见原文各案例)。
4.7 辅助指标:PSSM 与蛋白规模特征
PSSM(Position-Specific Scoring Matrix,位置特异性打分矩阵)(msa_to_pssm.py,可选后处理):
[
\mathrm{PSSM}(a, i) = \log_2 \frac{P(a \mid i) + \lambda}{q(a)},
]
其中 (P(a \mid i)) 为位点 (i) 氨基酸 (a) 的观测频率(加伪计数 (\lambda)),(q(a)) 为背景频率(uniform 或 Robinson–Robinson 1991)。PSSM 不直接进入 AiCE 默认筛选,但可用于可视化采样偏好或与 Rosetta/PLM 分数对照。
蛋白规模特征(用于自动 β/γ):
- protein_size (L):DSSP 有效残基数;
- flex_ratio:(L_C / L),柔性区占比。
5. 端到端流程(与仓库脚本对齐)
5.1 AiCEsingle 四步
1 | # Step 0: 单点突变提名(含逆折叠 + DSSP + 频率 + 筛选) |
内部顺序:inverse_MPNN.sh → predict_dssp.py → count_residue_freq.py → predicted_single_HF_mutations.py。
5.2 AiCEmulti 三步
1 | python scripts/02.caculated_ld.py <seq_dir> <output_ld_dir> |
5.3 关键默认超参数汇总
| 参数 | 默认值 | 作用 |
|---|---|---|
num_seq_per_target |
1000 | 逆折叠采样深度 |
sampling_temp |
0.5 | 采样温度 |
| β | 0.8 | 有序区频率阈值 |
| γ | 0.5 | 柔性区频率阈值 |
| LD 阈值 | 0.5 | 组合 Mean Pairwise LD |
| SCA 分位数 | 0.9 | top 10% 组合 |
6. 湿实验验证指标(框架外部、任务相关)
AiCE 本身不预测以下实验读数,但论文 8 项工程任务用它们定义 HF 成功与否;聚合酶/编辑器读者可对照设计验证面板:
| 任务类型 | 常用读出 | 论文代表结果 |
|---|---|---|
| 胞嘧啶碱基编辑器 | 编辑窗口宽度(bp) | enABE8e:~5 bp 窗口(缩窄 ~50%) |
| 腺苷碱基编辑器 | 保真度(fidelity) | enSdd6-CBE:1.3× 保真度 |
| 线粒体碱基编辑器 | 编辑活性 | enDdd1-DdCBE:最高 14.3× 活性 |
| 逆转录酶 / 核酸酶 | 催化活性、持续合成能力 | 与 酶改造-01 中 k_cat、processivity 等指标衔接 |
段末注释:湿实验指标的选择决定「HF」的操作定义;AiCE 提名的是计算 HF,须经实验转化为功能 HF。
7. 与同类方法的对比(方法视角)
| 维度 | AiCE | EVOLVEpro / MLDE | 纯 PLM 零样本 |
|---|---|---|---|
| 是否需要任务训练 | 否 | 是(回归 + 主动学习) | 否 |
| 结构输入 | 必需(PDB) | 通常仅序列 | 通常仅序列 |
| 核心打分 | 采样频率 + SS/LD/SCA | PLM 嵌入 + RFR | 掩码似然 / pMMS |
| 组合突变 | AiCEmulti(LD+SCA) | 多轮扩展 | 较弱 |
| 适用阶段 | 冷启动提名 | 有少量标注后的迭代 | 预筛选 |
对聚合酶场景:若有 AlphaFold3 / ESMFold 结构,可直接走 AiCEsingle 提名活性/稳定性相关位点;获得首批实验数据后,可与 EVOLVEpro 等串联(AiCE 扩大初始候选 → MLDE 精修)。
8. 开源与复现入口
- 代码:https://github.com/ScorpioLea/AiCE(MIT License;部分方法受专利保护,商用需联系作者)
- 依赖:PyTorch、Biopython、ProDy、mkdssp、PLINK v1.9、pySCA
- Demo:
example/AiCE_demo.ipynb - 许可注意:学术研究可用;商业化需联系
cxgao@genetics.ac.cn
9. 小结
- AiCE 的本质是:通用逆折叠采样 → 统计频率 → 结构/进化约束过滤,而非训练新的端到端活性预测器。
- 单点设计核心看 (f_i) 与 SS 分区的 β/γ;组合设计核心看 LD 共现 与 SCA 耦合,以规避负向上位。
- 指标链:结构 → MSA →(频率 + DSSP)→ HF 单突 →(LD + SCA)→ HF 组合 → 湿实验读出。
- 对聚合酶/逆转录酶读者:AiCE 提供低算力、无标注冷启动的突变提名;k_cat、保真度、processivity 等仍需按 酶改造-01 在目标工艺条件下验证。
10. 延伸阅读(检索关键词)
AiCE,AiCEsingle,AiCEmulti,inverse folding mutation,ProteinMPNN directed evolution,structural constraint protein engineering,SCA epistasis,linkage disequilibrium protein MSA,high-fitness mutation prediction,Caixia Gao base editor