酶改造-modelpaper-AiCE

1. 文献信息

  • 题目:Advancing protein evolution with inverse folding models integrating structural and evolutionary constraints
  • 期刊Cell;DOI:https://doi.org/10.1016/j.cell.2025.06.014
  • 作者:Hongyuan Fei、Yunjia Li、Yijing Liu、Jingjing Wei、Aojie Chen、Caixia Gao(中国科学院遗传与发育生物学研究所)
  • 核心贡献:提出 AiCE(AI-informed Constraints for protein Engineering,人工智能约束蛋白工程),将通用逆折叠模型(inverse folding model) 的大规模序列采样与结构约束进化耦合约束结合,在无需针对任务再训练专用模型的前提下,提名高适应度(high-fitness,HF) 单点与组合氨基酸突变,用于脱氨酶、核酸酶、逆转录酶等多样蛋白的定向改造。

段末注释逆折叠指给定三维骨架/结构,预测与之兼容的氨基酸序列;HF 在文中指实验读出(活性、编辑效率、保真度等)显著优于野生型的突变,而非 PLM 似然本身。


2. 研究动机与框架定位

传统蛋白工程依赖随机突变 + 高通量筛选人工经验选点,成功率低、成本高。近年 蛋白质语言模型(Protein Language Model,PLM)逆折叠网络 可零样本或弱监督地排序突变,但:

  1. 纯 PLM 零样本打分与实验室目标函数(活性、保真度等)常弱相关;
  2. 任务专用回归模型(如 EVOLVEpro、UniKP 路线)需要实验反馈迭代,冷启动成本高;
  3. 组合突变易受负向上位效应(negative epistasis) 拖累,单点 HF 简单叠加往往失效。

AiCE 的假设是:通用逆折叠模型在结构条件下采样出的序列分布,已隐含「结构兼容」的氨基酸偏好;再叠加二级结构分区阈值(结构约束)统计耦合分析(Statistical Coupling Analysis,SCA)/连锁不平衡(Linkage Disequilibrium,LD) 可进一步筛掉不合理突变与不良组合。作者在 60深度突变扫描(Deep Mutational Scanning,DMS) 基准上,AiCEsingle 准确率约 16%,引入结构约束后相对无约束方案提升 37%,相对其他 AI 方法提升 36%–90%8 项湿实验任务成功率 11%–88%

段末注释DMS 为高通量测定大量单点/组合突变效应的实验范式;上位效应指多位点突变效应不可由单点效应简单相加。


3. 总体架构:AiCEsingle 与 AiCEmulti

AiCE 由两个串联模块构成,共享同一逆折叠采样得到的多序列比对(Multiple Sequence Alignment,MSA)

模块 目标 核心约束 输出
AiCEsingle 单点 HF 突变 结构约束(DSSP 二级结构 + 出现频率阈值 β/γ) .mut / .comb
AiCEmulti 多点 HF 组合 进化耦合(SCA 矩阵 + LD 矩阵) .sca.result / .ld.result

框架不绑定特定逆折叠后端,官方 demo 使用 ProteinMPNN,亦兼容 LigandMPNNESM-IF1SaProt 等。

Fig.1 AiCE 双模块流程示意(与 Fei 等 *Cell* 2025 及官方仓库对齐)

图注:左侧 AiCEsingle 路径:结构 → 逆折叠采样 → 位点频率 + DSSP → β/γ 筛选;右侧 AiCEmulti 路径:同一 MSA → LD/SCA 矩阵 → 组合打分与逻辑筛选;最终进入湿实验验证。


4. 氨基酸突变设计中的核心指标(详解)

以下按 AiCE 在搜索新序列时实际计算、比较、筛选的量 组织;每一节给出指标含义预测/计算方法,并与官方实现脚本对应。

4.1 逆折叠采样频率 (f_i(a))(Occurrence Frequency)

含义:在目标蛋白三维结构下,逆折叠模型独立采样 (N) 条序列后,位点 (i) 上氨基酸 (a) 的出现比例;AiCE 以最高频非参考氨基酸作为该位点的提名突变类型。

预测方法

  1. 结构解析:PDB/mmCIF → parse_multiple_chains.py 提取主链几何。
  2. 逆折叠采样:以 ProteinMPNN 为例(inverse_MPNN.sh),默认 num_seq_per_target=1000sampling_temp=0.5、固定随机种子;每条序列是对同一骨架的条件采样。
  3. MSA 构建:输出 .fa,首条为参考序列(野生型,WT),其余为采样序列。
  4. 频率统计count_residue_freq.py):对位点 (i),在除参考序列外的所有采样序列中计数各氨基酸(含 gap -),计算
    [
    f_i(a) = \frac{\mathrm{count}i(a)}{\sum{a’ \in \mathcal{A}} \mathrm{count}_i(a’)} ,
    ]
    其中 (\mathcal{A}) 为 20 种标准氨基酸及 gap。取 (\arg\max_a f_i(a)) 为 highest_freq_aa
  5. 输出格式.re.freq):每行 ref_aa \t highest_freq_aa \t freq%

设计要点:(f_i) 不是实验活性,而是**「结构条件下逆折叠模型共识序列」** 的代理;采样数 (N) 与温度 (T) 越大/越高,分布越平滑,阈值需相应调整。

段末注释ProteinMPNN 为基于图神经网络的逆折叠模型;sampling_temp 控制 softmax 采样随机性,低温更保守。


4.2 二级结构标签 SS(Structural Context)

含义:每位点所属二级结构类别,用于决定该位点适用刚性区阈值 β 还是柔性区阈值 γ

预测方法predict_dssp.py):

  1. 对输入 PDB 运行 mkdssp(仓库内置 DSSP 4.4.7;亦可 conda 安装 dssp)。
  2. 解析 DSSP 输出,将 Kabsch–Sander 符号映射为三类简化标签:
DSSP 原始符号 AiCE 简化 SS 结构类型
H, G, I, P H α-/3₁₀-/π-螺旋
E, B E β-折叠 / β-bridge
T, S, ., ? C 转角、弯曲、无规卷曲(柔性区)
  1. 输出 .ss:每行 resnum \t ref_aa \t SS

在筛选中的作用:SS 是结构约束的开关——同一 (f_i) 在螺旋/折叠核心与 loop 区使用不同通过门槛,反映「柔性区可容忍更多序列多样性」的生物学直觉;消融实验显示仅引入 SS 分区阈值即可带来约 37% 准确率提升。

段末注释DSSP(Define Secondary Structure of Proteins)依据主链氢键模式指派二级结构;AiCE 将 T/S/无定义归为 C(coil)。


4.3 结构约束阈值 β 与 γ(AiCE Filtering Thresholds)

含义

  • β全局出现频率阈值(global occurrence threshold),用于 SS ≠ C 的刚性/有序区;默认 0.8
  • γ柔性区出现频率阈值(flexible region occurrence threshold),用于 SS = C 的 loop/转角区;默认 0.5

筛选规则predicted_single_HF_mutations.py):对位点 (i),设参考氨基酸为 (a_i^{\mathrm{ref}}),最高频氨基酸为 (a_i^{\mathrm{alt}}),频率为 (f_i),则提名单点突变当且仅当:

[
a_i^{\mathrm{ref}} \neq a_i^{\mathrm{alt}} \quad \land \quad
\begin{cases}
f_i \geq \beta, & \mathrm{SS}_i \in {H, E} \
f_i \geq \gamma, & \mathrm{SS}_i = C
\end{cases}
]

自动阈值预测(可选):若未手动指定 β/γ,可用预训练回归模型(best_model_a.pkl / best_model_b.pkl)根据蛋白规模与柔性比例推荐:

[
\mathrm{flex_ratio} = \frac{#{\mathrm{SS}=C}}{L}, \quad
(\beta, \gamma) = \mathrm{round}_{0.1}\bigl(\mathrm{MLP}(\mathrm{protein_size}, \mathrm{flex_ratio})\bigr),
]

其中 (L) 为有效残基数,输出四舍五入到 0.1 步长。

物理直觉:有序二级结构内packing更严,要求更高共识度(高 β);柔性 loop 允许更多序列变异仍保持折叠(低 γ)。

段末注释βγ 为 AiCE 核心超参数;README 推荐通用起点 0.8 / 0.501.single_mut_Auto_prediction.sh 可自动推断。


4.4 连锁不平衡 LD 矩阵(Evolutionary Co-occurrence)

含义:刻画逆折叠采样 MSA 中,不同位点突变型共现的统计关联;高 LD 提示两位点氨基酸在采样序列中倾向于同时出现,组合引入时负向上位风险较低

预测方法02.caculated_ld.py):

  1. 蛋白 → 伪 DNA:按最优密码子表(OPTIMAL_CODONS)将每条氨基酸序列翻译为 DNA(非真实基因组编码,仅为 LD 计算提供等位基因型表示)。
  2. DNA → VCF:以首条序列为参考,逐位点比较 REF/ALT,生成 .vcf
  3. PLINK v1.9 计算 LD 矩阵 → .ld(逗号分隔数值矩阵)。
  4. 对候选组合位点集 (\mathcal{S}),取子矩阵 (\mathbf{L}_{\mathcal{S}}),计算:
导出指标 公式/定义
Mean Pairwise LD 上三角非对角元素的算术均值
Log Mean Pairwise LD 对 (\log(L_{ij} + 10^{-10})) 后同上
Multilocus LD (\prod_{i<j} L_{ij})(连乘形式的多位点关联)

组合推荐阈值:默认 Mean Pairwise LD ≥ 0.5 时逻辑标志位置 104.com_mut_prediction.sh-t 可调)。

段末注释LD 本用于群体遗传学;AiCE 将其借用于采样序列间的共变,作为组合突变的统计共现代理;PLINK 为常用基因型分析工具。


4.5 统计耦合分析 SCA 矩阵(Evolutionary Coupling)

含义:基于 SCA 框架,从 MSA 中提取位点–位点、氨基酸–氨基酸的进化耦合强度,识别功能上协同进化的残基对;用于组合突变时偏好进化耦合高的位点组合

预测方法03.caculated_sca.sh + 修改版 pySCA):

  1. MSA 预处理scaProcessMSA.py 过滤、加权,生成 .db
  2. 核心分解scaCore.py 计算位置相关矩阵 (\mathbf{C}^{\mathrm{SCA}} \in \mathbb{R}^{L \times L})(输出 .sca_matrix.tsv)。
    核心思想来自 Ranganathan 等 SCA 理论:对对齐序列计算加权协方差张量,经** Frobenius 范数**压缩为 positional correlation。
  3. 组合打分com_mut_prediction.py):对 LD 子矩阵 (\mathbf{L}) 还可导出 SCA-style 加权协方差
    [
    \mathrm{SCA}{ij} = w_i w_j \bigl(L{ij} - L_{ii} L_{jj}\bigr),
    ]
    其中权重 (w_i, w_j) 由对角元 (L_{ii}, L_{jj}) 导出(见源码 calculate_sca_values)。

组合推荐阈值:默认取 SCA 矩阵全体元素 90% 分位数(percentile = 0.9) 以上为「top 10%」候选;与 LD 逻辑标志联合使用。

与 SaProt 对比:作者报告 AiCEmulti 在 6 个突变文库上与 SaProt 组合预测能力相当,但计算成本显著更低(官方称 5 CPU·h 量级可完成 SpCas9 单/双突提名)。

段末注释SCA 原用于从天然 MSA 识别功能 sector;AiCE 将其应用于逆折叠合成 MSA,假设共现模式反映结构兼容的组合


4.6 组合突变逻辑标志(Logical Flag)

含义:对 (k) 位点组合,综合 LD 与 SCA 给出 0/1 推荐标签

预测方法04.com_mut_prediction.sh 输出 .ld.result / .sca.result):

1
Mutation Type    Mean Pairwise score    Log Mean Pairwise score    Logical Flag (0/1)
  • LD 路径:Mean Pairwise LD ≥ 0.5(默认)→ Flag = 1。
  • SCA 路径:组合得分处于矩阵 top (1−0.9)=10% → Flag = 1。
  • 实践中宜两者同时满足或优先 LD 通过的集合再做 SCA 排序(具体策略见原文各案例)。

4.7 辅助指标:PSSM 与蛋白规模特征

PSSM(Position-Specific Scoring Matrix,位置特异性打分矩阵)msa_to_pssm.py,可选后处理):

[
\mathrm{PSSM}(a, i) = \log_2 \frac{P(a \mid i) + \lambda}{q(a)},
]

其中 (P(a \mid i)) 为位点 (i) 氨基酸 (a) 的观测频率(加伪计数 (\lambda)),(q(a)) 为背景频率(uniform 或 Robinson–Robinson 1991)。PSSM 不直接进入 AiCE 默认筛选,但可用于可视化采样偏好或与 Rosetta/PLM 分数对照。

蛋白规模特征(用于自动 β/γ):

  • protein_size (L):DSSP 有效残基数;
  • flex_ratio:(L_C / L),柔性区占比。

5. 端到端流程(与仓库脚本对齐)

5.1 AiCEsingle 四步

1
2
3
# Step 0: 单点突变提名(含逆折叠 + DSSP + 频率 + 筛选)
bash scripts/01.single_mut_prediction.sh <scripts_dir> <input_folder> <beta> <gamma> [output_folder]
# 推荐: beta=0.8, gamma=0.5

内部顺序:inverse_MPNN.shpredict_dssp.pycount_residue_freq.pypredicted_single_HF_mutations.py

5.2 AiCEmulti 三步

1
2
3
python scripts/02.caculated_ld.py <seq_dir> <output_ld_dir>
bash scripts/03.caculated_sca.sh <script_dir> <input_dir> <output_dir>
bash scripts/04.com_mut_prediction.sh <script_dir> <input_dir> <k> <output_dir> # k=组合阶数

5.3 关键默认超参数汇总

参数 默认值 作用
num_seq_per_target 1000 逆折叠采样深度
sampling_temp 0.5 采样温度
β 0.8 有序区频率阈值
γ 0.5 柔性区频率阈值
LD 阈值 0.5 组合 Mean Pairwise LD
SCA 分位数 0.9 top 10% 组合

6. 湿实验验证指标(框架外部、任务相关)

AiCE 本身不预测以下实验读数,但论文 8 项工程任务用它们定义 HF 成功与否;聚合酶/编辑器读者可对照设计验证面板:

任务类型 常用读出 论文代表结果
胞嘧啶碱基编辑器 编辑窗口宽度(bp) enABE8e:~5 bp 窗口(缩窄 ~50%)
腺苷碱基编辑器 保真度(fidelity) enSdd6-CBE:1.3× 保真度
线粒体碱基编辑器 编辑活性 enDdd1-DdCBE:最高 14.3× 活性
逆转录酶 / 核酸酶 催化活性、持续合成能力 酶改造-01 中 k_cat、processivity 等指标衔接

段末注释:湿实验指标的选择决定「HF」的操作定义;AiCE 提名的是计算 HF,须经实验转化为功能 HF


7. 与同类方法的对比(方法视角)

维度 AiCE EVOLVEpro / MLDE 纯 PLM 零样本
是否需要任务训练 是(回归 + 主动学习)
结构输入 必需(PDB) 通常仅序列 通常仅序列
核心打分 采样频率 + SS/LD/SCA PLM 嵌入 + RFR 掩码似然 / pMMS
组合突变 AiCEmulti(LD+SCA) 多轮扩展 较弱
适用阶段 冷启动提名 有少量标注后的迭代 预筛选

聚合酶场景:若有 AlphaFold3 / ESMFold 结构,可直接走 AiCEsingle 提名活性/稳定性相关位点;获得首批实验数据后,可与 EVOLVEpro 等串联(AiCE 扩大初始候选 → MLDE 精修)。


8. 开源与复现入口

  • 代码https://github.com/ScorpioLea/AiCE(MIT License;部分方法受专利保护,商用需联系作者)
  • 依赖:PyTorch、Biopython、ProDy、mkdssp、PLINK v1.9、pySCA
  • Demoexample/AiCE_demo.ipynb
  • 许可注意:学术研究可用;商业化需联系 cxgao@genetics.ac.cn

9. 小结

  • AiCE 的本质是:通用逆折叠采样 → 统计频率 → 结构/进化约束过滤,而非训练新的端到端活性预测器。
  • 单点设计核心看 (f_i)SS 分区的 β/γ组合设计核心看 LD 共现SCA 耦合,以规避负向上位。
  • 指标链:结构 → MSA →(频率 + DSSP)→ HF 单突 →(LD + SCA)→ HF 组合 → 湿实验读出。
  • 聚合酶/逆转录酶读者:AiCE 提供低算力、无标注冷启动的突变提名;k_cat、保真度、processivity 等仍需按 酶改造-01 在目标工艺条件下验证。

10. 延伸阅读(检索关键词)

  • AiCE, AiCEsingle, AiCEmulti, inverse folding mutation, ProteinMPNN directed evolution, structural constraint protein engineering, SCA epistasis, linkage disequilibrium protein MSA, high-fitness mutation prediction, Caixia Gao base editor
-------------本文结束感谢您的阅读-------------