酶改造-modelpaper-AiCE

1. 文献信息

题目：Advancing protein evolution with inverse folding models integrating structural and evolutionary constraints
期刊：Cell；DOI：https://doi.org/10.1016/j.cell.2025.06.014
作者：Hongyuan Fei、Yunjia Li、Yijing Liu、Jingjing Wei、Aojie Chen、Caixia Gao（中国科学院遗传与发育生物学研究所）
核心贡献：提出 AiCE（AI-informed Constraints for protein Engineering，人工智能约束蛋白工程），将通用逆折叠模型（inverse folding model） 的大规模序列采样与结构约束、进化耦合约束结合，在无需针对任务再训练专用模型的前提下，提名高适应度（high-fitness，HF） 单点与组合氨基酸突变，用于脱氨酶、核酸酶、逆转录酶等多样蛋白的定向改造。

段末注释：逆折叠指给定三维骨架/结构，预测与之兼容的氨基酸序列；HF 在文中指实验读出（活性、编辑效率、保真度等）显著优于野生型的突变，而非 PLM 似然本身。

2. 研究动机与框架定位

传统蛋白工程依赖随机突变 + 高通量筛选或人工经验选点，成功率低、成本高。近年 蛋白质语言模型（Protein Language Model，PLM） 与 逆折叠网络 可零样本或弱监督地排序突变，但：

纯 PLM 零样本打分与实验室目标函数（活性、保真度等）常弱相关；
任务专用回归模型（如 EVOLVEpro、UniKP 路线）需要实验反馈迭代，冷启动成本高；
组合突变易受负向上位效应（negative epistasis） 拖累，单点 HF 简单叠加往往失效。

AiCE 的假设是：通用逆折叠模型在结构条件下采样出的序列分布，已隐含「结构兼容」的氨基酸偏好；再叠加二级结构分区阈值（结构约束） 与 统计耦合分析（Statistical Coupling Analysis，SCA）/连锁不平衡（Linkage Disequilibrium，LD） 可进一步筛掉不合理突变与不良组合。作者在 60 个深度突变扫描（Deep Mutational Scanning，DMS） 基准上，AiCEsingle 准确率约 16%，引入结构约束后相对无约束方案提升 37%，相对其他 AI 方法提升 36%–90%；8 项湿实验任务成功率 11%–88%。

段末注释：DMS 为高通量测定大量单点/组合突变效应的实验范式；上位效应指多位点突变效应不可由单点效应简单相加。

3. 总体架构：AiCEsingle 与 AiCEmulti

AiCE 由两个串联模块构成，共享同一逆折叠采样得到的多序列比对（Multiple Sequence Alignment，MSA）：

模块	目标	核心约束	输出
AiCEsingle	单点 HF 突变	结构约束（DSSP 二级结构 + 出现频率阈值 β/γ）	`.mut` / `.comb`
AiCEmulti	多点 HF 组合	进化耦合（SCA 矩阵 + LD 矩阵）	`.sca.result` / `.ld.result`

框架不绑定特定逆折叠后端，官方 demo 使用 ProteinMPNN，亦兼容 LigandMPNN、ESM-IF1、SaProt 等。

Fig.1 AiCE 双模块流程示意（与 Fei 等 *Cell* 2025 及官方仓库对齐）

图注：左侧 AiCEsingle 路径：结构 → 逆折叠采样 → 位点频率 + DSSP → β/γ 筛选；右侧 AiCEmulti 路径：同一 MSA → LD/SCA 矩阵 → 组合打分与逻辑筛选；最终进入湿实验验证。

4. 氨基酸突变设计中的核心指标（详解）

以下按 AiCE 在搜索新序列时实际计算、比较、筛选的量 组织；每一节给出指标含义与预测/计算方法，并与官方实现脚本对应。

4.1 逆折叠采样频率 (f_i(a))（Occurrence Frequency）

含义：在目标蛋白三维结构下，逆折叠模型独立采样 (N) 条序列后，位点 (i) 上氨基酸 (a) 的出现比例；AiCE 以最高频非参考氨基酸作为该位点的提名突变类型。

预测方法：

结构解析：PDB/mmCIF → parse_multiple_chains.py 提取主链几何。
逆折叠采样：以 ProteinMPNN 为例（inverse_MPNN.sh），默认 num_seq_per_target=1000、sampling_temp=0.5、固定随机种子；每条序列是对同一骨架的条件采样。
MSA 构建：输出 .fa，首条为参考序列（野生型，WT），其余为采样序列。
频率统计（count_residue_freq.py）：对位点 (i)，在除参考序列外的所有采样序列中计数各氨基酸（含 gap -），计算
[
f_i(a) = \frac{\mathrm{count}i(a)}{\sum{a’ \in \mathcal{A}} \mathrm{count}_i(a’)} ,
]
其中 (\mathcal{A}) 为 20 种标准氨基酸及 gap。取 (\arg\max_a f_i(a)) 为 highest_freq_aa。
输出格式（.re.freq）：每行 ref_aa \t highest_freq_aa \t freq%。

设计要点：(f_i) 不是实验活性，而是**「结构条件下逆折叠模型共识序列」** 的代理；采样数 (N) 与温度 (T) 越大/越高，分布越平滑，阈值需相应调整。

段末注释：ProteinMPNN 为基于图神经网络的逆折叠模型；sampling_temp 控制 softmax 采样随机性，低温更保守。

4.2 二级结构标签 SS（Structural Context）

含义：每位点所属二级结构类别，用于决定该位点适用刚性区阈值 β 还是柔性区阈值 γ。

预测方法（predict_dssp.py）：

对输入 PDB 运行 mkdssp（仓库内置 DSSP 4.4.7；亦可 conda 安装 dssp）。
解析 DSSP 输出，将 Kabsch–Sander 符号映射为三类简化标签：

DSSP 原始符号	AiCE 简化 SS	结构类型
H, G, I, P	H	α-/3₁₀-/π-螺旋
E, B	E	β-折叠 / β-bridge
T, S, ., ?	C	转角、弯曲、无规卷曲（柔性区）

输出 .ss：每行 resnum \t ref_aa \t SS。

在筛选中的作用：SS 是结构约束的开关——同一 (f_i) 在螺旋/折叠核心与 loop 区使用不同通过门槛，反映「柔性区可容忍更多序列多样性」的生物学直觉；消融实验显示仅引入 SS 分区阈值即可带来约 37% 准确率提升。

段末注释：DSSP（Define Secondary Structure of Proteins）依据主链氢键模式指派二级结构；AiCE 将 T/S/无定义归为 C（coil）。

4.3 结构约束阈值 β 与 γ（AiCE Filtering Thresholds）

含义：

β：全局出现频率阈值（global occurrence threshold），用于 SS ≠ C 的刚性/有序区；默认 0.8。
γ：柔性区出现频率阈值（flexible region occurrence threshold），用于 SS = C 的 loop/转角区；默认 0.5。

筛选规则（predicted_single_HF_mutations.py）：对位点 (i)，设参考氨基酸为 (a_i^{\mathrm{ref}})，最高频氨基酸为 (a_i^{\mathrm{alt}})，频率为 (f_i)，则提名单点突变当且仅当：

[
a_i^{\mathrm{ref}} \neq a_i^{\mathrm{alt}} \quad \land \quad
\begin{cases}
f_i \geq \beta, & \mathrm{SS}_i \in {H, E} \
f_i \geq \gamma, & \mathrm{SS}_i = C
\end{cases}
]

自动阈值预测（可选）：若未手动指定 β/γ，可用预训练回归模型（best_model_a.pkl / best_model_b.pkl）根据蛋白规模与柔性比例推荐：

[
\mathrm{flex_ratio} = \frac{#{\mathrm{SS}=C}}{L}, \quad
(\beta, \gamma) = \mathrm{round}_{0.1}\bigl(\mathrm{MLP}(\mathrm{protein_size}, \mathrm{flex_ratio})\bigr),
]

其中 (L) 为有效残基数，输出四舍五入到 0.1 步长。

物理直觉：有序二级结构内packing更严，要求更高共识度（高 β）；柔性 loop 允许更多序列变异仍保持折叠（低 γ）。

段末注释：β、γ 为 AiCE 核心超参数；README 推荐通用起点 0.8 / 0.5；01.single_mut_Auto_prediction.sh 可自动推断。

4.4 连锁不平衡 LD 矩阵（Evolutionary Co-occurrence）

含义：刻画逆折叠采样 MSA 中，不同位点突变型共现的统计关联；高 LD 提示两位点氨基酸在采样序列中倾向于同时出现，组合引入时负向上位风险较低。

预测方法（02.caculated_ld.py）：

蛋白 → 伪 DNA：按最优密码子表（OPTIMAL_CODONS）将每条氨基酸序列翻译为 DNA（非真实基因组编码，仅为 LD 计算提供等位基因型表示）。
DNA → VCF：以首条序列为参考，逐位点比较 REF/ALT，生成 .vcf。
PLINK v1.9 计算 LD 矩阵 → .ld（逗号分隔数值矩阵）。
对候选组合位点集 (\mathcal{S})，取子矩阵 (\mathbf{L}_{\mathcal{S}})，计算：

导出指标	公式/定义
Mean Pairwise LD	上三角非对角元素的算术均值
Log Mean Pairwise LD	对 (\log(L_{ij} + 10^{-10})) 后同上
Multilocus LD	(\prod_{i<j} L_{ij})（连乘形式的多位点关联）

组合推荐阈值：默认 Mean Pairwise LD ≥ 0.5 时逻辑标志位置 1（04.com_mut_prediction.sh，-t 可调）。

段末注释：LD 本用于群体遗传学；AiCE 将其借用于采样序列间的共变，作为组合突变的统计共现代理；PLINK 为常用基因型分析工具。

4.5 统计耦合分析 SCA 矩阵（Evolutionary Coupling）

含义：基于 SCA 框架，从 MSA 中提取位点–位点、氨基酸–氨基酸的进化耦合强度，识别功能上协同进化的残基对；用于组合突变时偏好进化耦合高的位点组合。

预测方法（03.caculated_sca.sh + 修改版 pySCA）：

MSA 预处理：scaProcessMSA.py 过滤、加权，生成 .db。
核心分解：scaCore.py 计算位置相关矩阵 (\mathbf{C}^{\mathrm{SCA}} \in \mathbb{R}^{L \times L})（输出 .sca_matrix.tsv）。
核心思想来自 Ranganathan 等 SCA 理论：对对齐序列计算加权协方差张量，经** Frobenius 范数**压缩为 positional correlation。
组合打分（com_mut_prediction.py）：对 LD 子矩阵 (\mathbf{L}) 还可导出 SCA-style 加权协方差：
[
\mathrm{SCA}{ij} = w_i w_j \bigl(L{ij} - L_{ii} L_{jj}\bigr),
]
其中权重 (w_i, w_j) 由对角元 (L_{ii}, L_{jj}) 导出（见源码 calculate_sca_values）。

组合推荐阈值：默认取 SCA 矩阵全体元素 90% 分位数（percentile = 0.9） 以上为「top 10%」候选；与 LD 逻辑标志联合使用。

与 SaProt 对比：作者报告 AiCEmulti 在 6 个突变文库上与 SaProt 组合预测能力相当，但计算成本显著更低（官方称 5 CPU·h 量级可完成 SpCas9 单/双突提名）。

段末注释：SCA 原用于从天然 MSA 识别功能 sector；AiCE 将其应用于逆折叠合成 MSA，假设共现模式反映结构兼容的组合。

4.6 组合突变逻辑标志（Logical Flag）

含义：对 (k) 位点组合，综合 LD 与 SCA 给出 0/1 推荐标签。

预测方法（04.com_mut_prediction.sh 输出 .ld.result / .sca.result）：

1	Mutation Type Mean Pairwise score Log Mean Pairwise score Logical Flag (0/1)

LD 路径：Mean Pairwise LD ≥ 0.5（默认）→ Flag = 1。
SCA 路径：组合得分处于矩阵 top (1−0.9)=10% → Flag = 1。
实践中宜两者同时满足或优先 LD 通过的集合再做 SCA 排序（具体策略见原文各案例）。

4.7 辅助指标：PSSM 与蛋白规模特征

PSSM（Position-Specific Scoring Matrix，位置特异性打分矩阵）（msa_to_pssm.py，可选后处理）：

[
\mathrm{PSSM}(a, i) = \log_2 \frac{P(a \mid i) + \lambda}{q(a)},
]

其中 (P(a \mid i)) 为位点 (i) 氨基酸 (a) 的观测频率（加伪计数 (\lambda)），(q(a)) 为背景频率（uniform 或 Robinson–Robinson 1991）。PSSM 不直接进入 AiCE 默认筛选，但可用于可视化采样偏好或与 Rosetta/PLM 分数对照。

蛋白规模特征（用于自动 β/γ）：

protein_size (L)：DSSP 有效残基数；
flex_ratio：(L_C / L)，柔性区占比。

5. 端到端流程（与仓库脚本对齐）

5.1 AiCEsingle 四步

1
2
3

# Step 0: 单点突变提名（含逆折叠 + DSSP + 频率 + 筛选）
bash scripts/01.single_mut_prediction.sh <scripts_dir> <input_folder> <beta> <gamma> [output_folder]
# 推荐: beta=0.8, gamma=0.5

内部顺序：inverse_MPNN.sh → predict_dssp.py → count_residue_freq.py → predicted_single_HF_mutations.py。

5.2 AiCEmulti 三步

1
2
3

python scripts/02.caculated_ld.py <seq_dir> <output_ld_dir>
bash scripts/03.caculated_sca.sh <script_dir> <input_dir> <output_dir>
bash scripts/04.com_mut_prediction.sh <script_dir> <input_dir> <k> <output_dir>   # k=组合阶数

5.3 关键默认超参数汇总

参数	默认值	作用
`num_seq_per_target`	1000	逆折叠采样深度
`sampling_temp`	0.5	采样温度
β	0.8	有序区频率阈值
γ	0.5	柔性区频率阈值
LD 阈值	0.5	组合 Mean Pairwise LD
SCA 分位数	0.9	top 10% 组合

6. 湿实验验证指标（框架外部、任务相关）

AiCE 本身不预测以下实验读数，但论文 8 项工程任务用它们定义 HF 成功与否；聚合酶/编辑器读者可对照设计验证面板：

任务类型	常用读出	论文代表结果
胞嘧啶碱基编辑器	编辑窗口宽度（bp）	enABE8e：~5 bp 窗口（缩窄 ~50%）
腺苷碱基编辑器	保真度（fidelity）	enSdd6-CBE：1.3× 保真度
线粒体碱基编辑器	编辑活性	enDdd1-DdCBE：最高 14.3× 活性
逆转录酶 / 核酸酶	催化活性、持续合成能力	与酶改造-01 中 k_cat、processivity 等指标衔接

段末注释：湿实验指标的选择决定「HF」的操作定义；AiCE 提名的是计算 HF，须经实验转化为功能 HF。

7. 与同类方法的对比（方法视角）

维度	AiCE	EVOLVEpro / MLDE	纯 PLM 零样本
是否需要任务训练	否	是（回归 + 主动学习）	否
结构输入	必需（PDB）	通常仅序列	通常仅序列
核心打分	采样频率 + SS/LD/SCA	PLM 嵌入 + RFR	掩码似然 / pMMS
组合突变	AiCEmulti（LD+SCA）	多轮扩展	较弱
适用阶段	冷启动提名	有少量标注后的迭代	预筛选

对聚合酶场景：若有 AlphaFold3 / ESMFold 结构，可直接走 AiCEsingle 提名活性/稳定性相关位点；获得首批实验数据后，可与 EVOLVEpro 等串联（AiCE 扩大初始候选 → MLDE 精修）。

8. 开源与复现入口

代码：https://github.com/ScorpioLea/AiCE（MIT License；部分方法受专利保护，商用需联系作者）
依赖：PyTorch、Biopython、ProDy、mkdssp、PLINK v1.9、pySCA
Demo：example/AiCE_demo.ipynb
许可注意：学术研究可用；商业化需联系 cxgao@genetics.ac.cn

9. 小结

AiCE 的本质是：通用逆折叠采样 → 统计频率 → 结构/进化约束过滤，而非训练新的端到端活性预测器。
单点设计核心看 (f_i) 与 SS 分区的 β/γ；组合设计核心看 LD 共现 与 SCA 耦合，以规避负向上位。
指标链：结构 → MSA →（频率 + DSSP）→ HF 单突 →（LD + SCA）→ HF 组合 → 湿实验读出。
对聚合酶/逆转录酶读者：AiCE 提供低算力、无标注冷启动的突变提名；k_cat、保真度、processivity 等仍需按 酶改造-01 在目标工艺条件下验证。

10. 延伸阅读（检索关键词）

AiCE, AiCEsingle, AiCEmulti, inverse folding mutation, ProteinMPNN directed evolution, structural constraint protein engineering, SCA epistasis, linkage disequilibrium protein MSA, high-fitness mutation prediction, Caixia Gao base editor