1. 文献信息
- 题目:Enhancing the reverse transcriptase function in Taq polymerase via AI-driven multiparametric rational design
- 期刊:Frontiers in Bioengineering and Biotechnology,2024 年 12 月 10 日;卷 12,文章号 1495267
- DOI:https://doi.org/10.3389/fbioe.2024.1495267
- 开放获取:CC BY 4.0(页面版权说明以期刊为准)
- 作者:Yulia E. Tomilova、Nikolay E. Russkikh、Denis V. Antonets(通讯)等;机构包括 AO Vector-Best、AcademGene、莫斯科国立大学人工智能研究所(MSU Institute for Artificial Intelligence) 等
核心问题:在嗜热栖热菌(Thermus aquaticus)DNA 聚合酶 I(Taq DNA polymerase,下文简称 Taq pol) 上,增强其 RNA 依赖的 DNA 聚合酶(即逆转录酶,reverse transcriptase,RT) 活性,同时尽量保留保真度(fidelity)、5′→3′ 外切酶活性、dUTP 替换 dTTP 的可耐受性、锁核酸(locked nucleic acid,LNA)底物加工能力及 hot start 等诊断/工具酶相关指标。
段末注释:RT 此处指以 RNA 为模板合成 DNA 的能力;LNA 为修饰核苷酸,常用于探针/引物以提高结合特异性;hot start 指低温抑制酶活、升温后释放,以减少非特异扩增。
2. 研究动机与定位
传统 定向进化 或单指标筛选易忽略多性质之间的权衡(trade-off):同一突变可能同时影响结合、延伸、保真与副产物。作者提出:先用蛋白质语言模型(Protein Language Model,PLM)将序列参数化,再在嵌入上建立多参数回归,并在多轮实验中不断扩充训练集,最后用带不确定度的模型对超大规模突变空间做 in silico 预筛选,再进入湿实验。
与纯「提高 RT」的文献相比,本文强调 multiparametric(多参数) 实验面板与 AI 驱动的理性设计(rational design) 闭环,面向 单酶一步法 RT-qPCR 等工具开发场景。
段末注释:PLM 见 §1 与下文 ProtT5;in silico 指计算筛选,相对 in vitro(体外) 实验。
3. 方法实现原理(详解)
以下与原文 Materials and methods(Parametrization of protein sequences、Regression models、Selection and validation of predictive models、Mutational scanning at the chosen sites)及 Fig. 1 对齐;超参数与核函数细节以 Supplementary Table S2 为准。
3.1 总体流程(对应 Fig.1)
- 基准与预训练:在公开 DMS(deep mutational scanning,深度突变扫描) 数据(如 BlaC、avGFP)上比较 PLM + 回归器,并选定 ProtT5-XL 家族;再对 Taq pol 同源序列 做 掩码语言建模(masked language modeling,MLM) 微调(文中称 evotuned / evotune)。
- 首轮实验:依据文献与结构选定 18 个单点突变 + 野生型(wild type,WT),做多参数酶学表征,形成初始训练集。
- 第一轮监督模型:用 evotuned ProtT5-XL 提取序列嵌入,均值汇聚后,以 岭回归(Ridge regression) 预测多性质,并提名 约 14 个新突变体实验。
- 第二轮数据:合并新数据后,为控制极值预测并引入置信区间,改用 高斯过程回归(Gaussian Process regression,GPR)(GPyTorch 实现),在扩大数据集(文中第三阶段约 33 个数据点规模)上重训。
- 大规模 in silico 筛选:用增强后的 GPR 对 >1800 万 潜在突变组合打分,收窄到 16 个左右候选做第三轮全面湿实验验证。
图注:紫色虚线表示「新实验数据 → 更新模型」的迭代思想;各轮样本量与提名数以原文 Results 为准。
3.2 序列参数化:ProtT5-XL 编码器与 evotune
- 主干:采用 ProtT5 的 编码器—解码器(encoder–decoder) 结构中的 编码器(encoder) 部分(ProtT5-XL 规模);取 最后一层 的逐残基(per-token)嵌入,再对序列长度做 average pooling(平均汇聚),得到整条序列的固定维向量,作为下游回归输入。
- 同源微调(evotune):从 UniRef100 中用 jackhmmer 以 Taq DNA 聚合酶 Klenow 片段(UniProt ID:P19821)为查询抽取同源序列,得到 约 91 808 条序列(长度上限与统计见原文)。对 最后 6 层 编码器以 MLM 目标微调(动机与 Biswas 等关于「目标蛋白同源上微调可提升功能预测」的论述一致)。
- 实现:Hugging Face Transformers 接口;DeepSpeed ZeRO stage 2 分布式训练;4× NVIDIA V100,约 2 周;batch size 1024,学习率 1e-5,线性衰减与 200 warmup steps(原文参数)。
段末注释:jackhmmer 为序列同源搜索工具(HMM 迭代搜索);ZeRO 为显存分片优化,利于大模型微调;warmup 指学习率预热步数。
3.3 回归头:从 Ridge 到 GPR
- Ridge(第一阶段):以嵌入为特征、多指标为标签;α 由 留一交叉验证(leave-one-out cross-validation,LOOCV) 调参,评价指标为 平均绝对百分比误差(mean absolute percentage error,MAPE)。选取 Ridge 的原因包括实现简单且能缓解特征间多重共线性。
- 高斯过程(第二阶段及 in silico):当数据增多后,线性模型有时给出极端外推;GPR 可提供预测不确定度。实现为 GPyTorch;每个性质使用手工选择的核函数,主要为 Matérn 或 SpectralDelta 核,并按性质调整 delta 个数等(Supplementary Table S2)。
- 标签处理:各目标 z-score 标准化;部分目标先 对数变换 以稳定方差,预测后再反变换回物理可读尺度。
段末注释:GPR 在小样本上常表现稳健,但高维输入下计算与核选择成本高;本文通过 PLM 汇聚向量将每条序列压成固定维特征再建模。
3.4 模型选择与外部基准
在缺乏 Taq 大规模 DMS 时,作者用 BlaC、avGFP 等公开突变—表型数据做方法学验证(后纳入 ProteinGym 等基准生态)。评估指标包括 Spearman 秩相关(强调排序而非绝对数值)及 Top-k(k ∈ {4, 8, 16, 24})命中率类指标。结论之一是:经微调的 ProtT5-XL 表现与未微调的更大模型 ProtT5-XXL 可比,故选用 XL 以平衡效果与资源。
3.5 突变搜索空间与实验设计约束
- 每位点替换数:每条变体最多 3 个氨基酸替换,以降低「多突变导致不可预测失活」而训练数据仍稀疏的风险。
- 位点集合:在全文库上三突变组合空间极大;作者依据文献(如 Raghunathan & Marx, 2019)将搜索限制在特定残基集合,包含全序列单点扫描 + 若干位点的双点/三点组合(原文列举 507、515、536、540、570、573、578、586、614、626、639、667、670、707、708、728、732、742、743、747、783 等位点,以正文为准)。
- 湿实验面板:包括但不限于 RT 效率(多种长度 cDNA 与 ΔCq 相对 p66 HIV RT 参考)、DNA 聚合酶有效速率、dT/dU 速率比、LNA 发夹底物延伸、Kd、k_cat(dT/dU)(停流荧光)、NGS 保真度、PCR 效率、抗体/适体 hot start 等;后续轮次对参数子集做了删减以节省通量(见原文 Results)。
3.6 主要结论(与方法的耦合)
迭代后得到多株 RT 活性较 WT 显著提升 的变体,同时往往伴随 Kd 降低、保真度适度下降、非天然底物耐受性变化 等耦合表型;作者用 Spearman 相关矩阵讨论参数间权衡。最终 in silico 预测结果发布于 Hugging Face 数据集 taqpol_insilico_dms(页面名称以数据集实际标题为准)。
4. 与聚合酶改造读者的关系
Taq pol 与 T7 RNA 聚合酶、逆转录酶模块(如 M-MLV RT) 同属工具酶工程高频对象:本文方法学要点是 「PLM 嵌入 + 多目标回归 + 多轮实验 + 不确定度引导的大规模筛选」,可迁移到以序列表征为主、需同时约束多个读出的聚合酶/合成酶改造项目;但 Taq 的读出(PCR、NGS 错误率、探针切割等)与 IVT mRNA 或 基因组编辑 场景不同,不可直接套用同一组实验协议。
5. 数据与复现入口
- 公开预测/扫描结果:Hugging Face Datasets — taqpol_insilico_dms
- 原文补充材料:期刊页面 Supplementary material 链接(含 Table S2 等)
- 模型权重与训练脚本:以原文 Data availability 及补充说明为准(若未集中托管,需联系作者或机构政策)
6. 小结
- 表征:ProtT5-XL 编码器 + 最后一层 token 嵌入 + 均值汇聚 → 序列级向量。
- 监督:先 Ridge(LOOCV + MAPE),数据增多后换 GPyTorch GPR(Matérn / SpectralDelta 等核),支持不确定性与 >10⁷ 量级 in silico 排序。
- 实验:多参数面板驱动真实权衡刻画;突变半径与位点集合的人为约束是工程可行性与数据效率的折中。
- 资源:同源 MLM 微调 + DeepSpeed 反映「在单一蛋白家族上对齐 PLM」与工业界 evotuning 实践相近。
7. 延伸阅读(检索关键词)
Taq polymerase reverse transcriptase,ProtT5,Gaussian process protein,multiparametric enzyme design,Frontiers Bioeng 1495267,taqpol_insilico_dms,ProteinGym,ridge vs GP regression PLM