酶改造-modelpaper-TaqPol-ProtT5-RT

1. 文献信息

  • 题目:Enhancing the reverse transcriptase function in Taq polymerase via AI-driven multiparametric rational design
  • 期刊Frontiers in Bioengineering and Biotechnology,2024 年 12 月 10 日;卷 12,文章号 1495267
  • DOIhttps://doi.org/10.3389/fbioe.2024.1495267
  • 开放获取:CC BY 4.0(页面版权说明以期刊为准)
  • 作者:Yulia E. Tomilova、Nikolay E. Russkikh、Denis V. Antonets(通讯)等;机构包括 AO Vector-BestAcademGene莫斯科国立大学人工智能研究所(MSU Institute for Artificial Intelligence)

核心问题:在嗜热栖热菌(Thermus aquaticus)DNA 聚合酶 I(Taq DNA polymerase,下文简称 Taq pol) 上,增强RNA 依赖的 DNA 聚合酶(即逆转录酶,reverse transcriptase,RT) 活性,同时尽量保留保真度(fidelity)5′→3′ 外切酶活性dUTP 替换 dTTP 的可耐受性锁核酸(locked nucleic acid,LNA)底物加工能力及 hot start 等诊断/工具酶相关指标。

段末注释RT 此处指以 RNA 为模板合成 DNA 的能力;LNA 为修饰核苷酸,常用于探针/引物以提高结合特异性;hot start 指低温抑制酶活、升温后释放,以减少非特异扩增。


2. 研究动机与定位

传统 定向进化单指标筛选易忽略多性质之间的权衡(trade-off):同一突变可能同时影响结合、延伸、保真与副产物。作者提出:先用蛋白质语言模型(Protein Language Model,PLM)将序列参数化,再在嵌入上建立多参数回归,并在多轮实验中不断扩充训练集,最后用带不确定度的模型对超大规模突变空间做 in silico 预筛选,再进入湿实验。

与纯「提高 RT」的文献相比,本文强调 multiparametric(多参数) 实验面板与 AI 驱动的理性设计(rational design) 闭环,面向 单酶一步法 RT-qPCR 等工具开发场景。

段末注释PLM§1 与下文 ProtT5in silico 指计算筛选,相对 in vitro(体外) 实验。


3. 方法实现原理(详解)

以下与原文 Materials and methodsParametrization of protein sequencesRegression modelsSelection and validation of predictive modelsMutational scanning at the chosen sites)及 Fig. 1 对齐;超参数与核函数细节以 Supplementary Table S2 为准。

3.1 总体流程(对应 Fig.1)

  1. 基准与预训练:在公开 DMS(deep mutational scanning,深度突变扫描) 数据(如 BlaCavGFP)上比较 PLM + 回归器,并选定 ProtT5-XL 家族;再对 Taq pol 同源序列掩码语言建模(masked language modeling,MLM) 微调(文中称 evotuned / evotune)。
  2. 首轮实验:依据文献与结构选定 18 个单点突变 + 野生型(wild type,WT),做多参数酶学表征,形成初始训练集。
  3. 第一轮监督模型:用 evotuned ProtT5-XL 提取序列嵌入,均值汇聚后,以 岭回归(Ridge regression) 预测多性质,并提名 约 14 个新突变体实验。
  4. 第二轮数据:合并新数据后,为控制极值预测并引入置信区间,改用 高斯过程回归(Gaussian Process regression,GPR)GPyTorch 实现),在扩大数据集(文中第三阶段约 33 个数据点规模)上重训。
  5. 大规模 in silico 筛选:用增强后的 GPR>1800 万 潜在突变组合打分,收窄到 16 个左右候选做第三轮全面湿实验验证。

Fig.1 Taq pol 设计—评估管线示意(图中为英文标注;结构见 Tomilova 等 *Front. Bioeng. Biotechnol.* **Fig.1**)

图注:紫色虚线表示「新实验数据 → 更新模型」的迭代思想;各轮样本量与提名数以原文 Results 为准。

3.2 序列参数化:ProtT5-XL 编码器与 evotune

  • 主干:采用 ProtT5编码器—解码器(encoder–decoder) 结构中的 编码器(encoder) 部分(ProtT5-XL 规模);取 最后一层逐残基(per-token)嵌入,再对序列长度做 average pooling(平均汇聚),得到整条序列的固定维向量,作为下游回归输入。
  • 同源微调(evotune):从 UniRef100 中用 jackhmmerTaq DNA 聚合酶 Klenow 片段UniProt ID:P19821)为查询抽取同源序列,得到 约 91 808 条序列(长度上限与统计见原文)。对 最后 6 层 编码器以 MLM 目标微调(动机与 Biswas 等关于「目标蛋白同源上微调可提升功能预测」的论述一致)。
  • 实现Hugging Face Transformers 接口;DeepSpeed ZeRO stage 2 分布式训练;4× NVIDIA V100约 2 周batch size 1024学习率 1e-5线性衰减200 warmup steps(原文参数)。

段末注释jackhmmer 为序列同源搜索工具(HMM 迭代搜索);ZeRO 为显存分片优化,利于大模型微调;warmup 指学习率预热步数。

3.3 回归头:从 RidgeGPR

  • Ridge(第一阶段):以嵌入为特征、多指标为标签;α留一交叉验证(leave-one-out cross-validation,LOOCV) 调参,评价指标为 平均绝对百分比误差(mean absolute percentage error,MAPE)。选取 Ridge 的原因包括实现简单且能缓解特征间多重共线性
  • 高斯过程(第二阶段及 in silico):当数据增多后,线性模型有时给出极端外推GPR 可提供预测不确定度。实现为 GPyTorch每个性质使用手工选择的核函数,主要为 MatérnSpectralDelta 核,并按性质调整 delta 个数等(Supplementary Table S2)。
  • 标签处理:各目标 z-score 标准化;部分目标先 对数变换 以稳定方差,预测后再反变换回物理可读尺度。

段末注释GPR 在小样本上常表现稳健,但高维输入下计算与核选择成本高;本文通过 PLM 汇聚向量将每条序列压成固定维特征再建模。

3.4 模型选择与外部基准

在缺乏 Taq 大规模 DMS 时,作者用 BlaCavGFP 等公开突变—表型数据做方法学验证(后纳入 ProteinGym 等基准生态)。评估指标包括 Spearman 秩相关(强调排序而非绝对数值)及 Top-kk ∈ {4, 8, 16, 24})命中率类指标。结论之一是:经微调的 ProtT5-XL 表现与未微调的更大模型 ProtT5-XXL 可比,故选用 XL 以平衡效果与资源。

3.5 突变搜索空间与实验设计约束

  • 每位点替换数:每条变体最多 3 个氨基酸替换,以降低「多突变导致不可预测失活」而训练数据仍稀疏的风险。
  • 位点集合:在全文库上三突变组合空间极大;作者依据文献(如 Raghunathan & Marx, 2019)将搜索限制在特定残基集合,包含全序列单点扫描 + 若干位点的双点/三点组合(原文列举 507、515、536、540、570、573、578、586、614、626、639、667、670、707、708、728、732、742、743、747、783 等位点,以正文为准)。
  • 湿实验面板:包括但不限于 RT 效率(多种长度 cDNAΔCq 相对 p66 HIV RT 参考)、DNA 聚合酶有效速率dT/dU 速率比LNA 发夹底物延伸、Kdk_cat(dT/dU)(停流荧光)、NGS 保真度PCR 效率抗体/适体 hot start 等;后续轮次对参数子集做了删减以节省通量(见原文 Results)。

3.6 主要结论(与方法的耦合)

迭代后得到多株 RT 活性较 WT 显著提升 的变体,同时往往伴随 Kd 降低保真度适度下降非天然底物耐受性变化耦合表型;作者用 Spearman 相关矩阵讨论参数间权衡。最终 in silico 预测结果发布于 Hugging Face 数据集 taqpol_insilico_dms(页面名称以数据集实际标题为准)。


4. 与聚合酶改造读者的关系

Taq polT7 RNA 聚合酶逆转录酶模块(如 M-MLV RT) 同属工具酶工程高频对象:本文方法学要点是 「PLM 嵌入 + 多目标回归 + 多轮实验 + 不确定度引导的大规模筛选」,可迁移到以序列表征为主、需同时约束多个读出的聚合酶/合成酶改造项目;但 Taq 的读出(PCR、NGS 错误率、探针切割等)与 IVT mRNA基因组编辑 场景不同,不可直接套用同一组实验协议。


5. 数据与复现入口

  • 公开预测/扫描结果Hugging Face Datasets — taqpol_insilico_dms
  • 原文补充材料:期刊页面 Supplementary material 链接(含 Table S2 等)
  • 模型权重与训练脚本:以原文 Data availability 及补充说明为准(若未集中托管,需联系作者或机构政策)

6. 小结

  • 表征ProtT5-XL 编码器 + 最后一层 token 嵌入 + 均值汇聚 → 序列级向量。
  • 监督:先 RidgeLOOCV + MAPE),数据增多后换 GPyTorch GPRMatérn / SpectralDelta 等核),支持不确定性>10⁷ 量级 in silico 排序。
  • 实验多参数面板驱动真实权衡刻画;突变半径位点集合的人为约束是工程可行性与数据效率的折中。
  • 资源同源 MLM 微调 + DeepSpeed 反映「在单一蛋白家族上对齐 PLM」与工业界 evotuning 实践相近。

7. 延伸阅读(检索关键词)

  • Taq polymerase reverse transcriptase, ProtT5, Gaussian process protein, multiparametric enzyme design, Frontiers Bioeng 1495267, taqpol_insilico_dms, ProteinGym, ridge vs GP regression PLM
-------------本文结束感谢您的阅读-------------