酶改造-03.蛋白各类性能预测相关的工具

0. 序列向量化嵌入模型

  • ProtT5-XL-Uniref50
    该模型利用T5架构和30亿个参数对4.5亿条蛋白质序列进行了训练。与其他流行的蛋白质语言模型相比,该模型在多项下游任务中都取得了最优的性能。传统的获取节点特征的方法是依据蛋白质序列来确定的:即选择突变位点左右两侧的若干氨基酸作为节点。不过,从空间结构的角度来看,通过这种方式构建节点更为合理,因为突变会改变蛋白质周围分子的相互作用关系。
  • ESM2(facebool)

1. 序列相似性评估

  • MMseqs2

2. 结构相似性比对工具

  • Foldseek:van Kempen M, Kim SS, Tumescheit C. et al. Fast and accurate protein structure search with Foldseek. Nat Biotechnol 2024;42:243–6.
    速度比alphafold快40~60倍。(DeepEnzyme 文章中描述)
  • US-align:Zhang C, Shine M, Pyle AM. et al. US-align: universal structure alignments of proteins, nucleic acids, and macromolecular complexes. Nat Methods 2022;19:1109–15.

3. k_cat(催化活性)预测

  • DeepEnzyme: DeepEnzyme: a robust deep learning model for improved enzyme turnover number prediction by utilizing features of protein 3D-structures
    基于序列和3d结构进行$k_cat$ 的预测
  • UniKP: a unified framework for the prediction of enzyme kinetic parameters
    共发布了两个架构,UniKP是基于序列和底物特征进行Km预测, EF-UnikP在序列和底物特征的基础上增加了PH和温度信息,同时预测内容也增加了$Km$ 和 $K_cat$/$K_m$

4. 热稳定性

  • PON-Tm: A Sequence-Based Method for Prediction of Missense Mutation Effects on Protein Thermal Stability Changes
    预测由突变引起的蛋白质热稳定性变化(ΔTm)

预测反应的最优PH

  • OphPred:Approaching Optimal pH Enzyme Prediction with Large Language Models.pdf
    基于蛋白的序列信息,通过ESM2完成序列的向量化,进行最优反应ph的预测。

5. 预测突变影响

  • EnzyACT: A Novel Deep Learning Method to Predict the Impacts of Single and Multiple Mutations on Enzyme Activity
    预测单一或多种突变对酶活性影响的新型深度学习方法,可以预测突变带来的酶功能增强/减弱

6.序列生成模型

  • ESM3: Simulating 500 million years of evolution with a language model
    多模态生成模型,可以进行新蛋白的预测(生成新的蛋白序列,结构信息、关键功能等)。
-------------本文结束感谢您的阅读-------------