Software-MSI-软件测评

微卫星不稳定性 (MSI) 是多种癌症类型中常见的一种现象,其特征是在整个基因组中发现的微卫星区域中插入和缺失(indels)的积累,具有高微卫星不稳定性 (MSI-H) 的癌症可能是免疫检查点抑制剂治疗的良好候选者。所以MSI自1993年首次在结直肠癌中被提出后,不断发展。目前作为帮助指导免疫检查点抑制剂治疗的生物标志物,已经进入数十种癌症的指南/共识之中。详细信息可以参考我们之前的合集文章

虽然尚未在实验室环境中确切证明 MSI 是如何产生的,但主要的假设是 DNA 错配修复途径的缺陷可能导致微卫星位点插入/缺失数量的增加。这种插入缺失率的显着增加是 MSI 的主要特征及其主要识别方式
目前已经有很多基于不同原理的检测方法包括IHC、PCR、NGS。之前的文章也有介绍,在这里我们也不进行赘述,今天介绍的是最近刚发表在发表在《Briefings in Bioinformatics》期刊上的一篇对现有公开的基于NGS数据进行MSI检测软件进行的评估文章


因为MSI-L不是在所有软件都支持,所以所有测评都是进行的二分类:MSI-H 和 MSS(MSI-L视为MSS)。

测试数据集

数据分为两个部分:TCGA数据 和 其他测试数据。

  • TCGA的测试数据都是从GDC下载的,数据格式都是Bam文件格式,数据类型包括 WXS(852)、WGS(321)、RNA(825) 的测序数据。具体清单如下:

    | Project ID | Cancer | Sequencing | Number of Samples | Number of MSS | Number of MSI-H |
    | ———- | ——————- | ———- | —————– | ————- | ————— |
    | COAD | Colon | WGS | 56 | 46 | 10 |
    | ESCA | Esophageal | WGS | 2 | 0 | 2 |
    | STAD | Stomach | WGS | 136 | 107 | 29 |
    | UCEC | Uterine/endometrial | WGS | 145 | 102 | 43 |
    | COAD | Colon | WXS | 284 | 232 | 52 |
    | ESCA | Esophageal | WXS | 3 | 0 | 3 |
    | READ | Rectum | WXS | 3 | 0 | 3 |
    | STAD | Stomach | WXS | 292 | 228 | 64 |
    | UCEC | Uterine/endometrial | WXS | 268 | 196 | 72 |
    | COAD | Colon | RNA | 280 | 230 | 50 |
    | ESCA | Esophageal | RNA | 3 | 0 | 3 |
    | READ | Rectum | RNA | 3 | 0 | 3 |
    | STAD | Stomach | RNA | 272 | 213 | 59 |
    | UCEC | Uterine/Endometrial | RNA | 268 | 196 | 72 |

  • 非TCGA数据都是从SRA数据库数据库中提取出来的,然后参考TCGA的处理流程(BWA比对到GRCh38.p14)进行的相关处理。

    | Project ID | Cancer | Sequencing | Number of Samples | Number of MSS | Number of MSI-H |
    | ———– | ———– | —————- | —————– | ————- | ————— |
    | PRJNA629785 | Colorectal | End-seq | 34 | 7 | 27 |
    | PRJNA810563 | Pan | 6 Marker Panel | 178 | 166 | 12 |
    | SRP008162 | Prostate | T/O WXS | 21 | 16 | 5 |
    | PRJNA727917 | Colorectal | P/N WXS | 21 | 0 | 21 |
    | PRJNA256024 | Prostate | 53 Marker Panel | 43 | 30 | 13 |
    | PRJNA701182 | Pan | 161 Marker Panel | 191 | 185 | 6 |
    | PRJNA841034 | Gastric | TSO500 | 36 | 34 | 2 |
    | PRJEB57620 | Male Breast | TSO500 | 14 | 14 | 0 |
    | PRJNA843231 | Pan | TSO500 | 14 | 11 | 3 |
    | PRJNA748264 | Colon | RNA | 143 | 122 | 21 |

测评的软件

文章总共评估了8款软件,分别是:MSIsensor , MSIsensor2 , MSIsensor-pro , mSINGS, MANTIS , MSINGB , PreMSIm , and MSIsensor-RNA。 当然所有的相关处理基本(除了 MANTIS 调整了质量阈值,否则找不到可用位点无法分析)都是按着研发作者的推荐设置进行的配置。

Tool Original evaluation data Algorithm used for MSI detection Output (MSI score) Recommended threshold Requires paired normal
MSIsensor 242 endometrial TCGA WXS samples χ2 test between tumor and normal read counts Percent of unstable microsatellites 3.5 Yes
MSIsensor-pro 1532 pan-cancer TCGA WXS samples Multinomial distribution model distinguishes MSI sites by comparing probability of polymerase slippage Percent of unstable microsatellites None No
MSIsensor2 117 EGA samples and 10 TSO500 samples (TCGA also used but not numerically described) Machine learning based (specifics not given) Percent of unstable microsatellites 20 No
mSINGS 26 TCGA pan-cancer WXS and 298 pan-cancer gene panel samples Read count differences between tumor sample and baseline normal Fraction of unstable microsatellites 0.2 No
MANTIS 387 pan-cancer TCGA WXS samples Absolute stepwise difference between tumor and normal read counts Average aggregate instability 0.4 Yes
MSINGB 1432 pan-cancer TCGA WXS samples and 1055 pan-cancer non-TCGA WXS samples NGBoost machine learning model based on somatic mutations MSI status and probability of the classification N/A (No score output) No
PreMSIm 1383 pan-cancer TCGA RNA samples and 2006 gastric/colorectal microarray samples K-nearest neighbors machine learning model based on gene expression MSI status and probability of the classification N/A (No score output) No
MSIsensor-RNA 1428 pan-cancer TCGA RNA samples, 247 non-TCGA RNA samples, 1468 gastric/colorectal microarray samples, and 133 SC-RNA colorectal samples Support vector machine learning classifier based on gene expression MSI status and probability of the classification N/A (No score output, but there are recommendations for feature selection thresholds) No

测评结果

MSI 工具在 WXS 样本上的表现优于 WGS 样本

大多数 MSI 工具在 WXS 数据上的表现优于在 WGS 数据上的表现。两个例外是 mSINGSMSINGB,它们在额外的配对正常和仅肿瘤 WXS 数据集上的性能指标较低。所有 MSI 工具都对 TCGA WXS 数据表现出良好的性能,但 mSINGS 除外,它的召回率和 F1 分数较低。在所有 MSI 工具中,只有 MSIsensor2WGS 数据的所有性能指标上都具有较高的值


所有 MSI 工具及其在创建混淆矩阵的所有数据集上的性能的热图(具体数据不影响我们整体理解软件性能,有需要可以在文章原文中查看)。黑色图块是 NA 值,黑白条纹图块是无法计算指标的实例。

  • P/N WXS 是额外的配对正常全外显子组测序数据集,
  • T/O WXS 是额外的仅肿瘤全外显子组测序数据集。
  • 6 Marker是 6 个单核苷酸芯片。
  • TCGA WGS 是由来自TCGA的全外显子组
  • WXS 是由来自TCGA的 WGS 数据。
  • all 是每个工具的合并结果。

MSIsensorMSIsensor-proMSIsensor2MANTIS 的 ROC 和 PR 曲线均具有较高的曲线下面积 (AUC)。除 MSIsensor2MANTIS 之外,所有工具的 WGS 数据的 ROC 和 PR AUC 值也显着低于 WXS 数据(A、B、C、D )。在 ROC 空间与 PR 空间中测量时,AUC 也出现大幅下降,这意味着工具可能会遗漏更多真实的阳性结果(2C、D )。 ROC 和 PR AUC 最显着的差异体现在 WXS 数据上的 mSINGS 以及 WGS 数据上的 MSIsensorMSIsensor-pro


所有 TCGA 样本的 ROC 和 PR 曲线。 TCGA WXS(A、B)和 WGS(C、D)样本的所有 ROC 曲线和 PR 曲线。

MSI 工具的性能指标因测序类型而异,并且在多种测序类型上缺乏一致性

-------------本文结束感谢您的阅读-------------