微卫星不稳定性 (MSI) 是多种癌症类型中常见的一种现象,其特征是在整个基因组中发现的微卫星区域中插入和缺失(indels)的积累,具有高微卫星不稳定性 (MSI-H) 的癌症可能是免疫检查点抑制剂治疗的良好候选者。所以MSI自1993年首次在结直肠癌中被提出后,不断发展。目前作为帮助指导免疫检查点抑制剂治疗的生物标志物,已经进入数十种癌症的指南/共识之中。详细信息可以参考我们之前的合集文章 。
虽然尚未在实验室环境中确切证明 MSI 是如何产生的,但主要的假设是 DNA 错配修复途径的缺陷可能导致微卫星位点插入/缺失数量的增加。这种插入缺失率的显着增加是 MSI 的主要特征及其主要识别方式。
目前已经有很多基于不同原理的检测方法包括IHC、PCR、NGS。之前的文章也有介绍,在这里我们也不进行赘述,今天介绍的是最近刚发表在发表在《Briefings in Bioinformatics》期刊上的一篇对现有公开的基于NGS数据进行MSI检测软件进行的评估文章。
因为MSI-L不是在所有软件都支持,所以所有测评都是进行的二分类:MSI-H 和 MSS(MSI-L视为MSS)。
测试数据集
数据分为两个部分:TCGA数据 和 其他测试数据。
TCGA的测试数据都是从GDC下载的,数据格式都是Bam文件格式,数据类型包括 WXS(852)、WGS(321)、RNA(825) 的测序数据。具体清单如下:
| Project ID | Cancer | Sequencing | Number of Samples | Number of MSS | Number of MSI-H |
| ———- | ——————- | ———- | —————– | ————- | ————— |
| COAD | Colon | WGS | 56 | 46 | 10 |
| ESCA | Esophageal | WGS | 2 | 0 | 2 |
| STAD | Stomach | WGS | 136 | 107 | 29 |
| UCEC | Uterine/endometrial | WGS | 145 | 102 | 43 |
| COAD | Colon | WXS | 284 | 232 | 52 |
| ESCA | Esophageal | WXS | 3 | 0 | 3 |
| READ | Rectum | WXS | 3 | 0 | 3 |
| STAD | Stomach | WXS | 292 | 228 | 64 |
| UCEC | Uterine/endometrial | WXS | 268 | 196 | 72 |
| COAD | Colon | RNA | 280 | 230 | 50 |
| ESCA | Esophageal | RNA | 3 | 0 | 3 |
| READ | Rectum | RNA | 3 | 0 | 3 |
| STAD | Stomach | RNA | 272 | 213 | 59 |
| UCEC | Uterine/Endometrial | RNA | 268 | 196 | 72 |
非TCGA数据都是从SRA数据库数据库中提取出来的,然后参考TCGA的处理流程(BWA比对到GRCh38.p14)进行的相关处理。
| Project ID | Cancer | Sequencing | Number of Samples | Number of MSS | Number of MSI-H |
| ———– | ———– | —————- | —————– | ————- | ————— |
| PRJNA629785 | Colorectal | End-seq | 34 | 7 | 27 |
| PRJNA810563 | Pan | 6 Marker Panel | 178 | 166 | 12 |
| SRP008162 | Prostate | T/O WXS | 21 | 16 | 5 |
| PRJNA727917 | Colorectal | P/N WXS | 21 | 0 | 21 |
| PRJNA256024 | Prostate | 53 Marker Panel | 43 | 30 | 13 |
| PRJNA701182 | Pan | 161 Marker Panel | 191 | 185 | 6 |
| PRJNA841034 | Gastric | TSO500 | 36 | 34 | 2 |
| PRJEB57620 | Male Breast | TSO500 | 14 | 14 | 0 |
| PRJNA843231 | Pan | TSO500 | 14 | 11 | 3 |
| PRJNA748264 | Colon | RNA | 143 | 122 | 21 |
测评的软件
文章总共评估了8款软件,分别是:MSIsensor , MSIsensor2 , MSIsensor-pro , mSINGS, MANTIS , MSINGB , PreMSIm , and MSIsensor-RNA。 当然所有的相关处理基本(除了 MANTIS 调整了质量阈值,否则找不到可用位点无法分析)都是按着研发作者的推荐设置进行的配置。
Tool | Original evaluation data | Algorithm used for MSI detection | Output (MSI score) | Recommended threshold | Requires paired normal |
---|---|---|---|---|---|
MSIsensor | 242 endometrial TCGA WXS samples | χ2 test between tumor and normal read counts | Percent of unstable microsatellites | 3.5 | Yes |
MSIsensor-pro | 1532 pan-cancer TCGA WXS samples | Multinomial distribution model distinguishes MSI sites by comparing probability of polymerase slippage | Percent of unstable microsatellites | None | No |
MSIsensor2 | 117 EGA samples and 10 TSO500 samples (TCGA also used but not numerically described) | Machine learning based (specifics not given) | Percent of unstable microsatellites | 20 | No |
mSINGS | 26 TCGA pan-cancer WXS and 298 pan-cancer gene panel samples | Read count differences between tumor sample and baseline normal | Fraction of unstable microsatellites | 0.2 | No |
MANTIS | 387 pan-cancer TCGA WXS samples | Absolute stepwise difference between tumor and normal read counts | Average aggregate instability | 0.4 | Yes |
MSINGB | 1432 pan-cancer TCGA WXS samples and 1055 pan-cancer non-TCGA WXS samples | NGBoost machine learning model based on somatic mutations | MSI status and probability of the classification | N/A (No score output) | No |
PreMSIm | 1383 pan-cancer TCGA RNA samples and 2006 gastric/colorectal microarray samples | K-nearest neighbors machine learning model based on gene expression | MSI status and probability of the classification | N/A (No score output) | No |
MSIsensor-RNA | 1428 pan-cancer TCGA RNA samples, 247 non-TCGA RNA samples, 1468 gastric/colorectal microarray samples, and 133 SC-RNA colorectal samples | Support vector machine learning classifier based on gene expression | MSI status and probability of the classification | N/A (No score output, but there are recommendations for feature selection thresholds) | No |
测评结果
MSI 工具在 WXS 样本上的表现优于 WGS 样本
大多数 MSI 工具在 WXS 数据上的表现优于在 WGS 数据上的表现。两个例外是 mSINGS 和 MSINGB,它们在额外的配对正常和仅肿瘤 WXS 数据集上的性能指标较低。所有 MSI 工具都对 TCGA WXS 数据表现出良好的性能,但 mSINGS 除外,它的召回率和 F1 分数较低。在所有 MSI 工具中,只有 MSIsensor2 在 WGS 数据的所有性能指标上都具有较高的值
所有 MSI 工具及其在创建混淆矩阵的所有数据集上的性能的热图(具体数据不影响我们整体理解软件性能,有需要可以在文章原文中查看)。黑色图块是 NA 值,黑白条纹图块是无法计算指标的实例。
- P/N WXS 是额外的配对正常全外显子组测序数据集,
- T/O WXS 是额外的仅肿瘤全外显子组测序数据集。
- 6 Marker是 6 个单核苷酸芯片。
- TCGA WGS 是由来自TCGA的全外显子组
- WXS 是由来自TCGA的 WGS 数据。
- all 是每个工具的合并结果。
MSIsensor、MSIsensor-pro、MSIsensor2 和 MANTIS 的 ROC 和 PR 曲线均具有较高的曲线下面积 (AUC)。除 MSIsensor2 和 MANTIS 之外,所有工具的 WGS 数据的 ROC 和 PR AUC 值也显着低于 WXS 数据(A、B、C、D )。在 ROC 空间与 PR 空间中测量时,AUC 也出现大幅下降,这意味着工具可能会遗漏更多真实的阳性结果(2C、D )。 ROC 和 PR AUC 最显着的差异体现在 WXS 数据上的 mSINGS 以及 WGS 数据上的 MSIsensor 和 MSIsensor-pro
所有 TCGA 样本的 ROC 和 PR 曲线。 TCGA WXS(A、B)和 WGS(C、D)样本的所有 ROC 曲线和 PR 曲线。