Recommendations for the Use of in Silico Approaches for Next-Generation Sequencing Bioinformatic Pipeline Validation

背景

随着NGS在分子诊断中变异(体系和胚系)检测的应用普及。临床NGS检测产品的检测范围越来越大,带来的一个优势是可以识别更多基因中的变异;但是同时也使性能验证面临巨大的挑战。临床方法学验证过程中很难获得真实样本,能同时具有大量关注且能够被检测到频率也合适的变异。所以大多数实验室都是通过对具有已知变异的标准品或细胞系进行测序分析,并依靠测序指标(即具有足够覆盖率的目标部分)来推断其他区域的性能。

在这个大背景下,很多实验室会开始考虑使用模拟数据进行性能评估,使用数据模拟的方法在临床实验室中具有非常高的实用性,可作为临床检测验证的辅助工具。数据模拟可以采用多种形式,包括纯模拟数据或将变异插入现有测序数据中。通过模拟数据可以便捷的构建出真是样本中难以获取的变异数据。这些数据使实验室能够更准确地测试生物信息学流程的性能,而无需对其他病例进行测序。例如,可以模拟低频变异,以测试流程的分析灵敏度,或模拟一系列不同长度的插入/缺失以确定软件的性能边界。目前也有一些已经被广泛应用的方案,例如样本层面通过合成基因组混入目标变异,或生成目标变异的计算机模拟数据混入测序数据(Fastq/Bam)文件中。从而进行更全面的方法学验证和生信流程验证

在本文中,主要介绍不同类型的数据模拟类型及其优势和局限性、模拟实现方法,以及如何在临床分子诊断实验室中更好的使用模拟数据。

数据模拟类型

模拟数据可以广义地定义为人工操作或生成的任何数据。大体上可以主要划分为下述几个大类。
image

A. 纯模拟数据(Purely Simulated Data )

通过模拟参考序列的测序reads(纯模拟数据)从头生成Fastq数据。这类数据通常是用于生信流程的原始数据,可以较便捷的大量生成几乎任何类型的变异。这些数据对于样本稀缺且方法不成熟的复杂变异类型特别有用。但模拟reads生成过程通常不能完整的模拟测序技术的噪音或偏差,尤其是在变异难以检测的重复区域(例如,在均聚物处)。也很难对临床测试中最常用的靶向测序方法的偏差和覆盖分布进行模拟,同样也很难对福尔马林固定、石蜡包埋过程引入的噪音进行模拟。

B. 混合样本(Mixing Sample Data)

来自物理样本的两个数据文件以不同的比例混合,模拟具有不同频率的变异,和真实数据相比,可以更好的帮助评估生信流程在不同变异频率的性能表现。该策略可以混合来自两个充分表征的正常样本的 BAM 或 FASTQ 文件,通过不同的组成可以混合出不同频率范围的变异,能够测试大量不同变异的检测限。这个方法不能模拟肿瘤中出现的许多体细胞变异的复杂性(例如,拷贝数变异和大的结构变异)。正常基因组通常不存在临床感兴趣的变异,因此实验室也可以将包含感兴趣变异的肿瘤基因组与相应的正常样本混合,以测试它们在不同等位基因部分检测这些变异的能力。正常细胞大部分是已知的胚系变异,而且两个样本可能会有一些变异位点的重叠也会对下游变异检出带来一些困扰。正常细胞系通常会在一部分细胞中出现变异,如果这些变异在参考样本中没有得到很好的表征,则这些变异可能看起来是假阳性体细胞变异。

C. Fastq抽样(Downsampling FASTQ Files )

对来自单个物理样本的数据进行采样,以模拟较低覆盖深度对变体检出的影响(下采样 FASTQ 文件)。为了测试流程在不同覆盖率水平下检测变异的能力,可以对高覆盖率的 FASTQ 文件进行下采样(即,可以从更高覆盖率的数据集中随机选择一小部分读取)。一般来说,重要的是从整个 FASTQ 文件中随机抽取所需的reads数据,而不仅仅是读取的前 X 百分比。对于双端测序,进行PE同步采样 [例如,使用像 seqtk 这样的工具(https://github.com/lh3/seqtk)]。该策略可以识别流程在较低覆盖水平检测变异的能力局限性,尽管它需要使用上述策略之一确保数据中存在感兴趣的变异信息。

D. 修改实验数据(Manipulated Assay Data )

将单核苷酸变异 (SNV)、插入/缺失 (indel) 甚至结构变异等变异插入到实验室数据文件(BAM 或 FASTQ)中,以评估生信流程正确识别和注释变异的能力。这种方法的优点是可以很好地处理目标或全基因组测序数据,并保留真实数据的许多错误概况和偏差。它还可以在不同等位基因分数的不同基因组背景下验证比实际样本允许的数量多得多的不同类型的变体。将这些 BAM 文件转换回 FASTQ 通常很重要,以便从初始对齐步骤开始测试流程。这种方法有一些重要的局限性:i) 因为它依赖于在修改reads之前正确比对的reads,它不会模拟在难以比对区域中可能发生的所有比对错误,例如带有假基因的基因; ii) 它不能模拟变异出现在异常区域的偏差(例如,导致更高测序错误率的均聚物或串联重复序列的扩展,或引入可能导致系统测序错误的 GGT 序列基序); iii) 对较大变异进行模拟具有挑战性(例如,对由大删除或大插入中的排序错误引起的覆盖率下降和断点进行建模); iv)目前的工具不能便捷的操作一些特殊测序技术产生的原始数据格式,例如 Ion Torrent(Thermo Fisher Scientific,Waltham,MA)流数据,来自 PacBio HiFi(Pacific Biosciences,Menlo Park,CA)的原始读数,以及来自纳米孔测序的 fast5 文件( Oxford Nanopore Technologies, Oxford, UK),

E. 重分析(Data Reanalysis)

对仅对生物信息学流程进行更改而不对上游的湿实验流程进行更改时,可以通过使用新流程对来自各种样本(包括参考材料和临床样本)的现有未修改数据进行分析来帮助验证优化的效果。这种方法具有使用现有真实数据的优势,这些数据具有所用方法的所有偏差和错误。实验室可以测试重现以前版本的流程检测到所有变异的能力,但不会测试以前未检测到的变异的检测性能。

Modifying Reference Genome

针对单倍体基因组,还可以通过编辑参考基因组,当参考基因组发生变化时,被测序的个体应该在该位置有一个变异(假设个体与原始参考相匹配)。这种方法最适用于单倍体样本或单倍体染色体,如假常染色体区域外男性的 X 染色体和 Y 染色体。一个例外是,如果二倍体个体在某个位置具有杂合变异,并且更改参考以匹配该变异,则该变异将被逆转(例如,C>T SNV 将变为 T>C SNV , 或 2-bp 删除将更改为 2-bp 插入)。

可以用于进行数据模拟的软件清单

模拟数据的应用

流程的不同开发阶段/不同程度的变更测试,对模拟数据的需求本身也会存在一些差异。这里主要需要明确,如果涉及下机数据获取前(建库、测序等)的变更,则一定需要使用真实数据进行补充验证。每种用途原文由相对详实的介绍,但因为整体不复杂也比较符合大家的主观认识,所以这里只列出每种用途的建议模拟方法。
|用途|模拟数据方法|
|-|-|
|基准生物信息学工具|纯模拟数据;修改实验数据(如适用)|
|(a)新变异(b)检测限(c)最少的测序读数|(a) 修改实验数据 (b) 混合多个样本;(c)Fastq抽样|
|(a)实验室协议变更(b)变更不影响管道中工具的限制(c)变更影响管道中工具的限制|(a) 生物样本。计算机数据可以根据变化进行补充。(b) 现有的分析数据。计算机数据可以根据变化进行补充。|
|Proficiency testing 能力验证|修改实验数据|
|Variant annotations 变体注释|修改实验数据, VCF 文件操作|

模拟数据的未来发展

Copy Number Variants

拷贝数变异是临床上重要的一类遗传改变,在癌症和体质性疾病的管理中具有诊断、治疗和预后意义。拷贝数变异通常比小变异更难检测,特别是当拷贝数改变 (CNA) 存在于亚克隆(肿瘤)或嵌合体(种系)时等级。因此,对旨在识别 CNA 的临床 NGS 检测进行全面验证非常重要。但是对应的CNA样本却相对少见,很难采购样本进行全面验证。所以也表现出对CNA数据模拟的需求。

  • Bamgineer 是最近发布的一种算法,可以将任何所需级别的用户定义的等位基因特异性 CNA 引入到 BAM 文件中。当从 BAM 文件中采样读取时,该算法会考虑配对末端测序数据中的reads对。这种方法试图保留 BAM 文件中的原始偏差,并更好地模拟真实样本中的 CNA。该算法可应用于许多用例,例如在无细胞 DNA 样本和亚克隆 CNA 检测中以低等位基因负荷模拟 CNA。
  • VarBen 是一种新的综合性计算机变异模拟算法,可在 BAM 文件中引入各种遗传改变,包括 SNV、插入、删除、大型结构变异,包括拷贝数改变、重复以及平衡和不平衡易位。

Translocation (Gene Fusion) Assessment

在临床 NGS 分析中,易位通常通过靶向 DNA/RNA 测序、RNA 测序或全基因组测序进行检测。在 DNA 水平上,大多数易位发生在内含子中,内含子可能包含难以分析的重复或低复杂性区域。类似地,易位必须导致足够数量的基因融合转录本才能被 RNA 测序检测到。这些问题使得易位检测性能的广泛验证对于 NGS 分析至关重要。然而,对于许多易位,例如 ROS1、RET 或 NTRK 中的易位,可能很难找到足够数量的易位病例来全面测试检测验证过程中的易位检测。因此通过数据模拟进行全面的验证是很有必要的。

RNA Sequencing

RNA 测序在临床实验室中变得越来越普遍,用于检测易位/融合事件、测量基因水平表达、解决不确定意义的变异以及测量等位基因特异性表达。 RNA 本身非常不稳定,因此难以为质量控制目的对物理样本进行重复测试。存在多种 RNA 测序模拟工具: Polyesterrlsim ,RNASeqReadSimulatorsimCT

TMB and MSI Testing

TMB 和 MSI 均已被证明是癌症治疗反应的重要标志物,这两个指标的报告现已包含在肿瘤芯片检测中。 TMB 和 MSI 分别表示根据观察到的每兆 DNA 碱基的体细胞变异数和基因组特定区域中二核苷酸重复序列的扩展计算的测量值。两种类型的潜在事件(体细胞变异或微卫星扩展)都可以通过当前的计算机基因组建模工具进行模拟,但工作组不知道专门设计用于模拟 TMB 或 MSI 的软件。

Minimal Residual Disease Testing 最小残留病害检测

UMI/UID等技术的开发已经可以帮助克服NGS测序错误率瓶颈,从而可以检测频率远低于1%的变异。但是迄今为止,还没有开发出通过将独特的分子指标与掺入变体相结合来模拟计算机中最小残留疾病测试的软件。随着这种测试形式的激增,此类技术将对临床社区产生巨大的价值。

Long-Read Sequencing Methods

直到最近,Pacific Biosciences 和 Oxford Nanopore Technologies 的长读长测序方法对于大多数临床应用来说都是昂贵的和/或具有不可接受的高错误率。然而,长读可以准确识别短读具有挑战性的变异,例如具有同源基因或假基因和结构变异的基因。随着长读对临床应用的成本效益和准确性越来越高,还需要开发在长读文件中模拟和编辑变体的技术。

临床实验室中使用模拟数据的建议

  • Recommendation 1: The Laboratory May Use in Silico Data Files to Supplement NGS Analytical Validation, Particularly to Assess Analytical Sensitivity or False-Negative Rates for Specific Variants; However, in Silico Data Files Cannot Supplant the Use of Physical Samples (eg, Patient Samples)
    计算机数据可以用用来作为补充,但是不能替代物理样本,同时模拟数据只能用来评估灵敏性,无法对特异性进行评估

  • Recommendation 2: The Laboratory Should Understand the Functional Limitations of the Type(s) of in Silico Data Being Utilized
    在使用模拟数据时,用该充分了解所使用模拟数据的局限性。前文讨论了每种类型的模拟数据局限性。了解在 NGS 生物信息学管道验证中使用的计算机数据类型的功能限制以及对建立和/或监测分析性能特征的潜在下游影响以避免严重缺陷至关重要。例如,与从头模拟的计算机数据相比,通过修改现有数据文件生成的模拟数据可能更好地反映系统测序错误、脱靶reads、配对末端距离和临床测序面板靶向基因的覆盖变异性.一般来说,应该使用自己实验室按照标准工作流程生成的多个数据集。

  • Recommendation 3: The Laboratory Should Understand the Limitations of Most in Silico Data for Assessing Performance in Particular Genome Contexts and Variant Types Susceptible to Systematic Sequencing Errors (eg, Homopolymers and Tandem Repeats) and Mapping Errors (eg, Genes with Pseudogenes)
    重要的是要了解大多数计算机数据的局限性,以评估特定基因组背景和变异类型的性能。特别是,即使修改真实数据文件也不会模仿一些系统错误,例如均聚物和串联重复。因为修改真实数据取决于读取的正确映射,它通常也无法评估难以映射区域或片段重复的错误,例如具有假基因或高度同源基因的基因,如 PRSS1、PMS2 和 SMN1/SMN2,或有错误的基因在 GRCh38 中,如 CBS、U2AF1 和 KCNE1。

  • Recommendation 4: The Laboratory May Use in Silico Samples for Testing Required for Minor Updates to Clinical Bioinformatics Software Pipelines
    用于测试软件/工具/数据库更新或版本更改的模拟数据应使用实验室的现有数据。模拟数据可以用于进行生信软件和流程的升级。

  • Recommendation 5: Commercial Vendors and Internal Pipeline Developers Should Include Options in Their Analysis Pipelines to Facilitate Easier in Silico Data File Import and Analysis by Clinical Laboratories
    和其他生物信息学软件一样,数据模拟软件包在所需输入和预期输出、许可条款、操作系统兼容性和软件依赖性、错误修复和维护的规律性以及安装和使用的简易性方面各不相同。除了功能和可用性之外,在临床测序工作流程中采用之前,还应考虑特定软件的质量和社区接受度,尽管不可否认,这些可能难以严格评估。

-------------本文结束感谢您的阅读-------------