Characterization and mitigation of fragmentation enzyme-induced dual stranded artifacts

DNA片段化是基于杂交捕获的短读长测序文库制备过程中的基本步骤。文库制备包括DNA片段化过程中引入的错误,会显著影响下游的分析,并直接导致假阳性和假阴性的增加。
目前主流的DNA片段化方法有两种: 基于超声波进行的物理打断,(超声打断本身比较昂贵(仪器上万)和耗时(每个样本几分钟),但是会带来一些样本损失; 另外一种就是依赖于DNA核算内切酶进行片段化的酶切打断,可以便捷的一次应用于许多样品,由于其易用性、可扩展性和低进入门槛,酶促片段化在高通量测序操作中越来越受欢迎。尽管这两种方法已经

集中研究中提供的建库打断方法

KAPA HyperPlus kit 酶切打断
SureSelect QXT(安捷伦科技公司) 酶切打断
Fragmentase(新英格兰生物实验室)酶切打断
Nextera Tagmentation(Illumina) 酶切打断

KAPA HyperPrep kit 超声打断.
SureSelect kit 机械打断

研究一

有研究[1]表明KAPA Biosystems 在其 HyperPlus 文库制备试剂盒中有专门的片段化酶,能提供比超声处理更简单的碎片化解决方案,但是在进行大型队列的变异分析时,发现了大量意想不到的单核苷酸、插入和缺失变异。经过仔细的检查,发现了这些假阳性信号是酶促裂解过程的副产品。同时也评估了IDT和NEB的其它基于酶切的试剂盒,发现都存在类似的问题。通过深入观察发现这写artifact还有一下特点:

  • 这些检出具有比较低的等位基因频率
  • 这些支持artifact信号的reads都存在soft-clipped,同时这部分soft-clipped的序列如果进行反向互补,通常可以在附近的参考序列中找到;
  • 这些soft-clipped区域具有高碱基质量值,表明他们是真实的分子衍生物,而不是测序错误产生的。
  • 这些soft-clipped的序列高度保守,但是和接头引物序列并不一致。并且偶尔会被比对到互补链。并且经过调查,这部分经过反向互补,经常可以在附近的参考基因组中发现。

image

使用酶切打断和超声打断制备的样品进行FADE分析,发现两种方法artifact的reads数目有明显差异。酶切中artifact的比例(所有reads中被定义为包含artifact的reads比例)是2%,而超声处理的样本比例是0.01%。

image

同时经过调查,发现超声处理的这0.01%的artifact像是来自基因组重复区域或者是打分超过阈值的一些比对错误。
但是也有报道表明使用超声打断也容易发生DNA的氧化损伤,产生假阳信号(Discovery and characterization of artifactual mutations in deep coverage targeted capture sequencing data due to oxidative DNA damage during sample preparation)。同时文中提供了FADE软件,可以进行相关的过滤。
PS 经过内部实测,实际效果优先,因为我们遇到的类似情况变异的序列都比较短,不能有效进行过滤

研究二

使用超声和酶片段化方法制备的相同肿瘤DNA样品的体细胞变异的成对比较。分析发现,与通过超声处理的文库相比,核酸内切酶处理的文库中复发的artifact信号导致的SNV和插入缺失数量要多得多。这些具有如下一些特征:基因组环境中的回文结构、reads上的位置偏好性和多核苷酸取代为标志。
尽管这些试剂盒最大限度地减少了DNA损失,但酶片段化过程引起的测序错误程度仍然很大。
在使用HyperPlus试剂盒构建的DNA片段化文库中发现了许多人工SNV / indels。这些测序错误有如下特征:在于位于回文结构中心和读段5’或3’末端附近的变异,具有多核苷酸取代被认为是由核酸内切酶处理步骤和随后的末端修复填充过程引入的,而不是测序过程本身的结果。
同时研究中同时使用SureSelect(机械打断)和HyperPlus(酶切打断)处理的6个相同DNA文库。
image

最终结果发现,虽然源自相同的DNA样本,但是HyperPlust文库的SNV/InDel是SureSelect构建文库的2.3~9.9倍。SureSelect处理的大多数SNV/插入缺失都嵌套在HyperPlus库中
image

  • 从数据看,HyperPlust检出的突变在多个样本中重复出现(a),而SureSelect特异检出的变异则没有这样的现象(b)
  • 如C 图左侧面板所示。在[a](红色)中检测到的体细胞SNV/插入缺失的位置。右面板。在 [b](蓝色)中检测到的体细胞 SNV/插入缺失的位置。映射到与检测到的SNV/插入缺失相同的基因组坐标的野生型核苷酸读数的数量以灰色表示
  • D图展示的是softclip的reads比例。HyperPlus特异检出的变异含有更高的soft-clipped比例。

对数据的仔细检查发现,许多这些体细胞SNV恰好位于回文序列的中心,此处指定为“SNV-centered palindromes”(SCP)。HyperPlus文库也更频繁地生成更长的SCP,而在SureSelect文库中没有检测到长度超过15个碱基的SCP(图2B)。
同时发现a 和b 还有三个区别:

  • 类别a中的大多数SNV和InDel被检出过不止一次。
  • 类别[a]中的SNV/插入缺失通常位于距离读数的5’或3’边缘10至15个碱基
  • 来自类别a的变异具有更多的soft-clipped(平均为50.8%和5.0%)

提供的建议方案,

  1. 排除了被反复检测到的SNV/InDel, 除非在Cosmic中注册;
  2. 使用KS检验对比变异和野生型数据的位置偏好性; 同时计算每个变异所有reads中,soft-clipped的reads比例。然后使用逻辑回归进行噪声或信号的分类。效果如下图:
    image
    类别 [a] SNV/插入缺失(主要是测序伪影)的特征是较低的 KS p 值和/或较高的软削波读取比率,但 [b] 类中的 SNV/插入缺失(主要是真正的 SNV/插入缺失)具有较高的 KS p 值和较低的软削波读取比率。然后估计阈值,以使用具有 logit 链接函数的广义线性模型来区分两个类别之间的 SNV/插入缺失。通过对六样本训练数据的受试者工作特征(ROC)曲线分析,建立了最终模型,并证明能够区分两个类别之间的SNV/插入缺失,特异性为0.914,灵敏度为0.979。
    同时评估测试发现HyperPlus、Hyper和SureSelect数据集的剩余SNV/插入缺失的中位数(范围)比例分别为10.8%(0.01%–46.9%)、85.2%(47.6%–98.8%)和94.3%(86.5%–98.6%),酶切建库的假阳性过滤明显,但是机械打断的过滤影响明显小很多。
    同时还针对HH 组合(正常–HyperPlus 与肿瘤–HyperPlus)和 SS 组合(正常–SureSelect 与肿瘤–SureSelect)进行了测试,发现即使配对的正常和肿瘤样本中使用相同的片段化方法后,也很难完全消除HyperPlus治疗产生的测序噪声,有必要使用信息学来过滤噪声。

参考文献

[1] Characterization and mitigation of fragmentation enzyme-induced dual stranded artifacts
[2] Sequencing artifacts derived from a library preparation method using enzymatic fragmentation
[3] Optimization of enzymatic fragmentation is crucial to maximize genome coverage: a comparison of library preparation methods for Illumina sequencing

-------------本文结束感谢您的阅读-------------