CNV检测-调研

germline CNV software


###CNV主要方法

###1. Read-depth 2. Read-pair 3. Split-read 4. Assembly

软件汇总

  • 👍🏻CODEX2(2018年更新版本提高灵敏度,CODEX:2016年)
    • 使用语言:R
    • 数据类型:WES/WGS,靶向扩增子测序
    • 算法特点:应用基于对数线性分解的归一化,基于泊松似然的递归分割算法
    • 特点:专为种系和体细胞 CNV 调用而设计
    • 限制:0.2 < GC < 0.8,Target length > 20 bp,median target coverage > 20 × ,mappability > 0.9
    • 参考文献4,认为CODEX上一代虽然识别出较多common CNV但是灵敏度低。
  • 👍🏻DECoN(两篇文献支持假阴性最低)
    • 使用语言:R
    • 数据类型:靶向扩增子测序
    • 算法特点:beta-二项式分布,加入参考集优化的过程
    • 特点:适用于exon-base的panel测序,可以识别single exon CNV。基于ExomeDepth的基础上修改的。新增了染色体上第一个外显子区域的变异检测,HMM模型中增加了exon之间距离的因素。允许自动选择控制样本。
    • 输入文件:bam、bed、ref
    • 缺点:定义R包版本依赖,需要严格版本控制。需要确保其他分析不会更改其版本。
  • 👍🏻CNVkit(现有CNV software)
    • 使用语言:Python
    • 数据类型:WES/WGS,靶向扩增子
    • 算法特点:不仅考虑目标区域的归一化 Read Counts,还考虑非目标区域的归一化 Read Count。
    • 特点:专为种系和体细胞 CNV 调用而设计。可以通过修改method参数使其应用于WGS和靶向扩增子测序数据。获得每个bin的log2copy ratio。标准化过程补充偏好性矫正,包括GC含量,repeat-masked比例。
    • 限制:排除poor mappable regions
  • 👍🏻GATK gCNV(优化了XHMM)
    • 使用语言:Java、Python
    • 数据类型:WES/WGS,靶向扩增子测序
    • 算法特点:负二项式分布,针对RC归一化和HMM call CNV自洽性做了优化。
    • 特点:主要分成两个部分:模型创建和sample calling。
  • 👎🏻ExomeDepth(不考虑理由是DECoN基于此进行了优化)
    • 使用语言:R
    • 数据类型:WES
    • 算法特点:beta-二项式分布,加入参考集优化的过程
    • 软件特点:专为种系和体细胞 CNV 调用而设计
    • 限制:ead mapq > 20, max distance between target border and the middle of paired read to include read into region 300 bp, Transition probability to CNV 0.0001, Expected CNV length 50 kb
  • 👎🏻XHMM(GATK gCNV优化过,不考虑)
    • 数据类型:WES
    • 算法特点:主成分分析来降低噪声,在 Z-RPKM 上使用隐马尔可夫模型
    • 限制:至少50样本, 0.1 < GC < 0.9, 10 bp < target < 10 kbp, mean coverage > 10 × across all samples, average targets 6, distance between targets 70 kb, average rate of CNV occurrence in the exome 10–8
    • 参考文献4,认为其对gCNV敏感性低。
  • 👎🏻CONTRA
    • 使用语言:Python、R
    • 数据类型:WES
    • 特点:专注于外显子级的CNV识别
    • 限制:Include regions at least 10-bp long with coverage > 10
  • 👎🏻PatternCNV
    • 特点:专注于外显子级的CNV识别,专为种系和体细胞 CNV 调用而设计
    • Bin size 10,mapq > 20
  • 👎🏻EXCAVATOR2
    • 算法特点:不仅考虑目标区域的归一化 RC,还考虑非目标区域的归一化 RC。
    • 软件特点:专为种系和体细胞 CNV 调用而设计
    • 限制:Read mapq > 1,Min number of targets in CNV:4
    • 参考文献4,认为其对gCNV敏感性低。
  • 👎🏻exomeCopy
    • 使用语言:R
    • 数据类型:WES
    • 算法特点:负二项式分布
    • precision:4%(参考文献1)
    • recall:27%(参考文献1)
    • 限制:mapq > 1, overlap to include read into region—1 bp, median value for background, transition probability to CNV 1e-4 Transition probability to normal state 0.05
  • 👎🏻CANOES
    • 使用语言:R
    • 算法特点:负二项式分布
    • precision:3.9%(参考文献1)
    • recall:0.2%(参考文献1)
    • 限制:至少15个样本, average targets:6, distance between targets :70 kb, average rate of CNV occurrence in the exome:10–8
  • 👎🏻cn.MOPS
    • 数据类型:WES/WGS
    • 算法特点:混合使用泊松模型和贝叶斯方法
    • 限制:至少6个样本,Minimum segments 5
    • 缺点:假阴性偏高
  • 👎🏻FishingCNV
    • 算法特点:主成分分析降低噪声,使用CBS对背景进行归一化覆盖率比较
    • 限制:Read mapq > 15,Base quality 10,RPKM > 3,FDR adjusted pvalue 0.05
  • 👎🏻HMZDelFinder ###### 排除 ######
    • 限制:只能检测loss
  • 👎🏻ExonDel ##### 排除 #####
    • 限制:只能检测CNV loss
  • 👎🏻CLAMMS
    • 使用语言:C
    • 数据类型:WES
    • 算法特点:加入了参考集优化的过程
    • 限制:0.3 < GC < 0.7,mappability > 0.75
  • 👎🏻CoNIFER
    • 数据类型:WES
    • 算法特点:使用奇异分解执行系统偏差校正
    • 限制:至少50个样本,Probes with median RPKM across samples > 1, samples with a standard deviation of SVD-ZRPKM < 0.5
  • 👎🏻ClinCNV:
    • 使用语言:R
    • 数据类型:WES/WGS
    • 深度:可分析低深度数据(1x)
    • 可检测类别:germline、somatic
    • 需提供数据:bed(常规三列 + GC 含量)、coverage(染色体、坐标、平均测序深度)
  • 👎🏻DeAnnCNV
    • 特点:可以在线使用,还可以进行变异注释
    • 限制:CNV evidence threshold > 80 ????
    • 缺点:检测CNV很少

参考文献1:Benchmarking germline CNV calling tools from exome sequencing data

  1. 验证数据(gold standard):NA12878
  2. FishingCNV (1210 CNV) 和 exomeCopy (845 CNV) 数量最多;
  3. DeAnnCNV (2 CNV)数量最少;
  4. CONTRA、EXCAVATOR2、ExomeDepth 和 PatternCNV ( 200-300 );
  5. #在 CONTRA 和 PatternCNV 的情况下,这些是单外显子 CNV。
  6. 其他算法平均检测到 26 个变化。
  7. CNV长度:
  8. CNV 的总长度从 50 kb 到 1304 Mb(神经病啊 这么长)
  9. 这表明需要过滤某些工具产生的调用,特别是 FishingCNV 和 exomeCopy。
  10. (ExomeDepth、CONTRA、CANOES、CLAMMS、CNVkit、CODEX、FishingCNV、HMZDelFinder 和 PatternCNV)发现了小于 1 kb 的变异
  11. CNVkit、CODEX、CANOES、EXCAVATOR2 和 FishingCNV 是少数能够同时检测 2 到 3 个目标区域的小 CNV 和长变异(超过 1 Mb)的算法
  12. precision、recall和F1-score

参考文献2:A comparison of tools for copy-number variation detection in germline whole exome and whole genome sequencing data

  1. 验证数据(gold standard):NA12878,in-house GB01–GB08 and GB09–GB38(from CytoScan HD SNP-array)
  2. CODEX call 出的CNV最少;GATK gCNV call出的CNV最多。
  3. CODEX 检测到的数量与NA12878相近,但不等于全为真阳性
  4. CLC Genomics Workbench 和 cn.MOPS检测到很多long CNV(> 10,000bp)
  5. GATK gCNV识别出的片段主要集中在 <500bp (WES)和500-1000bp(WGS)。比其他CNV检测出了更短的CNV
  6. cn.MOPS, CNVnator, Control-FREEC 在WGS样本中识别到了比其他software更多的 >1,000 bp length CNVs 。然而标准品中一半的CNV,都为500bp以下
  7. precision和recall(未进行过滤)
    1. GATK gCNV recall最高(both in WGS and WES),随后是lumpy,DELLY,cnMOPS,Manta。但是低于31%的precision。
  8. CNVkit在过滤后对WES表现出较高的precision和recall,而其他tools对wes数据的recall都不高。然而这个表现只针对NA12878样本。
  9. 结论gCNV recall表现最好

参考文献3:GATK gCNV: accurate germline copy-number variant discovery from sequencing read-depth

  1. 验证数据(gold standard):从Genome STRiP获得的一个经过人工验证和FDR控制的callset
  2. 许多基于读长的CNV caller试图通过PCA降噪或回归消除系统偏差,或者通过对样本和基因组区域进行预聚类消除。随后使用隐马尔可夫模型或非参数变化点检测算法对CNV进行检测。
  3. 关键的是,这些方法在数据归一化和检测之间缺乏自洽性,导致前者无意中去除了引号,导致后者灵敏度降低。
  4. GATK gCNV:有原则的贝叶斯方法,用来学习大型队列的读深数据全局和特定样本的偏差。负二项式分布与分层HMM相结合。偏差建模提高了自洽性。
  5. 比较了两个软件,一个是XHMM,一个是CODEX。发现GATK gCNV要比其他两个敏感度高将近20%。特异性高50%

参考文献4: CODEX2: full-spectrum copy number variation detection by high-throughput DNA sequencing、

  1. 验证数据(gold standard):HapMap3、Conrad et.al、McCarroll et.al、1000GP wgs
  2. CODEX的升级版,提升了敏感度sensitivity
  3. XHMM、EXCAVATOR对common CNV检测缺少敏感性;CLAMMS也是precision高,但是sensitivity低。
  4. CODEX可以检测到更多的common CNV,但是sensitivity低;
  5. CODEX2在四个验证集中召回率分别是92.8% 60.7% 79.2% 66.2%,同时特异性有显著提高。

Untitled

参考文献5:Evaluation of CNV detection tools for NGS panel data in genetic diagnostics

  1. 验证数据(gold standard):ICR96 exon CNV validation series , panelcnDataset, In-house MiSeq ,In-House HiSeq
  2. DECoN在各个样本集表现稳定
  3. cn.MOPs(panelcn.MOPS是否是它的一个功能还是一个专门应用panel的版本),默认参数下,假阴性有些高。
  4. ExomeDepth和CODEX2也表现较好。CODEX2在默认参数下,有一个验证集敏感度偏低。优化参数后回到正常水平。
  5. 建议将CNV添加到流程前,针对数据集进行参数优化,作者开发了一个R包 https://github.com/TranslationalBioinformaticsIGTP/CNVbenchmarkeR

参考文献6:Free-access copy-number variant detection tools for targeted nextgeneration sequencing data

  1. 验证数据(gold standard):模拟数据

    4179 exons ranging in size from 53 bp to 17,155 bp (位于所有染色体except chr18)

    三种类型:homozygous deletions (DEL-HO), heterozygous deletions (DEL-HT),

    and duplications (DUP)

  1. 名列前茅的分别是DECoN, exomeDepth, exomeCNV
  2. 比较300X和50X数据差距,除了CNVkit,其余软件均在高深度数据表现更好
  3. DECoN假阴性最低
-------------本文结束感谢您的阅读-------------