germline CNV software
###CNV主要方法
###1. Read-depth 2. Read-pair 3. Split-read 4. Assembly
软件汇总
- 👍🏻CODEX2(2018年更新版本提高灵敏度,CODEX:2016年)
- 使用语言:R
- 数据类型:WES/WGS,靶向扩增子测序
- 算法特点:应用基于对数线性分解的归一化,基于泊松似然的递归分割算法
- 特点:专为种系和体细胞 CNV 调用而设计
- 限制:0.2 < GC < 0.8,Target length > 20 bp,median target coverage > 20 × ,mappability > 0.9
- 参考文献4,认为CODEX上一代虽然识别出较多common CNV但是灵敏度低。
- 👍🏻DECoN(两篇文献支持假阴性最低)
- 使用语言:R
- 数据类型:靶向扩增子测序
- 算法特点:beta-二项式分布,加入参考集优化的过程
- 特点:适用于exon-base的panel测序,可以识别single exon CNV。基于ExomeDepth的基础上修改的。新增了染色体上第一个外显子区域的变异检测,HMM模型中增加了exon之间距离的因素。允许自动选择控制样本。
- 输入文件:bam、bed、ref
- 缺点:定义R包版本依赖,需要严格版本控制。需要确保其他分析不会更改其版本。
- 👍🏻CNVkit(现有CNV software)
- 使用语言:Python
- 数据类型:WES/WGS,靶向扩增子
- 算法特点:不仅考虑目标区域的归一化 Read Counts,还考虑非目标区域的归一化 Read Count。
- 特点:专为种系和体细胞 CNV 调用而设计。可以通过修改method参数使其应用于WGS和靶向扩增子测序数据。获得每个bin的log2copy ratio。标准化过程补充偏好性矫正,包括GC含量,repeat-masked比例。
- 限制:排除poor mappable regions
- 👍🏻GATK gCNV(优化了XHMM)
- 使用语言:Java、Python
- 数据类型:WES/WGS,靶向扩增子测序
- 算法特点:负二项式分布,针对RC归一化和HMM call CNV自洽性做了优化。
- 特点:主要分成两个部分:模型创建和sample calling。
- 👎🏻ExomeDepth(不考虑理由是DECoN基于此进行了优化)
- 使用语言:R
- 数据类型:WES
- 算法特点:beta-二项式分布,加入参考集优化的过程
- 软件特点:专为种系和体细胞 CNV 调用而设计
- 限制:ead mapq > 20, max distance between target border and the middle of paired read to include read into region 300 bp, Transition probability to CNV 0.0001, Expected CNV length 50 kb
- 👎🏻XHMM(GATK gCNV优化过,不考虑)
- 数据类型:WES
- 算法特点:主成分分析来降低噪声,在 Z-RPKM 上使用隐马尔可夫模型
- 限制:至少50样本, 0.1 < GC < 0.9, 10 bp < target < 10 kbp, mean coverage > 10 × across all samples, average targets 6, distance between targets 70 kb, average rate of CNV occurrence in the exome 10–8
- 参考文献4,认为其对gCNV敏感性低。
- 👎🏻CONTRA
- 使用语言:Python、R
- 数据类型:WES
- 特点:专注于外显子级的CNV识别
- 限制:Include regions at least 10-bp long with coverage > 10
- 👎🏻PatternCNV
- 特点:专注于外显子级的CNV识别,专为种系和体细胞 CNV 调用而设计
- Bin size 10,mapq > 20
- 👎🏻EXCAVATOR2
- 算法特点:不仅考虑目标区域的归一化 RC,还考虑非目标区域的归一化 RC。
- 软件特点:专为种系和体细胞 CNV 调用而设计
- 限制:Read mapq > 1,Min number of targets in CNV:4
- 参考文献4,认为其对gCNV敏感性低。
- 👎🏻exomeCopy
- 使用语言:R
- 数据类型:WES
- 算法特点:负二项式分布
- precision:4%(参考文献1)
- recall:27%(参考文献1)
- 限制:mapq > 1, overlap to include read into region—1 bp, median value for background, transition probability to CNV 1e-4 Transition probability to normal state 0.05
- 👎🏻CANOES
- 使用语言:R
- 算法特点:负二项式分布
- precision:3.9%(参考文献1)
- recall:0.2%(参考文献1)
- 限制:至少15个样本, average targets:6, distance between targets :70 kb, average rate of CNV occurrence in the exome:10–8
- 👎🏻cn.MOPS
- 数据类型:WES/WGS
- 算法特点:混合使用泊松模型和贝叶斯方法
- 限制:至少6个样本,Minimum segments 5
- 缺点:假阴性偏高
- 👎🏻FishingCNV
- 算法特点:主成分分析降低噪声,使用CBS对背景进行归一化覆盖率比较
- 限制:Read mapq > 15,Base quality 10,RPKM > 3,FDR adjusted pvalue 0.05
- 👎🏻HMZDelFinder ###### 排除 ######
- 限制:只能检测loss
- 👎🏻ExonDel ##### 排除 #####
- 限制:只能检测CNV loss
- 👎🏻CLAMMS
- 使用语言:C
- 数据类型:WES
- 算法特点:加入了参考集优化的过程
- 限制:0.3 < GC < 0.7,mappability > 0.75
- 👎🏻CoNIFER
- 数据类型:WES
- 算法特点:使用奇异分解执行系统偏差校正
- 限制:至少50个样本,Probes with median RPKM across samples > 1, samples with a standard deviation of SVD-ZRPKM < 0.5
- 👎🏻ClinCNV:
- 使用语言:R
- 数据类型:WES/WGS
- 深度:可分析低深度数据(1x)
- 可检测类别:germline、somatic
- 需提供数据:bed(常规三列 + GC 含量)、coverage(染色体、坐标、平均测序深度)
- 👎🏻DeAnnCNV
- 特点:可以在线使用,还可以进行变异注释
- 限制:CNV evidence threshold > 80 ????
- 缺点:检测CNV很少
参考文献1:Benchmarking germline CNV calling tools from exome sequencing data
- 验证数据(gold standard):NA12878
- FishingCNV (1210 CNV) 和 exomeCopy (845 CNV) 数量最多;
- DeAnnCNV (2 CNV)数量最少;
- CONTRA、EXCAVATOR2、ExomeDepth 和 PatternCNV ( 200-300 );
- #在 CONTRA 和 PatternCNV 的情况下,这些是单外显子 CNV。
- 其他算法平均检测到 26 个变化。
- CNV长度:
- CNV 的总长度从 50 kb 到 1304 Mb(神经病啊 这么长)
- 这表明需要过滤某些工具产生的调用,特别是 FishingCNV 和 exomeCopy。
- (ExomeDepth、CONTRA、CANOES、CLAMMS、CNVkit、CODEX、FishingCNV、HMZDelFinder 和 PatternCNV)发现了小于 1 kb 的变异
- CNVkit、CODEX、CANOES、EXCAVATOR2 和 FishingCNV 是少数能够同时检测 2 到 3 个目标区域的小 CNV 和长变异(超过 1 Mb)的算法
- precision、recall和F1-score
参考文献2:A comparison of tools for copy-number variation detection in germline whole exome and whole genome sequencing data
- 验证数据(gold standard):NA12878,in-house GB01–GB08 and GB09–GB38(from CytoScan HD SNP-array)
- CODEX call 出的CNV最少;GATK gCNV call出的CNV最多。
- CODEX 检测到的数量与NA12878相近,但不等于全为真阳性
- CLC Genomics Workbench 和 cn.MOPS检测到很多long CNV(> 10,000bp)
- GATK gCNV识别出的片段主要集中在 <500bp (WES)和500-1000bp(WGS)。比其他CNV检测出了更短的CNV
- cn.MOPS, CNVnator, Control-FREEC 在WGS样本中识别到了比其他software更多的 >1,000 bp length CNVs 。然而标准品中一半的CNV,都为500bp以下
- precision和recall(未进行过滤)
- GATK gCNV recall最高(both in WGS and WES),随后是lumpy,DELLY,cnMOPS,Manta。但是低于31%的precision。
- CNVkit在过滤后对WES表现出较高的precision和recall,而其他tools对wes数据的recall都不高。然而这个表现只针对NA12878样本。
- 结论gCNV recall表现最好
参考文献3:GATK gCNV: accurate germline copy-number variant discovery from sequencing read-depth
- 验证数据(gold standard):从Genome STRiP获得的一个经过人工验证和FDR控制的callset
- 许多基于读长的CNV caller试图通过PCA降噪或回归消除系统偏差,或者通过对样本和基因组区域进行预聚类消除。随后使用隐马尔可夫模型或非参数变化点检测算法对CNV进行检测。
- 关键的是,这些方法在数据归一化和检测之间缺乏自洽性,导致前者无意中去除了引号,导致后者灵敏度降低。
- GATK gCNV:有原则的贝叶斯方法,用来学习大型队列的读深数据全局和特定样本的偏差。负二项式分布与分层HMM相结合。偏差建模提高了自洽性。
- 比较了两个软件,一个是XHMM,一个是CODEX。发现GATK gCNV要比其他两个敏感度高将近20%。特异性高50%
参考文献4: CODEX2: full-spectrum copy number variation detection by high-throughput DNA sequencing、
- 验证数据(gold standard):HapMap3、Conrad et.al、McCarroll et.al、1000GP wgs
- CODEX的升级版,提升了敏感度sensitivity
- XHMM、EXCAVATOR对common CNV检测缺少敏感性;CLAMMS也是precision高,但是sensitivity低。
- CODEX可以检测到更多的common CNV,但是sensitivity低;
- CODEX2在四个验证集中召回率分别是92.8% 60.7% 79.2% 66.2%,同时特异性有显著提高。
参考文献5:Evaluation of CNV detection tools for NGS panel data in genetic diagnostics
- 验证数据(gold standard):ICR96 exon CNV validation series , panelcnDataset, In-house MiSeq ,In-House HiSeq
- DECoN在各个样本集表现稳定
- cn.MOPs(panelcn.MOPS是否是它的一个功能还是一个专门应用panel的版本),默认参数下,假阴性有些高。
- ExomeDepth和CODEX2也表现较好。CODEX2在默认参数下,有一个验证集敏感度偏低。优化参数后回到正常水平。
- 建议将CNV添加到流程前,针对数据集进行参数优化,作者开发了一个R包 https://github.com/TranslationalBioinformaticsIGTP/CNVbenchmarkeR
参考文献6:Free-access copy-number variant detection tools for targeted nextgeneration sequencing data
验证数据(gold standard):模拟数据
4179 exons ranging in size from 53 bp to 17,155 bp (位于所有染色体except chr18)
三种类型:homozygous deletions (DEL-HO), heterozygous deletions (DEL-HT),
and duplications (DUP)
- 名列前茅的分别是DECoN, exomeDepth, exomeCNV
- 比较300X和50X数据差距,除了CNVkit,其余软件均在高深度数据表现更好
- DECoN假阴性最低