germline CNV software

###CNV主要方法

###1. Read-depth 2. Read-pair 3. Split-read 4. Assembly

软件汇总

👍🏻CODEX2(2018年更新版本提高灵敏度，CODEX：2016年)
- 使用语言：R
- 数据类型：WES/WGS，靶向扩增子测序
- 算法特点：应用基于对数线性分解的归一化，基于泊松似然的递归分割算法
- 特点：专为种系和体细胞 CNV 调用而设计
- 限制：0.2 < GC < 0.8，Target length > 20 bp，median target coverage > 20 × ，mappability > 0.9
- 参考文献4，认为CODEX上一代虽然识别出较多common CNV但是灵敏度低。
👍🏻DECoN（两篇文献支持假阴性最低）
- 使用语言：R
- 数据类型：靶向扩增子测序
- 算法特点：beta-二项式分布，加入参考集优化的过程
- 特点：适用于exon-base的panel测序，可以识别single exon CNV。基于ExomeDepth的基础上修改的。新增了染色体上第一个外显子区域的变异检测，HMM模型中增加了exon之间距离的因素。允许自动选择控制样本。
- 输入文件：bam、bed、ref
- 缺点：定义R包版本依赖，需要严格版本控制。需要确保其他分析不会更改其版本。
👍🏻CNVkit（现有CNV software）
- 使用语言：Python
- 数据类型：WES/WGS，靶向扩增子
- 算法特点：不仅考虑目标区域的归一化 Read Counts，还考虑非目标区域的归一化 Read Count。
- 特点：专为种系和体细胞 CNV 调用而设计。可以通过修改method参数使其应用于WGS和靶向扩增子测序数据。获得每个bin的log2copy ratio。标准化过程补充偏好性矫正，包括GC含量，repeat-masked比例。
- 限制：排除poor mappable regions
👍🏻GATK gCNV（优化了XHMM）
- 使用语言：Java、Python
- 数据类型：WES/WGS，靶向扩增子测序
- 算法特点：负二项式分布，针对RC归一化和HMM call CNV自洽性做了优化。
- 特点：主要分成两个部分：模型创建和sample calling。
👎🏻ExomeDepth（不考虑理由是DECoN基于此进行了优化）
- 使用语言：R
- 数据类型：WES
- 算法特点：beta-二项式分布，加入参考集优化的过程
- 软件特点：专为种系和体细胞 CNV 调用而设计
- 限制：ead mapq > 20, max distance between target border and the middle of paired read to include read into region 300 bp， Transition probability to CNV 0.0001， Expected CNV length 50 kb
👎🏻XHMM（GATK gCNV优化过，不考虑）
- 数据类型：WES
- 算法特点：主成分分析来降低噪声，在 Z-RPKM 上使用隐马尔可夫模型
- 限制：至少50样本, 0.1 < GC < 0.9, 10 bp < target < 10 kbp, mean coverage > 10 × across all samples, average targets 6, distance between targets 70 kb, average rate of CNV occurrence in the exome 10–8
- 参考文献4，认为其对gCNV敏感性低。
👎🏻CONTRA
- 使用语言：Python、R
- 数据类型：WES
- 特点：专注于外显子级的CNV识别
- 限制：Include regions at least 10-bp long with coverage > 10
👎🏻PatternCNV
- 特点：专注于外显子级的CNV识别，专为种系和体细胞 CNV 调用而设计
- Bin size 10，mapq > 20
👎🏻EXCAVATOR2
- 算法特点：不仅考虑目标区域的归一化 RC，还考虑非目标区域的归一化 RC。
- 软件特点：专为种系和体细胞 CNV 调用而设计
- 限制：Read mapq > 1，Min number of targets in CNV：4
- 参考文献4，认为其对gCNV敏感性低。
👎🏻exomeCopy
- 使用语言：R
- 数据类型：WES
- 算法特点：负二项式分布
- precision：4%（参考文献1）
- recall：27%（参考文献1）
- 限制：mapq > 1, overlap to include read into region—1 bp, median value for background, transition probability to CNV 1e-4 Transition probability to normal state 0.05
👎🏻CANOES
- 使用语言：R
- 算法特点：负二项式分布
- precision：3.9%（参考文献1）
- recall：0.2%（参考文献1）
- 限制：至少15个样本, average targets：6, distance between targets ：70 kb, average rate of CNV occurrence in the exome：10–8
👎🏻cn.MOPS
- 数据类型：WES/WGS
- 算法特点：混合使用泊松模型和贝叶斯方法
- 限制：至少6个样本，Minimum segments 5
- 缺点：假阴性偏高
👎🏻FishingCNV
- 算法特点：主成分分析降低噪声，使用CBS对背景进行归一化覆盖率比较
- 限制：Read mapq > 15，Base quality 10，RPKM > 3，FDR adjusted pvalue 0.05
👎🏻HMZDelFinder ###### 排除 ######
- 限制：只能检测loss
👎🏻ExonDel ##### 排除 #####
- 限制：只能检测CNV loss
👎🏻CLAMMS
- 使用语言：C
- 数据类型：WES
- 算法特点：加入了参考集优化的过程
- 限制：0.3 < GC < 0.7，mappability > 0.75
👎🏻CoNIFER
- 数据类型：WES
- 算法特点：使用奇异分解执行系统偏差校正
- 限制：至少50个样本，Probes with median RPKM across samples > 1, samples with a standard deviation of SVD-ZRPKM < 0.5
👎🏻ClinCNV：
- 使用语言：R
- 数据类型：WES/WGS
- 深度：可分析低深度数据（1x）
- 可检测类别：germline、somatic
- 需提供数据：bed（常规三列 + GC 含量）、coverage（染色体、坐标、平均测序深度）
👎🏻DeAnnCNV
- 特点：可以在线使用，还可以进行变异注释
- 限制：CNV evidence threshold > 80 ？？？？
- 缺点：检测CNV很少

参考文献1：Benchmarking germline CNV calling tools from exome sequencing data

验证数据（gold standard）：NA12878
FishingCNV (1210 CNV) 和 exomeCopy (845 CNV) 数量最多；
DeAnnCNV (2 CNV)数量最少；
CONTRA、EXCAVATOR2、ExomeDepth 和 PatternCNV （ 200-300 ）；
#在 CONTRA 和 PatternCNV 的情况下，这些是单外显子 CNV。
其他算法平均检测到 26 个变化。
CNV长度：
CNV 的总长度从 50 kb 到 1304 Mb（神经病啊这么长）
这表明需要过滤某些工具产生的调用，特别是 FishingCNV 和 exomeCopy。
（ExomeDepth、CONTRA、CANOES、CLAMMS、CNVkit、CODEX、FishingCNV、HMZDelFinder 和 PatternCNV）发现了小于 1 kb 的变异
CNVkit、CODEX、CANOES、EXCAVATOR2 和 FishingCNV 是少数能够同时检测 2 到 3 个目标区域的小 CNV 和长变异（超过 1 Mb）的算法
precision、recall和F1-score

参考文献2：A comparison of tools for copy-number variation detection in germline whole exome and whole genome sequencing data

验证数据（gold standard）：NA12878，in-house GB01–GB08 and GB09–GB38（from CytoScan HD SNP-array）
CODEX call 出的CNV最少；GATK gCNV call出的CNV最多。
CODEX 检测到的数量与NA12878相近，但不等于全为真阳性
CLC Genomics Workbench 和 cn.MOPS检测到很多long CNV（> 10，000bp）
GATK gCNV识别出的片段主要集中在 <500bp (WES)和500-1000bp（WGS）。比其他CNV检测出了更短的CNV
cn.MOPS, CNVnator, Control-FREEC 在WGS样本中识别到了比其他software更多的 >1,000 bp length CNVs 。然而标准品中一半的CNV，都为500bp以下
precision和recall（未进行过滤）
1. GATK gCNV recall最高（both in WGS and WES）,随后是lumpy，DELLY，cnMOPS，Manta。但是低于31%的precision。
CNVkit在过滤后对WES表现出较高的precision和recall，而其他tools对wes数据的recall都不高。然而这个表现只针对NA12878样本。
结论gCNV recall表现最好

参考文献3：GATK gCNV: accurate germline copy-number variant discovery from sequencing read-depth

验证数据（gold standard）：从Genome STRiP获得的一个经过人工验证和FDR控制的callset
许多基于读长的CNV caller试图通过PCA降噪或回归消除系统偏差，或者通过对样本和基因组区域进行预聚类消除。随后使用隐马尔可夫模型或非参数变化点检测算法对CNV进行检测。
关键的是，这些方法在数据归一化和检测之间缺乏自洽性，导致前者无意中去除了引号，导致后者灵敏度降低。
GATK gCNV：有原则的贝叶斯方法，用来学习大型队列的读深数据全局和特定样本的偏差。负二项式分布与分层HMM相结合。偏差建模提高了自洽性。
比较了两个软件，一个是XHMM，一个是CODEX。发现GATK gCNV要比其他两个敏感度高将近20%。特异性高50%

参考文献4： CODEX2: full-spectrum copy number variation detection by high-throughput DNA sequencing、

验证数据（gold standard）：HapMap3、Conrad et.al、McCarroll et.al、1000GP wgs
CODEX的升级版，提升了敏感度sensitivity
XHMM、EXCAVATOR对common CNV检测缺少敏感性；CLAMMS也是precision高，但是sensitivity低。
CODEX可以检测到更多的common CNV，但是sensitivity低；
CODEX2在四个验证集中召回率分别是92.8% 60.7% 79.2% 66.2%，同时特异性有显著提高。

Untitled

参考文献5：Evaluation of CNV detection tools for NGS panel data in genetic diagnostics

验证数据（gold standard）：ICR96 exon CNV validation series , panelcnDataset, In-house MiSeq ，In-House HiSeq
DECoN在各个样本集表现稳定
cn.MOPs(panelcn.MOPS是否是它的一个功能还是一个专门应用panel的版本)，默认参数下，假阴性有些高。
ExomeDepth和CODEX2也表现较好。CODEX2在默认参数下，有一个验证集敏感度偏低。优化参数后回到正常水平。
建议将CNV添加到流程前，针对数据集进行参数优化，作者开发了一个R包 https://github.com/TranslationalBioinformaticsIGTP/CNVbenchmarkeR

参考文献6：Free-access copy-number variant detection tools for targeted nextgeneration sequencing data

验证数据（gold standard）：模拟数据

4179 exons ranging in size from 53 bp to 17,155 bp （位于所有染色体except chr18）

三种类型：homozygous deletions (DEL-HO), heterozygous deletions (DEL-HT),

and duplications (DUP)

名列前茅的分别是DECoN, exomeDepth, exomeCNV
比较300X和50X数据差距，除了CNVkit，其余软件均在高深度数据表现更好
DECoN假阴性最低