Software-动态突变-ExpansionHunter

软件仓库: Expansion Hunter: a tool for estimating repeat sizes
参考文献: ExpansionHunter: A sequence-graph based tool to analyze variation in short tandem repeat regions

人类基因组中有许多区域由重复的 短单元序列(通常是三聚体)。这样的重复区域可以扩展为尺寸远大于读取长度,从而导致疾病。 脆性 X 综合征 , ALS ,以及 亨廷顿舞蹈症 都是众所周知的例子。

部署安装

参考原文档

算法原理

软件开发环境基于 PCR-free WGS 数据,如果处理经过PCR的数据,需要进行评估性能。

结果格式说明

Expansion Hunter 生成的 JSON 文件包含样本参数信息(SampleParameters 字段)以及按位点汇总的分析结果信息( LocusResults 字段)。原文参考结果格式说明]
示例如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
"ATXN2": {
//该基因座的预期等位基因数量
"AlleleCount": 2,
// 估计基因位点的读取覆盖深度
"Coverage": 76.47368421052632,
// 基因位点id
"LocusId": "ATXN2",
// reads长度
"ReadLength": 100,
// 基因型和描述在基因座分析的每个变异的其他信息
"Variants": {
"ATXN2": {
// CountsOfSpanningReads 已识别的**跨越读取**的摘要,以包含条目 (n, m) 数组形式给出,其中 n 是侧翼读​​取跨越的重复单元数, m 是此类读取的数量
"CountsOfSpanningReads": "(20, 1), (21, 3), (22, 10)",

//CountsOfFlankingReads An analog of CountsOfSpanningReads for in-repeat reads
"CountsOfFlankingReads": "(0, 3), (1, 12), (2, 3), (3, 8), (4, 5), (5, 10), (6, 8), (7, 8), (8, 9), (9, 5), (10, 6), (11, 11), (13, 8), (14, 7), (15, 8), (16, 6), (17, 4), (18, 3), (19, 9), (20, 5), (21, 10), (22, 1)",

// CountsOfInrepeatReads An analog of CountsOfSpanningReads for spanning reads
"CountsOfInrepeatReads": "(33, 1)",

//Genotype Repeat genotype given by the size of each repeat allele
"Genotype": "22/35",

//GenotypeConfidenceInterval Size confidence interval for each repeat allele
"GenotypeConfidenceInterval": "22-22/34-36",

//ReferenceRegion 0-based half-open reference coordinates of the repeat region (chrom:start-end)
"ReferenceRegion": "chr12:112036755-112036823",

//RepeatUnit Repeat unit in the reference orientation
"RepeatUnit": "CTG",

//VariantId Unique variant identifier
"VariantId": "ATXN2",

//VariantType Always set to "Repeat"
"VariantType": "Repeat",

//VariantSubtype Either "Repeat" or "RareRepeat"
"VariantSubtype": "Repeat",
}
}
},

配套工具

全基因组 STR 目录 含有与已知致病基因具有相似特性的多态性重复序列, 功能性 STR
REViewer, a tool for visualizing alignments of reads in regions containing tandem repeats
REViewer ,一种用于可视化包含串联重复的区域中的读取比对的工具

其他验证检测方法

方法 荧光PCR-毛细管电泳法 (CE) 一代测序法 (Sanger) 二代测序法 (NGS / MPS)
技术原理 基于片段长度分离DNA,通过荧光信号检测 基于双脱氧链终止法,直接读取DNA碱基序列 基于大规模并行测序,直接读取海量DNA碱基序列
核心信息 长度多态性 (Repeat Unit Number) 序列多态性 (Base Sequence) 序列多态性 (Base Sequence + 长度)
分辨率 高 (可区分1-4 bp的差异) 极高 (黄金标准,可识别单个碱基差异) 超高 (可同时检测长度和序列变异)
优势 1. 技术成熟稳定,全球标准; 2. 自动化程度高,通量大 ;3. 成本相对较低;4. 流程标准化,数据库完善;5. 数据分析简单快捷 1. 准确性最高,是验证其他方法的“金标准”;2. 序列结果明确,无歧义;3. 可检测侧翼区SNP; 1. 信息量最丰富:能发现“等位基因丢失”;2. 高通量:可同时检测数百个基因座(STR+SNP);3. 卓越的混合样本分析能力;4. 更适合降解DNA (测序读长短)
劣势 1. 无法区分序列变异 (等位基因丢失);2. 对高度降解DNA的分析能力有限;3. 复杂混合样本解析困难 1. 通量极低,一次反应只能测一个片段;2. 成本高昂 (按片段收费);3. 操作繁琐,耗时漫长;4. 完全不适用于常规STR分型筛查 1. 初始设备和试剂成本;2. 数据分析复杂,需生物信息学支持;3. 标准化仍在进行中;4. 数据存储和管理挑战大
检测通量 高 (一次运行可检测16-24个STR基因座) 极低 (一次运行只能检测一个片段的序列) 超高 (一次运行可检测数百个样本的数百个基因座)
成本效益 高 (适合大规模常规检测) 低 (仅适合疑难样本的靶向验证) 初期投入高,但单位数据成本低 (适合大批量样本的多基因座检测)
主要应用场景 法医DNA数据库建设、亲子鉴定、个体识别 (绝对主流) CE结果的验证、疑难等位基因的序列确认、新STR基因座的发现与验证 疑难案件检验 (降解检材、复杂混合样本)、祖先推断/表型预测 (同步测SNP)、研究领域、未来数据库扩展
-------------本文结束感谢您的阅读-------------