地中海贫血（以下简称“地贫”）是一种常见的溶血性单基因隐性遗传病，主要是由于珠蛋白基因缺陷导致珠蛋白链合成减少或缺如而引起的。我国长江以南地区，特别是广西、广东、云南、海南是该病的高发区。同时在不同地区具有各地特异的分型，很多数据库也记录了这些分型信息，常用名称和具体变异的信息。比如：HbVar 记录了影响血红蛋白的变异和地贫相关的突变（截至20240325，地贫相关突变有541条记录， ithanet记录了大量突变，同事可以基于突变的蛋白链和地贫类型进行一些筛选，同时提供了一些common的名称，对于初接触的人可以从这里根据常用名称查找具体突变信息。比如常见的 -α3.7、-α4.2、–SEA、和–THAI,其实都是对应一种具体的突变，
alt text

目前临床实践中常规使用的检测试剂盒，主要是针对中国人群的常见基因突变。导致地贫表型的 α２珠蛋白融合基因于 2013 年首次报道，其人群分布尚不清楚，常规试剂盒常不包含该检测位点，故此突变的临床检测是目前所面临的一个具体问题。[^1]

α２珠蛋白融合基因（HBA1/HBA2) 是在配子生成过程中，α２珠蛋白基因与 Ψα１发生了片段重组, 改变了 α２珠蛋白基因的３’UTR，并引起了多聚腺苷酸信号突变，从而产生广泛的 α２珠蛋白基因转录本，引起 α＋－地贫。此融合基因的序列结构是 α２珠蛋白基因中有一段序列与 Ψα１一致，涉及７个差异碱基位点，故据此７个差异位点，从而实现此基因的准确检测分析。虽然叫HBA的融合基因加测，但是显然，这并不是检测融合的思路（┓( ´∀` )┏。u 因为是，α２珠蛋白基因与 Ψα１发生了片段重组后，重组后的序列，仅影响了原，α２珠蛋白基因末端8个bp的碱基（实际一些临床应用可能都是重点关注前7个位点），所以检测的本质其实更多的是检测固定位点的SNV，如果检测到SNV信号就认为发生了HBA2基因和Ψα１的融合。
针对 α２珠蛋白融合基因检测，目前有一些已经发表的方法和专利，但是大部分都是基于实验方案进行检测，比如有：

基于融合前后基因结构变化，设计引物，通过琼脂糖凝胶电泳法即可检测α珠蛋白Fusion gene的一种α-地中海贫血相关基因检测试剂盒

结合文献中提供的原始位点，基于序列信息，获得这7个位点在 HBA2基因上的位置，通过基因位置获得染色体位置，最终相关位置信息如下。方便追溯，记录回溯过程如下：

首先我们通过 NG_000006.1 获得文献中的nt位置对应在HBA2 基因上的位置, 下载 NG_000006.1的genebank文件,相关部分展示如下：

gene            33739..34573
                /gene="HBA2"
                /gene_synonym="HBA-T2; HBH"
                /note="hemoglobin subunit alpha 2"
                /db_xref="GeneID:3040"
                /db_xref="HGNC:HGNC:4824"
                /db_xref="MIM:141850"
mRNA            join(33739..33870,33988..34192,34335..34573)
                /gene="HBA2"
                /gene_synonym="HBA-T2; HBH"
                /product="hemoglobin subunit alpha 2"
                /transcript_id="NM_000517.6"
                /db_xref="GeneID:3040"
                /db_xref="HGNC:HGNC:4824"
                /db_xref="MIM:141850"
CDS             join(33776..33870,33988..34192,34335..34463)

我们可以看到HBA2基因全长835bp，对应 NG_000006.1的 33739..34573 区段。

然后我们通过NCBI，获得HBA2基因的基因序列

>NC_000016.9:222875-223709 Homo sapiens chromosome 16, GRCh37.p13 Primary Assembly
ACTCTTCTGGTCCCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTC
AAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGTGAGGCT
CCCTCCCCTGCTCCGACCCGGGCTCCTCGCCCGCCCGGACCCACAGGCCACCCTCAACCGTCCTGGCCCC
GGACCCAAACCCCACCCCTCACTCTGCTTCTCCCCGCAGGATGTTCCTGTCCTTCCCCACCACCAAGACC
TACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACG
CGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGC
GCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGGTGAGCGGCGGGCCGGGAGCGATCTGGGTCGAGGGG
CGAGATGGCGCCTTCCTCTCAGGGCAGAGGATCACGCGGGTTGCGGGAGGTGTAGCGCAGGCGGCGGCTG
CGGGCCTGGGCCGCACTGACCCTCTTCTCTGCACAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCG
CCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCAC
CGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTAGCCGTTCCTCCTGCCCGCTGGGCCTCCCAA
CGGGCCCTCCTCCCCTCCTTGCACCGGCCCTTCCTGGTCTTTGAATAAAGTCTGAGTGGGCAGCA

我们可以看到HBA2 基因的835bp 对应的染色体位置是 NC_000016.9(chr16):222875-223709, 所以借此，我们可以基于文献中提供的 nt34528T>C 获得该位点在基因HBA2上的相对位置 789，然后根据HBA2的染色体位置获得对应的染色体位置 chr16:173764 (38基因组）和 chr16:223663（hg19基因组）。

七个SNP位点最终的位置对应关系如下：
| nt | HBA2 gene site | 染色体位置(38 NC_000016.10:172876-173710) | 染色体位置(hg19 NC_000016.9:222875-223709) |
| ———- | ————– | —————————————– | —————————————— |
| nt34528T>C | c.789T>C | 173764 | 223663 |
| nt34532A>C | c.793A>C | 173768 | 223667 |
| nt34535G>A | c.796G>A | 173771 | 223670 |
| nt34538C>A | c.799C>A | 173774 | 223673 |
| nt34546G>A | c.807G>A | 173782 | 223681 |
| nt34556A>G | c.817A>G | 173792 | 223691 |
| nt34562T>C | c.822T>C | 173797 | 223696 |

文章位点的最终确认
同时我们也在另一篇文献[^2]中看到了研究这7个变异位点的文章，提供了比较长的序列,经过对比和我们最终得到的参考序列一致。
alt text

>NC_000016.10:172876-173710 HBA2 的 769-835
AACGGGCCCTCC  TCCCCTCC\
TT  GCACCGGCCC  TTCCTGGTCT  TTGAATAAAG  TCTGAGTGGG  CAGCA
C	  C  A  A         A			  G		  C	
3	  3	 3	3		  3			  3 	  3	
4	  4	 4	4		  4			  4		  4	
5	  5	 5	5		  5 		  5		  5	
2	  3	 3	3		  4	 		  5		  6	
8	  2	 5	8		  6			  6		  2

同时，我们也查看了一些样本的数据，可以看到一些HBA2融合样本和非融合的样本在这些位点缺失有非常明显的差异。
alt text

alt text
我们可以看到，阳性样本和阴性样本在这几个位点存在明显的差异，用这7个位点进行HBA2融合基因的检测性能不会有什么瓶颈。

建立预测模型
其实通过查看上面的截图，可以看到，其实两类数据的区分度非常明显。对手上的阴阳性数据也进行了一些简单的统计，发现除了nt34562位点外，其他的6个位点，进行任意的单一指标的统计量都存在明显的差异。

column	cut	neg_max	pos_min
nt34528	0.2551733780760626	0.2083333333333333	0.3020134228187919
nt34532	0.2622971285892634	0.2134831460674157	0.3111111111111111
nt34535	0.23971471471471467	0.1888888888888888	0.2905405405405405
nt34538	0.24000000000000002	0.2	0.28
nt34546	0.2242424242424242	0.1818181818181818	0.2666666666666666
nt34556	0.16107579053036636	0.127906976744186	0.1942446043165467
nt34562	1.0	1.0	1.0

所以在这里面，我们也不太有必要进行画蛇添足的复杂模型应用，首先我们剔除掉对最终判断没有太大帮助的nt34562位点，然后建立模型。模型也可以比较简单的对单个位点根据测试数据取得二分类的阈值（在这里面使用pos的最小值和neg的最大值的平均值，因为数据分离度很大，在这里面也没有使用ROC之类方法的必要性）。
剔除一个位点后，我们还有6个位点用于判断，我们简单的指定个标准，有4个及以上位点的状态定义为样本的最终状态。

references

[^1]: 2021.10 α－地中海贫血融合基因检测方法及应用评价
[^2]: 2019 一个黎族α-地中海贫血融合基因遗传家系的鉴定_胡俊杰.pdf)