Software-transvar_变异坐标转换

坐标转换

基因组学研究中经常会进行的操作是将测序检测得到的染色体侧面的变异检测结果(SNV、InDel等),注释到基因上,因为大多数功能研究和蛋白研究都是针对基因进行的,将变异注释到基因上,可以更好的帮助我们预测变异对基因表达,和蛋白合成过程中带来的影响,而这个层级的影响可以帮助我们更好的进行功能组学的相关研究。因此一些发表的论文或数据库中经常提到的变异,一般有三种格式:1)基因组坐标:2)cDNA 坐标;3)蛋白氨基酸坐标。举个例子TP53上的某个变异的基因组坐标是g.chr17:74026C>A,cDNA坐标是c.1001G>T,蛋白氨基酸坐标是p.G334V。当然这几种注释的写法都是有标准规范可以参考的,可以参考文章

在数据分析的过程中经常会遇到这三种坐标相关转换的情况,例如你从文献或者某个数据库中收集到了几百个肿瘤靶向药的用药位点,而你在你样本中检测到了很多变异,想知道你的样本中包含多少收集到的已知的用药位点。但通常文献或者数据库会以第二种或者第三种形式表示变异,而我们自己检测的变异通常会以vcf格式存储,这样就无法直接匹配。当然可以对vcf格式的变异进行ANNOVAR注释,然后对cDNA或者蛋白氨基酸坐标形式的变异进行比较,但尝试过的人都表示特别痛苦:需要考虑的规则太多!尝试两次,还是放弃了:一是匹配规则不通用;二是总担心有没有考虑到过的情况。所以急需一个能完成这种坐标转换的工具。15年发表在NATURE METHODS上的题为:TransVar: a multilevel variant annotator for precision genomics的文章中推出了一款名为TransVar的软件成了解决不同层面变异坐标转换的神器。

文献下载

TransVar软件简介

Transvar 是一款多种方向的突变/坐标转换工具,它支持基因组坐标、cDNA 坐标以及蛋白氨基酸坐标之间的转换。
Figure1

如上图所示,该软件的功能可细分为下面3种:
1)正向注释:对于基因组坐标的变异进行mRNA(cDNA)和蛋白注释,这款工具会提供所有的可能结果;
2)反向注释:将mRNA(cDNA)坐标和蛋白坐标的变异转换成所有可能基因组坐标形式的变异;
3)等价注释:对于某一给定的蛋白坐标的变异,搜索所有可能的与其为相同基因组坐标,但在不同转录本上的蛋白坐标变异。

软件的官方文档 ReadtheDoc

软件的使用

Linux版本

安装

软件下载可以从github仓库获取

通过python 安装

1
2
3
4
5
sudo pip install transvar ## 全局安装,需要root权限
或者:
pip install --user transvar ##用户安装,没有root权限的用此方法
软件更新:
pip install -U transvar

数据库的配置

链接数据库,可通过命令行添加。最开始,不存在transvar.cfg这个文件,在第一次链接后,会创建transvar.cfg文件,并将你创建的对应关系写入文件中,transvar.cfg 存放的路径:os.path.dirname({PYTHON_PATH})/lib/python3.7/site-packages/transvar/transvar.cfg

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
# set up databases
transvar config --download_anno --refversion hg19 #默认的hg19的 dbSNP 数据库是2016年的,部分数据库如dbSNP新版数据库收录内容有很大变化(主要是数量的提升),所以建议自行重新下载

# in case you don't have a reference
transvar config --download_ref --refversion hg19

# in case you do have a reference to link
transvar config -k reference -v [path_to_hg19.fa] --refversion hg19


transvar config -k aceview -v $PATH/hg19.aceview.gff.gz.transvardb --refversion hg19
transvar config -k ccds -v $PATH/hg19.ccds.txt.transvardb --refversion hg19
transvar config -k ensembl -v $PATH/hg19.ensembl.gtf.gz.transvardb --refversion hg19
transvar config -k gencode -v $PATH/hg19.gencode.gtf.gz.transvardb --refversion hg19
transvar config -k kg -v $PATH/transvar.download/hg19.knowngene.gz.transvardb --refversion hg19
transvar config -k refseq -v $PATH/hg19.refseq.gff.gz.transvardb --refversion hg19
transvar config -k ucsc -v $PATH//hg19.ucsc.txt.gz.transvardb --refversion hg19

cat lib/python3.7/site-packages/transvar/transvar.cfg

[DEFAULT]
refversion = hg19

[hg19]
reference = $PATH/ucsc.hg19.fasta
refseq = $PATH/hg19.refseq.gff.gz.transvardb
ccds = $PATH/hg19.ccds.txt.transvardb
ucsc = $PATH/hg19.ucsc.txt.gz.transvardb
gencode = $PATH/hg19.gencode.gtf.gz.transvardb
aceview = $PATH/hg19.aceview.gff.gz.transvardb
ensembl = $PATH/hg19.ensembl.gtf.gz.transvardb
kg = $PATH/hg19.knowngene.gz.transvardb

使用

这款软件即可以单点注释,也可以批量处理,下面分别介绍一下:

  • 单点注释用 -i传入待注释位点,包括3种:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    # 基因组正向注释
    transvar ganno --ccds -i 'chr3:g.178936091G>A'

    # cDNA反向注释
    transvar canno --ccds -i 'PIK3CA:c.1633G>A'

    # 氨基酸反向注释
    transvar panno -i 'PIK3CA:p.E545K' --ensembl

    # 已知 p. 进行注释,可以一次只注释一个数据库,也可以同时注释多个数据库
    transvar panno -i 'ERBB2:p.Leu755_Thr759del' --aceview --ccds --ensembl --gencode --kg --refseq --ucsc

    # 其中--ccds、--ensembl为使用不同的数据库,如网页版,可以同时多选,\
    # 如 --ccds --ensembl --refseq --ucsc 来进行多选
  • 批量注释 -l传入待注释位点

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    /*/software/anaconda3/bin/transvar canno -l mutiation.canno.list  -m 1 -o 2  --refseq --longestcoding --gseq 
    ###
    canno:指cDNA反向注释,备选包括panno( 蛋白氨基酸反向注释)和ganno(基因组正向注释)
    -l:输入文件,变异与canno、panno、ganno对应。格式示例如下:
    ![image.png](https://upload-images.jianshu.io/upload_images/22041438-ba466242c2050f60.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
    -m:-l指定的输入文件可以有多列,通过-m指定哪列是待注释列,不加-m参数默认是第一列
    -o:同时可以通过-o来指定-l中的那一列作为输出文件的首列,不加-o,默认是第一列
    --refseq:使用哪个数据库的转录本进行注释,还有其他数据库可选如 ensembl/gencode/ucsc/ccds/aceview等。
    --longestcoding: 有多个转录本时,仅选择最长的转录本。如果不加这个参数会把涉及到的所有转录本都输出出来,这时候你就要自己制定标准进行筛选了
    --gseq :在输出文件中增加类似VCF格式的变异信息,包括染色体,起始位置,终止位置,参考基因组序列,突变后的序列。

网页版

Transvar Web版
使用相对比较简单,界面也非常清晰

-------------本文结束感谢您的阅读-------------