在使用VEP软件进行功能注释阶段,其实会发现存在部分注释结果和整体注释逻辑存在偏差。由于不清楚是认识的不足还是VEP本身代码存在Bug。因此对VEP的源码进行溯源核查。
相关疑似的问题
- 部分变异检测结果存在cHGVS,且cHGVS位于编码区,但是未输出pHGVS信息。
Chr Start End Ref Alt Gene Trans cHGVS pHGVS chr12 122064779 122064785 ACCGCCA C ORAI1 NM_032790.3 c.132_138delinsC - - 从注释的氨基酸结果来看,不涉及终止密码子,但是注释得到的Function为stop_lost
Chr Start End Ref Alt Gene Trans cHGVS pHGVS chr1 10342506 10342555 TCAGGTGGGCTTGACGTCTGTGACCAGTATTCAAGAGAGGATCATGTCTA CCAGGTGTAGACATGATCCTCTCTTGAATACTGGTCACAGACGTCAAGCC KIF1B NM_015074.3 c.1211_1260delinsCCAGGTGTAGACATGATCCTCTCTTGAATACTGGTCACAGACGTCAAGCC p.I404_L420delinsTRCRHDPLLNTGHRRQA
源码重点部分记录
- VEP输出结果整体记录在 “ modules\Bio\EnsEMBL\VEP\OutputFactory.pm ” 中,如果是处于核查可以基于该模块进行反向溯源;
- 预测氨基酸变化
代码在 “modules\Bio\EnsEMBL\Variation\TranscriptVariationAllele.pm” Line:684
1 | =head2 peptide |
- 对输入文件进行解析校验
modules\Bio\EnsEMBL\VEP\Parser.pm
1 | =head2 validate_vf |
- HGVS信息注释
- 获取变异最接近的转录本
modules\Bio\EnsEMBL\VEP\AnnotationType\Transcript.pm
1 | =head2 get_nearest |
对应代码: modules\Bio\EnsEMBL\Variation\TranscriptVariation.pm
1 | sub _hgvs_generic { |
modules\Bio\EnsEMBL\VEP\VariantRecoder.pm