【生信笔记】vcf文件中的星号 * 是啥意思
程序员文章站
2022-07-14 14:39:04
...
分析的时候ALT中出现了*,(如下)懵逼。
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT
chr9 10105 rs575580161 C *,A 180.66 VQSRTrancheSNP99.50to99.90 AC=3,2;AF=1.280e-03,8.532e-4;AN=2344;DB;DP=1886;ExcessHet=0;FS=0;InbreedingCoeff=0.331;MQ=40.98;NEGATIVE_TRAIN_SITE;PG=0,28,61,29,60,64;QD=25.81;SOR=0.223;VQSLOD=-3.718e+00;culprit=DP GT:AD:DP:GQ:PL:PP
根据The Variant Call Format Specification文件(https://samtools.github.io/hts-specs/VCFv4.3.pdf)5.5内容可知,*表示非特定的等位基因,其他可能的等位基因(包括SNP、INDEL或其他)。AC、AF等信息也是有2份,分别对应 ALT * 和 ALT A
这里提到* 优于<NON_REF> ,那<NON_REF>又是啥?这个在vcf4.2版本的header里就有说明。
##fileformat=VCFv4.2
##ALT=<ID=NON_REF,Description="Represents any possible alternative allele at this location">
##FILTER=<ID=LowQual,Description="Low quality">
...
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA12878
20 10001670 . T G,<NON_REF> 1773.77 . DP=42;ExcessHet=3.0103;MLEAC=2,0;MLEAF=1.00,0.00;RAW_MQ=151200.00 GT:AD:DP:GQ:PGT:PID:PL:SB 1/1:0,42,0:42:99:0|1:10001661_T_C:1802,129,0,1802,129,1802:0,0,25,17
这俩好像是一个意思,盲猜是因为*占的内存比<NON_REF>小,所以更优。。
上一篇: Hive 基础知识(二)
下一篇: 随机森林 extra-trees