欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

群体变异数据vcf文件过滤概念及使用方法

程序员文章站 2024-03-02 21:46:04
...

标记过滤指标概念

  • miss 缺失率,即标记缺失的比例 一般过滤0.1或者0.2;对于简化基因组的也有进行0.5的过滤的,看具体需求了
  • maf 最小等位基因频率 一般过滤0.05或者0.01
  • DP 深度,reads支持数 这个要根据具体测序的情况最好过滤到4,7,10以上,然后对于深度高于平均深度3-5倍的,尽量也进行过滤,因为大概率是重复区域的情况
  • GQ 基因型质量值 一般gatk过滤30,samtools过滤20
  • AD ref,alt基因型情况 如果是动植物这种germline的变异一般要求比例不要太失衡,somatic的没有这个要求
  • het 杂和率,标记的杂合率,对于特定的群体有过滤的需求

gatk标记硬过滤

  • Hard-filter SNPs on multiple expressions using VariantFiltration
  • 这个是硬过滤,snp,indel的过滤参数不同,但是不如
gatk VariantFiltration \
    -V snps.vcf.gz \
    -filter "QD < 2.0" --filter-name "QD2" \
    -filter "QUAL < 30.0" --filter-name "QUAL30" \
    -filter "SOR > 3.0" --filter-name "SOR3" \
    -filter "FS > 60.0" --filter-name "FS60" \
    -filter "MQ < 40.0" --filter-name "MQ40" \
    -filter "MQRankSum < -12.5" --filter-name "MQRankSum-12.5" \
    -filter "ReadPosRankSum < -8.0" --filter-name "ReadPosRankSum-8" \
    -O snps_filtered.vcf.gz
gatk VariantFiltration \ 
    -V indels.vcf.gz \ 
    -filter "QD < 2.0" --filter-name "QD2" \
    -filter "QUAL < 30.0" --filter-name "QUAL30" \
    -filter "FS > 200.0" --filter-name "FS200" \
    -filter "ReadPosRankSum < -20.0" --filter-name "ReadPosRankSum-20" \ 
    -O indels_filtered.vcf.gz

vcftools 群体标记过滤

  • 进行群体的高级过滤
vcftools \
--minDP 4 \
--maxDP 100 \
--minGQ  10 \
--minQ 30 \
--min-meanDP 3 \
--out meanDP3.miss0.5.maf0.01.vcf \
--vcf raw.vcf \
--recode --recode-INFO-all \
--max-missing 0.5 \
--maf 0.01

上一篇: LOJ 6144

下一篇: