欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

全基因组关联分析(GWAS)软件:emmax

程序员文章站 2024-03-02 20:19:40
...

emmax 的优点是操作简单,运行速度非常快,几百万的SNP也可以半小时内跑完。

1. 基因型格式

# 转换成合适的格式
nohup plink --vcf snp.vcf.gz --recode 12 --output-missing-genotype 0 --transpose --out snp --allow-extra-chr &

注意:

  1. emmax 接受plink的长格式。
  2. 基因型需要先 imputation,不能有缺失,且只识别双等位位点。
  3. snp ID (tped 文件第二列,不能为空或".")。
  4. 染色体只能用数字表示。

2. 表型格式

$ cat test.pheno
1 1 10.56
2 2 13.35
3 3 23.12
4 4 11.45
...

每一个表型数据单独一个文件,第一列为 FAMID, 第二列为 INDID,,第三列为表型数据。缺失数据用“NA”表示。

3. 计算BN亲缘关系矩阵

nohup emmax-kin -v -h -d 10 snp &

4. 运行emmax

genotype=snp
kinship=snp.hBN.kinf
while read id
do
nohup emmax -v -d 10 -t $genotype -p $id -k $kinship -o ${id%%.*} &
done <$1
  • -t:基因型文件前缀
  • -k:关系矩阵
  • -p:表型文件
  • -o:输出文件前缀