全基因组关联分析(GWAS)软件:emmax
程序员文章站
2024-03-02 20:19:40
...
emmax 的优点是操作简单,运行速度非常快,几百万的SNP也可以半小时内跑完。
1. 基因型格式
# 转换成合适的格式
nohup plink --vcf snp.vcf.gz --recode 12 --output-missing-genotype 0 --transpose --out snp --allow-extra-chr &
注意:
- emmax 接受plink的长格式。
- 基因型需要先 imputation,不能有缺失,且只识别双等位位点。
- snp ID (tped 文件第二列,不能为空或".")。
- 染色体只能用数字表示。
2. 表型格式
$ cat test.pheno
1 1 10.56
2 2 13.35
3 3 23.12
4 4 11.45
...
每一个表型数据单独一个文件,第一列为 FAMID, 第二列为 INDID,,第三列为表型数据。缺失数据用“NA”表示。
3. 计算BN亲缘关系矩阵
nohup emmax-kin -v -h -d 10 snp &
4. 运行emmax
genotype=snp
kinship=snp.hBN.kinf
while read id
do
nohup emmax -v -d 10 -t $genotype -p $id -k $kinship -o ${id%%.*} &
done <$1
- -t:基因型文件前缀
- -k:关系矩阵
- -p:表型文件
- -o:输出文件前缀