Plink文件格式介绍(一)
程序员文章站
2024-03-04 17:28:05
...
introduction
Plink算是生物信息最常用的软件之一了,而且很多软件的输入也会使用Plink的文件格式。这次我们来一起认识一下Plink中最常用的两种格式,.ped和.map。
PED文件介绍:
PED文件主要是储存每个样本的基因型的,每行代表一个样本,每列的具体含义如下:
Family ID
Individual ID
Paternal ID
Maternal ID
Sex (1=male; 2=female; other=unknown)
Phenotype
如果是自然群体,那就把family ID和individual ID都填一样的就行了。父母的ID就填0,代表缺失。
第6列是Phenotype(表型),每个PED文件第六列必需时表型值,也只能有这一列表型值。质量性状必须转换为0、1、2。Plink会自己判断表现类型(based on whether a value other than 0, 1, 2 or the missing genotype code is observed)。有几个保留值注意一下:
-9 missing
0 unaffected
1 affected
从第7列开始是Phenotype(基因型,A,C,G,T),可以有很多列,一直往后写,TAB键隔开就好了。
最后做出来就是这个样子了:
FAM001 1 0 0 1 2 A A G G A C
FAM001 2 0 0 1 2 A A A G 0 0
MAP文件介绍
MAP文件主要是用来记录每个maker(一般为SNP)的位置信息。
每行一个maker,每列的含义如下:
chromosome (1-22, X, Y or 0 if unplaced)
rs# or snp identifier
Genetic distance (morgans)
Base-pair position (bp units)
第一列自不用说,第二列是SNP的名字,起个便于管理的名字就好。第三列是摩尔根距离,不知道的话写0就行了。第四列是在染色体上的坐标位置。
结语
关于这些文件还有很多细节和特殊情况的处理没有讲,后面有时间了再补充吧,着急用的话就点祥见这里,超链接到了plink官网的对于说明上了。