欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Plink文件格式介绍(一)

程序员文章站 2024-03-04 17:28:05
...

introduction

Plink算是生物信息最常用的软件之一了,而且很多软件的输入也会使用Plink的文件格式。这次我们来一起认识一下Plink中最常用的两种格式,.ped和.map。

PED文件介绍:

PED文件主要是储存每个样本的基因型的,每行代表一个样本,每列的具体含义如下:

  Family ID
  Individual ID
  Paternal ID
  Maternal ID
  Sex (1=male; 2=female; other=unknown)
  Phenotype

如果是自然群体,那就把family ID和individual ID都填一样的就行了。父母的ID就填0,代表缺失。
第6列是Phenotype(表型),每个PED文件第六列必需时表型值,也只能有这一列表型值。质量性状必须转换为0、1、2。Plink会自己判断表现类型(based on whether a value other than 0, 1, 2 or the missing genotype code is observed)。有几个保留值注意一下:

   -9 missing
    0 unaffected
    1 affected

从第7列开始是Phenotype(基因型,A,C,G,T),可以有很多列,一直往后写,TAB键隔开就好了。
最后做出来就是这个样子了:

  FAM001  1  0 0  1  2  A A  G G  A C 
  FAM001  2  0 0  1  2  A A  A G  0 0 

详见这里

MAP文件介绍

MAP文件主要是用来记录每个maker(一般为SNP)的位置信息。
每行一个maker,每列的含义如下:

 chromosome (1-22, X, Y or 0 if unplaced)
 rs# or snp identifier
 Genetic distance (morgans)
 Base-pair position (bp units)

第一列自不用说,第二列是SNP的名字,起个便于管理的名字就好。第三列是摩尔根距离,不知道的话写0就行了。第四列是在染色体上的坐标位置。

详见这里

结语

关于这些文件还有很多细节和特殊情况的处理没有讲,后面有时间了再补充吧,着急用的话就点祥见这里,超链接到了plink官网的对于说明上了。