欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

GWAS中常用格式“ped/map”和“tped/tfam”

程序员文章站 2024-03-04 12:26:41
...

参考资料来源:

http://zzz.bwh.harvard.edu/plink/data.shtml#tr

plink常用格式:PED/MAP

PED文件:包含每个样本的基本信息(族系、名称、性别等)、表现型信息(phenotype)、这个样本所含的所有SNPs位点的信息(第7列之后)。每行表示一个样本。

具体列数取决于该样本所含SNPs位点数

前六列,每列信息如下:

     Family ID
     Individual ID
     Paternal ID
     Maternal ID
     Sex (1=male; 2=female; other=unknown)
     Phenotype

其中:
Family ID:族系ID
Individual ID:个体(如样本间无族系联系,Family ID和Individual ID可以一样)
Paternal ID:父系ID,未知可为0
Maternal ID:母系ID,未知可为0
Sex:性别 (1=male; 2=female; other=unknown)
Phenotype:每个ped文件有且只有一列是phenotype

从第七列开始,每两列代表该样本所含的一个SNP的基因型:
如:第七、八列代表第一个基因型,第九、十列代表第二个基因型等等

PED文件举例:

      FAM001  1  0 0  1  2  A A  G G  A C 
      FAM001  2  0 0  1  2  A A  A G  0 0 
      ...

MAP文件:包含每个SNPs的名字及位置信息。每行代表一个SNP。

共4列

 chromosome (1-22, X, Y or 0 if unplaced)
 rs# or snp identifier
 Genetic distance (morgans)
 Base-pair position (bp units)

chromsome:染色体编号
rs:SNP编号
Genetic distance:遗传距离(单位:摩尔根);未知写0
Base-pair position:SNP位置

MAP文件举例:

      1  rs123456  0  1234555
      1  rs234567  0  1237793
      1  rs224534  0  -1237697 
      1  rs233556  0  1337456

Plink transposed format:TPED/TFAM (可供EMMAX软件使用)
TPED文件:包含所有SNP位点的位置、名字及在所有样本中的基因型信息。一行是一个SNP。
列数取决于样本量大小,前四列内容同MAP文件,后面所有列为所有样本在该SNPs位点处的基因型信息。

TFAM文件:包含所有样本的基本信息。TFAM文件共六列,其内容与PED文件的前六列相同。

简单来说,TPED/TFAM文件就是把PED/MAP文件中的信息重新整合了一下。具体做法就是:TPED文件是在MAP文件的四列之后,加上了PED文件中后面的基因型信息旋转了90°之后的形式(这样可以把每一行代表一个样本信息变成每一行代表一个SNPs位点的信息);而TFAM文件就是PED文件的前六列。
(好像说的一点也不简单…凑合着看吧)

TPED/TFAM文件举例:

ped/map文件:

      <---- normal.ped ---->             <--- normal.map --->
      1 1 0 0 1  1  A A  G T             1  snp1   0  5000650
      2 1 0 0 1  1  A C  T G             1  snp2   0  5000830
      3 1 0 0 1  1  C C  G G
      4 1 0 0 1  2  A C  T T
      5 1 0 0 1  2  C C  G T
      6 1 0 0 1  2  C C  T T

其等价的tped/tfam文件:

  <------------- trans.tped ------------->      <- trans.tfam ->
 1 snp1 0 5000650 A A A C C C A C C C C C       1  1  0  0  1  1
 1 snp2 0 5000830 G T G T G G T T G T T T       2  1  0  0  1  1								                                                  
                                                3  1  0  0  1  1
                                                4  1  0  0  1  2
                                                5  1  0  0  1  2
                                                6  1  0  0  1  2