GWAS中常用格式“ped/map”和“tped/tfam”
参考资料来源:
http://zzz.bwh.harvard.edu/plink/data.shtml#tr
plink常用格式:PED/MAP
PED文件:包含每个样本的基本信息(族系、名称、性别等)、表现型信息(phenotype)、这个样本所含的所有SNPs位点的信息(第7列之后)。每行表示一个样本。
具体列数取决于该样本所含SNPs位点数
前六列,每列信息如下:
Family ID
Individual ID
Paternal ID
Maternal ID
Sex (1=male; 2=female; other=unknown)
Phenotype
其中:
Family ID:族系ID
Individual ID:个体(如样本间无族系联系,Family ID和Individual ID可以一样)
Paternal ID:父系ID,未知可为0
Maternal ID:母系ID,未知可为0
Sex:性别 (1=male; 2=female; other=unknown)
Phenotype:每个ped文件有且只有一列是phenotype
从第七列开始,每两列代表该样本所含的一个SNP的基因型:
如:第七、八列代表第一个基因型,第九、十列代表第二个基因型等等
PED文件举例:
FAM001 1 0 0 1 2 A A G G A C
FAM001 2 0 0 1 2 A A A G 0 0
...
MAP文件:包含每个SNPs的名字及位置信息。每行代表一个SNP。
共4列
chromosome (1-22, X, Y or 0 if unplaced)
rs# or snp identifier
Genetic distance (morgans)
Base-pair position (bp units)
chromsome:染色体编号
rs:SNP编号
Genetic distance:遗传距离(单位:摩尔根);未知写0
Base-pair position:SNP位置
MAP文件举例:
1 rs123456 0 1234555
1 rs234567 0 1237793
1 rs224534 0 -1237697
1 rs233556 0 1337456
Plink transposed format:TPED/TFAM (可供EMMAX软件使用)
TPED文件:包含所有SNP位点的位置、名字及在所有样本中的基因型信息。一行是一个SNP。
列数取决于样本量大小,前四列内容同MAP文件,后面所有列为所有样本在该SNPs位点处的基因型信息。
TFAM文件:包含所有样本的基本信息。TFAM文件共六列,其内容与PED文件的前六列相同。
简单来说,TPED/TFAM文件就是把PED/MAP文件中的信息重新整合了一下。具体做法就是:TPED文件是在MAP文件的四列之后,加上了PED文件中后面的基因型信息旋转了90°之后的形式(这样可以把每一行代表一个样本信息变成每一行代表一个SNPs位点的信息);而TFAM文件就是PED文件的前六列。
(好像说的一点也不简单…凑合着看吧)
TPED/TFAM文件举例:
ped/map文件:
<---- normal.ped ----> <--- normal.map --->
1 1 0 0 1 1 A A G T 1 snp1 0 5000650
2 1 0 0 1 1 A C T G 1 snp2 0 5000830
3 1 0 0 1 1 C C G G
4 1 0 0 1 2 A C T T
5 1 0 0 1 2 C C G T
6 1 0 0 1 2 C C T T
其等价的tped/tfam文件:
<------------- trans.tped -------------> <- trans.tfam ->
1 snp1 0 5000650 A A A C C C A C C C C C 1 1 0 0 1 1
1 snp2 0 5000830 G T G T G G T T G T T T 2 1 0 0 1 1
3 1 0 0 1 1
4 1 0 0 1 2
5 1 0 0 1 2
6 1 0 0 1 2
上一篇: Python编程:orm之sqlalchemy模块
下一篇: superset 安装与使用