欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

用R统计人类基因所有的转录本的分布情况

程序员文章站 2024-03-04 21:44:36
...

一、数据的获取  

  首先,从ensembl genome browser 92数据库里找到biomart选项:

用R统计人类基因所有的转录本的分布情况

        然后进入biomart 选择使用的资料组(dataset):Human genes (GRCh38.p12)基因组信息。 再选择属性(attribute)为

:Wikigene name与Transcript name(External References中),然后点击results,得到如下界面:

用R统计人类基因所有的转录本的分布情况

点击GO,选则的开始下载。

二、数据分析。

   将得到的数据用excel打开,发现有好多的转录本并没有相对应的基因,这时我们需要将这些不属于编码蛋白的转录本给去掉,通过筛选>复制>粘贴到新文件,得到一个两列的数据框。

   将数据导入到R中,统计基因个数和转录本个数,计算平均基因有多少转录本,并做出频数直方图。

genetrans=read.table("E:/mart_export.txt",sep='\t',header=T)##输入数据
transnum=as.data.frame(table(genetrans$WikiGene_name))##统计每个基因转录本个数并转换成数据框
dim(genetrans[1]/length(unique(genetrans$WikiGene_name))##计算基因平均转录本数目
hist(transnum$Freq,breaks=100,col="blue")##画出频数直方图
freq=as.data.frame(table(transnum$Freq))##算出频数分布表

最后所得频数直方图如下:

用R统计人类基因所有的转录本的分布情况

由于数据特性的问题,导致横坐标50-200几乎看不出来数据,这里还有待优化。

相关标签: 生信 R语言