用R统计人类基因所有的转录本的分布情况

程序员文章站 2024-03-04 21:44:36

...

一、数据的获取

首先，从ensembl genome browser 92数据库里找到biomart选项：

用R统计人类基因所有的转录本的分布情况

然后进入biomart 选择使用的资料组（dataset）：Human genes (GRCh38.p12)基因组信息。再选择属性（attribute）为

：Wikigene name与Transcript name(External References中），然后点击results，得到如下界面：

点击GO，选则的开始下载。

二、数据分析。

将得到的数据用excel打开，发现有好多的转录本并没有相对应的基因，这时我们需要将这些不属于编码蛋白的转录本给去掉，通过筛选>复制>粘贴到新文件，得到一个两列的数据框。

将数据导入到R中，统计基因个数和转录本个数，计算平均基因有多少转录本，并做出频数直方图。

genetrans=read.table("E:/mart_export.txt",sep='\t',header=T)##输入数据
transnum=as.data.frame(table(genetrans$WikiGene_name))##统计每个基因转录本个数并转换成数据框
dim(genetrans[1]/length(unique(genetrans$WikiGene_name))##计算基因平均转录本数目
hist(transnum$Freq,breaks=100,col="blue")##画出频数直方图
freq=as.data.frame(table(transnum$Freq))##算出频数分布表

最后所得频数直方图如下：

用R统计人类基因所有的转录本的分布情况

由于数据特性的问题，导致横坐标50-200几乎看不出来数据，这里还有待优化。