用R统计人类基因所有的转录本的分布情况
程序员文章站
2024-03-04 21:44:36
...
一、数据的获取
首先,从ensembl genome browser 92数据库里找到biomart选项:
然后进入biomart 选择使用的资料组(dataset):Human genes (GRCh38.p12)基因组信息。 再选择属性(attribute)为
:Wikigene name与Transcript name(External References中),然后点击results,得到如下界面:
点击GO,选则的开始下载。
二、数据分析。
将得到的数据用excel打开,发现有好多的转录本并没有相对应的基因,这时我们需要将这些不属于编码蛋白的转录本给去掉,通过筛选>复制>粘贴到新文件,得到一个两列的数据框。
将数据导入到R中,统计基因个数和转录本个数,计算平均基因有多少转录本,并做出频数直方图。
genetrans=read.table("E:/mart_export.txt",sep='\t',header=T)##输入数据
transnum=as.data.frame(table(genetrans$WikiGene_name))##统计每个基因转录本个数并转换成数据框
dim(genetrans[1]/length(unique(genetrans$WikiGene_name))##计算基因平均转录本数目
hist(transnum$Freq,breaks=100,col="blue")##画出频数直方图
freq=as.data.frame(table(transnum$Freq))##算出频数分布表
最后所得频数直方图如下:
由于数据特性的问题,导致横坐标50-200几乎看不出来数据,这里还有待优化。
上一篇: 常用类+IO流
推荐阅读