4Y叔的clusterProfiler-book阅读Chapter 4 Disease analysis

程序员文章站 2024-03-04 22:06:12

...

Chapter 4 Disease analysis

DOSE用于 Disease Ontology (DO) 分析和富集分析，enrichDO函数，主要用于鉴定疾病相关的目标基因，gseDO函数主要用于DO的基因富集分析DOSE也可以用于癌症基因的网络(NCG）以及疾病基因网络(DGN)的富集分析。
4.1enrichDO函数的使用
选择1.5倍差异的基因用于分析他们的疾病联系。

library(DOSE)
data(geneList)
gene <- names(geneList)[abs(geneList) > 1.5]
head(gene)

##[1] "4312"  "8318"  "10874" "55143" "55388" "991" 

x <- enrichDO(gene          = gene,  ##此处选择待分析的基因，通常可以是Different expresssion gene
              ont           = "DO",   ##选择疾病本体论这一方式进行分析
              pvalueCutoff  = 0.05,##选择p值小于0.05的进行保留
              pAdjustMethod = "BH",
              universe      = names(geneList),
              minGSSize     = 5,
              maxGSSize     = 500,
              qvalueCutoff  = 0.05,
              readable      = FALSE)
head(x)

4Y叔的clusterProfiler-book阅读Chapter 4 Disease analysis

enrichDO函数要求entrezgene ID向量作为输入，通常是基因测绘研究中的差异表达的基因。如果用户需要将其转换成其他的基因ID形式，作者推荐使用clusterProfiler中的bitr()函数，ont参数可以是"DO"或者是"DOLite",DOLite通过合并DO中其他的冗余函数而构成的一个精简的函数。DOLite数据未经过更新，因此推荐用户使用DO()，
pvalueCutoff 设置 p value and p value adjust;
pAdjustMethod setting the p value correction methods,其中包含 Bonferroni correction (“bonferroni”), Holm (“holm”), Hochberg (“hochberg”), Hommel (“hommel”), Benjamini & Hochberg (“BH”) and Benjamini & Yekutieli (“BY”) while qvalueCutoff 用于控制q-values.
universe 用于设置背景基因，默认未所有具有DO注释的人类基因
minGSSize(或者MaxGSSize)指示那些注释基因大于minGSSize(或者小于MaxGSSize)的DO项进行测试。
readable是一个逻辑参数，指示的是entrezgene IDs是否于匹配上了gene Symbol，也可以用此函数来进行ID转换。

x <- setReadable(x, 'org.Hs.eg.db')
head(x)

4Y叔的clusterProfiler-book阅读Chapter 4 Disease analysis

4.2enrichNCG()
Network of Cancer Gene (NCG)(A. et al. 2016) 是一个癌症基因的目录，其中收录了1571个来自175篇文献报道的癌基因。 DOSE 用来支持分析基因列表以及检测在已知癌症中能发生突变的基因是否富集。

gene2 <- names(geneList)[abs(geneList) < 3]
ncg <- enrichNCG(gene2)
head(ncg)

4Y叔的clusterProfiler-book阅读Chapter 4 Disease analysis

4.3 enrichDGN and enrichDGNv functions
DisGeNET是多个公共数据来源和文献基因疾病相关连的综合和综合资源，它包括基因疾病关联和SNP基因疾病关联，疾病关联的富集分析能用enrichDGN()，而SNP基因疾病关联分析可以用enrichDGNv()函数来分析。

dgn=enrichDGN(gene)
head(dgn)

snp <- c("rs1401296", "rs9315050", "rs5498", "rs1524668", "rs147377392",
         "rs841", "rs909253", "rs7193343", "rs3918232", "rs3760396",
         "rs2231137", "rs10947803", "rs17222919", "rs386602276", "rs11053646",
         "rs1805192", "rs139564723", "rs2230806", "rs20417", "rs966221")
dgnv <- enrichDGNv(snp)
head(dgnv)

4.4 gseDO fuction

library(DOSE)
data(geneList)
y <- gseDO(geneList,
           nPerm         = 100,
           minGSSize     = 120,
           pvalueCutoff  = 0.2,
           pAdjustMethod = "BH",
           verbose       = FALSE)
head(y, 3)

4Y叔的clusterProfiler-book阅读Chapter 4 Disease analysis
4.5 gseNCG fuction

ncg <- gseNCG(geneList,
              nPerm         = 100,
              minGSSize     = 120,
              pvalueCutoff  = 0.2,
              pAdjustMethod = "BH",
              verbose       = FALSE)
ncg <- setReadable(ncg, 'org.Hs.eg.db')
head(ncg, 3)

4Y叔的clusterProfiler-book阅读Chapter 4 Disease analysis
4.6 gseDGN fuction

dgn <- gseDGN(geneList,
              nPerm         = 100,
              minGSSize     = 120,
              pvalueCutoff  = 0.2,
              pAdjustMethod = "BH",
              verbose       = FALSE)
dgn <- setReadable(dgn, 'org.Hs.eg.db')
head(dgn, 3)

4Y叔的clusterProfiler-book阅读Chapter 4 Disease analysis