转录组入门(4):了解参考基因组及基因注释
程序员文章站
2022-03-11 19:02:11
...
目的:
在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
作业:
截图几个基因的IGV可视化结构!还可以下ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。
载参考基因组
# 解压文件
tar -zxvf chromFa.tar.gz
# 把所有的序列写到一个文件中
cat *.fa > hg19.fa
#删除其他文件
rm chr*.fa
下载注释文件
# 解压并删除原来的文件
gzip -d gencode.v27lift37.annotation.gtf.gz
gzip -d gencode.v27lift37.annotation.gff3.gz
IGV软件的使用
主窗口布局
- tool bar(工具栏),menu bar(菜单栏),pop-up menus(弹出式菜单)
- 染色体上的红色盒子表示显示这部分染色体,显示完整染色体时红框会消失
- 尺度显示了染色体的可见部分,刻度线显示了染色体的位置,跨度列表显示了当前显示的碱基的数量
- IGV在水平行显示的数据称为tracks。通常,每个tracks代表一个样本或实验。这个例子展示了甲基化、基因表达、拷贝数,LOH和突变数据
- IGV也显示某些特性,比如在tracks中的基因。默认情况下,IGV在一个面板显示数据,在另一个面板显示数据特性。拖放一个track名称,将一个track从一个面板移动到另一个地方
- Track名称列在最左边面板。名字的易读性取决于 tracks的高度,例如,track越小,它的名字的可读性越小
- 属性名称被列在顶部的属性面板。彩色块代表属性值,每个独特的值被都有一个独特的颜色。鼠标放在一个颜色块的附近来查看其属性值
导入参考基因组及注释信息,查看感兴趣基因的结构
通过genome -> Load Genome From Files导入hg19.fa
进一步,File -> Load From Files接着导入gtf文件,需要先sort,才能导入