欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

生信学习笔记:用gmap将dna的片段mapping到基因组上

程序员文章站 2022-03-11 18:58:40
...

gmap是一款可以用于将DNA片段mapping到基因组上的软件,相对于bowie和bwa有其优点,同学们可以比较下。

1. 下载gmap:

http://research-pub.gene.com/gmap/

从上面的下载地址中下载最新版,如果要下载比较旧的版本,可以选择“Previously released versions”,本人选择的是gmap-gsnap-2019-06-10.tar.gz,系统是centos7。

# 下载
$ wget http://research-pub.gene.com/gmap/src/gmap-gsnap-2019-06-10.tar.gz
# 解压
$ tar xvf gmap-gsnap-2019-06-10.tar.gz

2. 安装gmap

centos的软件安装都大同小异。这里需要注意的是gmap是可以提前设置一些参数的(序列索引的位置和软件的主要工具安装的位置),有两种方法设置:

方法一:

直接编辑解压后文件夹中的config.site,在这个文件中找到下面两个参数,并在后面修改之或添加之,如果没有找到,确定是否下载完整:

– prefix: binaries will install into prefix/bin 软件的主要工具安装的位置
– with_gmapdb: location of genome directory 参考序列索引的位置

方法二:

直接在安装步骤第一步configure进行如下操作

./configure --prefix=/your/usr/local/path --with-gmapdb=/path/to/gmapdb
# 两个参数的具体意思参照第一个方法

然后就可以开始安装了。

./configure
# 如果是使用方法二,记得加上--prefix等参数
make
make check 
# 这个make check是可选的
make install

3. 建立参考序列的索引

安装成功后,就可以正式开始使用了,首先要建立参考序列的索引,下面提供几种方法:

方法一:

直接利用官网中的索引,把索引压缩包解压到gmapdb(就是上一步中提到的建立索引的文件夹),大约5.5G,但是这个索引的压缩包很多版本都不适用,所以不建议(事实上,本人也试过,没用)。

这里附上下载地址:http://research-pub.gene.com/gmap/genomes/hg19.tar.gz

方法二:

自己找参考序列。官网中提到了两个参考序列,是给大家建立索引用。

一个是hg19序列,大约900M,UCSC hg19/GRCh37:ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

一个GRCh37,大约800M,Ensembl GRCh37:ftp://ftp.ensembl.org/pub/release-75/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz

这里我选的是第二个来建立。

$ gmap_build -d my_homo1 rawdata/refer/Homo_sapiens.GRCh37.75.dna.primary_assembly.fa
# Homo_sapiens.GRCh37.75.dna.primary_assembly.fa记得解压

gmap用gmap_build来建立索引,下面解释一下参数:

-d <genome_name> [genome_fasta]

这个参数是用来将genome_fasta文件(fasta格式)建立索引名为genome_name的参考序列索引,另外,还有一个-D参数,是设置将这个索引建立在那个文件夹,这个genome_name自己取一个名字就可以。

4. mapping

建立好索引后,就可以开始mapping了,首先准备好要mapping的fasta文件。我是到Ensembl 上找到hg19的fasta文件导出的,导出了从5'到3'的0-1000bp的fasta文件。

$ gmap -t 5 -D gmapdb -d my_homo1 -f gff3_gene rawdata/fa/hg19_1000.fa > mapping_dir_tst/mapping_homo_hg19_1000.gff3

使用的是gmap格式,输出的是gtt3格式,这里解释一下参数:

-t 表示使用多少条线程进行计算,线程越多表示用于这个指令的资源越多,主要自己的服务器的总线程数,不要跑崩。这个不设置也可以,默认是1

-D 参考序列索引的位置

-d 参考序列索引的名字+需要mapping的fasta的文件,和上一个步骤的-d参数一样

-f 输出格式,gmap支持很多格式输出,这里我们输出的gff3格式(用gff3_gene),同学们可以根据自己的喜好输出其他格式。

如果不设置输出格式也不设置输出位置,它就只会把结果print在控制台上。至此,mapping完成,同学们可以根据自己的结果考虑要不要重现调整参数进行mapping,或者进入下一步分析。

生信菜鸟,如果有什么说得不对,请多多批评指正。

参考:

如何使用GMAP/GSNAP进行转录组序列比对 https://www.jianshu.com/p/3f331861c364

gmap的官方说明书和下载地址:http://research-pub.gene.com/gmap/

【直播】我的基因组(十一):测序数据的比对:http://www.bio-info-trainee.com/2112.html

用 GMAP/GSNAP软件进行RNA-seq的alignment:https://www.plob.org/article/9749.html