soapdenovo2进行基因组组装

程序员文章站 2024-03-02 08:35:46

...

欢迎关注"生信修炼手册"！

基因组的的大小，杂合程度等因素都影响基因组组装的难易程度，目前市场上主流的有以下两种产品

细菌/真菌基因组相对较小，组装难度较低；动植物基因组很大，而且杂合度很高，特别是多倍体植物，这对于测序和分析都是很大的挑战。

对于测序而言，随着三代测序价格降低，对于小型基因组组装，可以直接进行三代测序；对于大型基因组组装，会结合二代和三代测序的数据；除了单纯测序组装外，还出现了Hi-C辅助基因组组装，光学图谱辅助基因组组装等产品。

对于分析而言，pacbio公司整合了许多的组装软件，专门针对三代测序数据进行组装；对于二代测序平台的数据，有很多开源软件可供选择，主流的包括以下几种

soapdenovo是由华大开发的组装工具，主要用于动植物基因组等大型基因组的组装，也可以用于细菌/真菌基因组组装。对于大型基因组装而言，需要的硬件资源特别多，建议内存在150G以上。

该软件目前版本为soapdenovo2, github链接如下

https://github.com/aquaskyline/SOAPdenovo2

安装过程如下

wget https://github.com/aquaskyline/SOAPdenovo2/archive/r241.tar.gz
tar xzvf r241.tar.gz
cd SOAPdenovo2-r241/
make

编译成功后，会生成如下3个可执行文件

前2个可执行文件用于组装, 63mer代表支持的kmer最大长度为63，127mer代表支持的kmer最大长度为127，除了支持的kmer长度不同外，其他用法完全
相同。

SOAPdenovo由以下几个子命令构成

前5个子命令对应了soapdenovo组装的5个步骤，all命令表示一次执行以上的5个步骤；在组装时，既可以依次执行每一个步骤，也可以直接使用all命令，一次运行所有步骤。

soapdenovo需要一个配置文件，配置文件分成两个部分，全局配置和每个文库的配置。全局配置目前只有一个参数max_rd_len, 如果序列大于该长度，会被切成该长度，然后在分析。

每个文库的配置以[LIB]开头，主要指定输入文件的路径，支持多种格式的输入文件，用不同的前缀表示， q代表输入序列为fastq格式；f代笔输入序列为fasta格式，b代表输入文件为bam格式，对于双端数据，分别用后缀1和2表示R1端和R2端的reads。

除了输入文件路径外，还包含以下几个参数的设置

avg_ins
文库插入片段的平均长度，在实际设置时，可以参考文库size分布图，取峰值即可
reverse_seq
是否需要将序列反向互补，对于pair-end数据，不需要反向互补，设置为0；对于mate-pair数据，需要反向互补，设置为1
asm_flags
1表示只组装contig. 2表示只组装scaffold,3表示同时组装contig和scaffold,4表示只补gap
rd_len_cutof
序列长度阈值，作用和max_rd_len相同，大于该长度的序列会被切除到该长度
rank
设置不同文库数据的优先级顺序，取值范围为整数，rank值相同的多个文库，在组装scaffold时，会同时使用。
pair_num_cutoff
contig或者scaffold之前的最小overlap个数，对于pair-end数据，默认值为3；对于mate-paird数据，默认值为5
map_len
比对长度的最小阈值，对于pair-end数据，默认值为32；对于mate-pair数据，默认值为35

配置文件示例如下

max_rd_len=100
[LIB]
avg_ins=200
reverse_seq=0
asm_flags=3
rd_len_cutoff=100
rank=1
q1=fastq1_read_1.fq
q2=fastq1_read_2.fq

软件基本用法如下

SOAPdenovo-63mer all -s config_file -K 63 -R -o graph_prefix

运行成功后，会生成很多文件，其中有两个文件是组装的结果，后缀分别为contig和scafSeq，对应contig和scaffold。

更多的参数和用法请参考官方帮助文档。

扫描关注微信号，更多精彩内容等着你！

spades基因组组装软件简介