欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

使用SPAdes测序数据拼接软件拼装基因组

程序员文章站 2024-03-01 23:52:58
...

简介

SPAdes 是由俄罗斯科学院 St. Petersburg Academic University 与美国科学家合作开发的主要应用于小型基因组如细菌,真菌等基因组测序数据的拼接软件。目前的最新版本 v3.6.2 可以支持常见的 illumina miseq/hiseq 和 ion torrent 测序数据,对单分子测序平台的 pacbio 和 nanopore 的测序数据也能进行拼装,还能进行混合数据的拼装。在 GAGE-B 的测拼里,在 Miseq 平台上的结果获得了最好的评价。

准备

下载测试数据

curl -O ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/ERR/ERR571/ERR571271/ERR571271.sra

将 sra 文件转换成 fastq 文件

为了将sra文件转换成fastq格式,我们需要使用 fastq-dump 工具,这个工具被打包在 sratoolkit 工具包中。

sratoolkit 工具包下载地址

https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

Linux环境可以执行选择下面地址直接下载并解压安装

# CentOS
wget -c https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz
# Ubuntu
wget -c https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz

tar zxvf sratoolkit.2.9.2-centos_linux64.tar.gz

将 sra 文件转换成 fastq 文件

./sratoolkit.2.9.2-centos_linux64/bin/fastq-dump --split-files ERR571271.sra

解压后产生 ERR571271_1.fastq 和 ERR571271_2.fastq 文件。

下载 Docker 镜像

为了测试方便,这里没有从源码进行编译,而是直接使用的 Docker 容器来做测试。

为了从 quay.io 获取 spades 镜像,需要先注册一个账号,注册比较简单,就是填个表格就行了。

sudo docker login quay.io

sudo docker pull quay.io/quay.io/biocontainers/spades:3.12.0--1

运行 Docker 容器

在上面下载的数据文件同级目录下运行下面命令来启动一个容器,且后续的测试命令都需要在此容器里运行。

# 启动一个容器
sudo docker run -it --rm -v `pwd`:/spades quay.io/biocontainers/spades:3.12.0--1 bash

# 运行一下测试
spades.py --test

拼装基因组

# 在容器中运行
cd /spades
spades.py -m 32 -t 16 -1 ERR571271_1.fastq -2 ERR571271_2.fastq -o output

其中可以根据机器配置情况使用 -m 来调节内存,使用 -t 调节线程数。