2020.12.02丨使用dfast工具进行细菌基因组注释
程序员文章站
2022-03-11 18:45:41
...
- 接到一个项目,需要对一个2代细菌全基因组数据进行组装和注释,网上给到了2个软件,Prokka和dfast。我优先安装下载的Prokka,无奈在环境配置上一直没有处理好,查过一些问题后发现可能需要对perl降低版本到5.22,另一个是对Bioperl的安装配置。弄了两天感觉时间成本比较高,转过来尝试使用dfast,虽然过程中也出现不少问题,但最终还是完成了注释过程。接下来就进行一个梳理。
- 使用软件:dfast
- 安装方式:
- conda安装:conda install -c bioconda dfast
- 下载后进行解压缩以及环境配置
-
tar -vxf dfast_core-1.2.6.tar.gz vi ~/.bashrc
- #在export后面添加dfast路径,:wq保存退出
-
- 不进行环境配置,运行的命令路径也比较简单
- dfast_core-1.2.6/dfast
- 进入文件夹,在README中可以查看使用说明
-
cd dfast_core-1.2.6 less README
-
- 下载注释所需要的参考数据库
- 默认蛋白数据库
-
dfast_file_downloader.py --protein dfast
-
- HMMer and RPS-BLAST 数据库
-
dfast_file_downloader.py --cdd Cog --hmm TIGR
-
- 其他数据库可以通过-h来查阅下载
-
dfast_file_downloader.py -h
-
- 通过官方脚本下载速度比较慢,可以通过提供链接直接打开浏览器下载
- 默认蛋白数据库:DFAST-core (nig.ac.jp)
- HMMer and RPS-BLAST 数据库:Index of /pub/mmdb/cdd/little_endian (nih.gov)
- dfast支持多种数据库注释,这在dfast_file_downloader.py -h中可以查阅
- 最关键的来了!!!下面几点决定了你在注释过程中是否能够调用数据库,成功进行注释
- 下载好的数据库需要注意以下几点:
- 下载好的.gz格式数据库要解压缩,tar.gz格式解压两次(如Cog LE.tar.gz)
- Cog数据库解压后需要修改前缀
- 数据库命名为Cog LE
- 更改后为Cog #dfast脚本调用命名,或者改脚本也可以
- 如果没有配置成功会遇到Cannot retrieve path to RPS database的报错
- 解压之后,默认蛋白数据库和HMM数据库都只有一个文件,不着急,后面运行contig文件会自动生成数据库索引
- 以TIGRFAMs_15.0_HMM.LIB为例,
- 解压后
- 运行test_config.py后
- 以TIGRFAMs_15.0_HMM.LIB为例,
- 使用dfast_file_downloader.py下载数据库的路径在调用时会报错,可能版本不用原因,下载Cog时的路径为cddsearch,而dfast调用路径为cdd,需要手动修改
- 红色箭头文件命名需要修改
- 这个能够被我发现是因为软件会报错
- 如果遇到了类似但是不是我说的这种问题,可以去查看软件的运行脚本。
- 下载好的数据库需要注意以下几点:
- 默认蛋白数据库
- 运行test_config.py进行测试
-
dfast --config $DFAST_APP_ROOT/example/test_config.py
- 在没有输入参数--contig的情况下,dfast默认使用dfast/dfc/default_config.py
-
- 简单运行dfast的命令
-
dfast -g genome.fna -o output
-
- 运行成功后的结果文件
- 如果不是下面这样,而是很多文件夹的情况,说明注释环节中断了