欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

2020.12.02丨使用dfast工具进行细菌基因组注释

程序员文章站 2022-03-11 18:45:41
...
  • 接到一个项目,需要对一个2代细菌全基因组数据进行组装和注释,网上给到了2个软件,Prokka和dfast。我优先安装下载的Prokka,无奈在环境配置上一直没有处理好,查过一些问题后发现可能需要对perl降低版本到5.22,另一个是对Bioperl的安装配置。弄了两天感觉时间成本比较高,转过来尝试使用dfast,虽然过程中也出现不少问题,但最终还是完成了注释过程。接下来就进行一个梳理。
  • 使用软件:dfast
  • 安装方式:
    • conda安装:conda install -c bioconda dfast
  • 下载后进行解压缩以及环境配置
    • tar -vxf dfast_core-1.2.6.tar.gz
      vi ~/.bashrc

       

    • #在export后面添加dfast路径,:wq保存退出
  • 不进行环境配置,运行的命令路径也比较简单
    • dfast_core-1.2.6/dfast
  • 进入文件夹,在README中可以查看使用说明
    • cd dfast_core-1.2.6
      less README

       

  • 下载注释所需要的参考数据库
    • 默认蛋白数据库
      • dfast_file_downloader.py --protein dfast

         

    • HMMer and RPS-BLAST 数据库
      • dfast_file_downloader.py --cdd Cog --hmm TIGR

         

    • 其他数据库可以通过-h来查阅下载
      • dfast_file_downloader.py -h

         

    • 最关键的来了!!!下面几点决定了你在注释过程中是否能够调用数据库,成功进行注释
      • 下载好的数据库需要注意以下几点:
        • 下载好的.gz格式数据库要解压缩,tar.gz格式解压两次(如Cog LE.tar.gz)
        • Cog数据库解压后需要修改前缀
          • 数据库命名为Cog LE
          • 更改后为Cog #dfast脚本调用命名,或者改脚本也可以
          • 如果没有配置成功会遇到Cannot retrieve path to RPS database的报错
            • 2020.12.02丨使用dfast工具进行细菌基因组注释
        • 解压之后,默认蛋白数据库和HMM数据库都只有一个文件,不着急,后面运行contig文件会自动生成数据库索引
          • 以TIGRFAMs_15.0_HMM.LIB为例,
            • 解压后2020.12.02丨使用dfast工具进行细菌基因组注释
        • 使用dfast_file_downloader.py下载数据库的路径在调用时会报错,可能版本不用原因,下载Cog时的路径为cddsearch,而dfast调用路径为cdd,需要手动修改
          • 红色箭头文件命名需要修改2020.12.02丨使用dfast工具进行细菌基因组注释
          • 这个能够被我发现是因为软件会报错
        • 如果遇到了类似但是不是我说的这种问题,可以去查看软件的运行脚本。
  • 运行test_config.py进行测试
    • dfast --config $DFAST_APP_ROOT/example/test_config.py

       

    • 在没有输入参数--contig的情况下,dfast默认使用dfast/dfc/default_config.py
  • 简单运行dfast的命令
    • dfast -g genome.fna -o output

       

  • 运行成功后的结果文件
    • 如果不是下面这样,而是很多文件夹的情况,说明注释环节中断了2020.12.02丨使用dfast工具进行细菌基因组注释
  •