欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

3d-DNA的使用及juicebox调整挂载到染色体水平 | HiC辅助基因组组装(二)

程序员文章站 2022-03-11 18:45:11
...

定义

之前的文章中有介绍过,HiC常用的几款软件的原理内容。可以点击链接访问了解一下
在这里不做赘述。

软件安装

3d-DNA


$ git clone https://hub.fastgit.org/aidenlab/3d-dna.git
$ cd 3d-dna
$ chmod 755 run-asm-pipeline.sh
$ chmod 755 run-asm-pipeline-post-review.sh

or
#github安装(2021年7月18日-目前的最新版本)
$ wget https://github.com/aidenlab/3d-dna/archive/refs/tags/201008.tar.gz
$ tar zxvf 201008.tar.gz

Juicer

git clone https://github.com/theaidenlab/juicer.git
cd juicer
ln -s CPU scripts
cd scripts/common
wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar

要求环境

LastZ (version 1.03.73 released 20150708) – for diploid mode only
Java version >=1.7
Bash >=4
GNU Awk >=4.0.2
GNU coreutils sort >=8.11

3d-DNA使用

为基因组建索引

bwa index genome.fa

根据基因组构建创建可能的酶切位点文件

$ python /home/lixingze/software/juicer/misc/generate_site_positions.py 
Usage: /home/lixingze/software/juicer/misc/generate_site_positions.py <restriction enzyme> <genome> [location]

eg:
python /home/lixingze/software/juicer/misc/generate_site_positions.py  DpnII genome genome.fa

运行如下命令, 获取每条contig的长度

awk 'BEGIN{OFS="\t"}{print $1, $NF}' genome_DpnII.txt > genome.chrom.sizes

运行juicer

bash /home/lixingze/software/juicer/scripts/juicer.sh  -d /home/lixingze/data/HiC/05.3d-DNA-3cell/hic -D /home/lixingze/software/juicer/ -z ./genome.fa -y ./genome_DpnII.txt -p ./genome.chrom.sizes -s DpnII -t 70

运行3d-dna

nohup bash /home/lixingze/software/3d-dna/run-asm-pipeline.sh -r 2 genome.fa /home/lixingze/data/HiC/05.3d-DNA-3cell/hic/aligned/merged_nodups.txt &> 3d.log &

推荐使用 genome.0.hic文件以及 genome.0.assembly文件进行后续操作

juicebox调整3d-DNA输出的结果

  1. aidenlab提供了在线的juicebox
    http://aidenlab.org/juicebox/

  2. 本地juicebox下载(使用2)
    https://github.com/aidenlab/juicebox/wiki/Download

网上有相关操作视频

调整完成之后将其保存为genome.review.assembly
如果是未发表的基因组,建议将染色体从大到小进行排列。

再次运行3d-DNA

nohup ~/software/3d-dna/run-asm-pipeline-post-review.sh -r genome.rawchrom.assembly genome.fa hic/aligned/merged_nodups.txt &> 3d.log 

得出最终的染色体水平文件 genome.FINAL.fasta

提升最后一步的速度

因为run-asm-pipeline-post-review.sh原始的速度太慢了。所以建议去修改一下源文件内容,大大提升最后一步的速度,可以参考链接