欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

无参转录组做没有参考基因组的SNP calling(Kissplice)

程序员文章站 2024-03-03 18:07:04
...

几个重要的网站:
kissplice:http://kissplice.prabi.fr/
在线blat:http://genome.ucsc.edu/cgi-bin/hgBlat
SNP calling from RNA-seq data without a reference genome: https://academic.oup.com/nar/article/44/19/e148/2468394
TransDecoder使用的简易教程:https://www.bioinfo-scrounger.com/archives/106/

  1. 安装:建议在conda中安装

    blatsuit:解压就可以用,blat加命令直接调用

    wget http://hgwdev.cse.ucsc.edu/~kent/exe/linux/blatSuite.36.zip
    ./blat
    

    kissplice2refgenome-2.0.0:按照说明书安装

    wget ftp://pbil.univ-lyon1.fr/pub/logiciel/kissplice/tools/kissplice2refgenome-2.0.0.tar.gz
    tar xvzf kissplice2refgenome-1.0.0.tar.gz 
    cd  kissplice2refgenome-1.0.0
    python setup.py install --user
    kissplice2refgenome -h
    

    kissplice2reftranscriptome-1.3.3:按照说明书安装

    wget ftp://pbil.univ-lyon1.fr/pub/logiciel/kissplice/tools/kissplice2reftranscriptome-1.3.3.tar.gz
    tar zxvf kissplice2reftranscriptome.tar.gz
    cd kissplice2reftranscriptome
    python setup.py install --user 
    kissplice2reftranscriptome -h 
    

    kissplice-2.5.3:解压直接调用.py程序(Wrong!!!各种出错)

    wget ftp://pbil.univ-lyon1.fr/pub/logiciel/kissplice/download/kissplice-2.5.3.tar.gz
    

    鄙人debug了一下午,终于发现kissplice只能够通过conda先装2.7再装kissplice再更新kissplice才可以完整跑过。

    conda install -c bioconda python=2
    conda install -c bioconda kissplice
    
  2. 下载说明书

    2.1 wget ftp://pbil.univ-lyon1.fr/pub/logiciel/kissplice/tools/kissplice2refgenome_userguide_1.2.0.pdf

    2.2 wget ftp://pbil.univ-lyon1.fr/pub/logiciel/kissplice/tools/kissplice2reftranscriptome_userguide.pdf

  3. 整理居群材料

    A:对囊厥属 Deparia 个体数:5 编号:RS144、RS150、RS174、RS216、RS227

    B:蹄盖蕨属 Athyrium 个体数:4 编号:RS247、RS255、RS276、URCP

    蹄盖蕨科 (对囊厥属+蹄盖蕨属+ 双盖蕨属 +其他) 个体数5+4+7 编号:RS14、RS169、RS170、RS224、Diplazium (RS262、RS193、UFJN )

    B:乌毛蕨科 Woodwardia/Struthiopteris/Stenochlaena 个体数:6 编号:RS166、RS168、RS178、RS223、RS128、RS97

    A:岩蕨科 Protowoodsia/Woodsia 个体数:3 编号:RS229、RS103、YJJY

    所需数据:组装好的fa文件,质控好的fa双端文件

  4. 运行kissplice

    #sample
    kissplice -r sample_example/virus2.fq -r sample_example/virus1.fq -r sample_example/mock1.fq -r  sample_example/mock2.fq
    #real
    
  5. 运行trinity,组装转录组

    trinity --seqType fq --left reads_1.fq --right reads_2.fq --CPU 6 --max_memory 20G
    
  6. 运行BLAT(原理与blast差不多,就是将kissplice预测出来的SNP位点map到trinity组装好的转录组上,对于我而言,我将一个属当做一个居群,所以一个种BLAT一次,每个样BLAT用的kissplice文件相同,转录组文件不同)

/home/chenss/packages/blatsuite/blat --minIdentity=80 Trinity.fasta kissplice_output_type0_coherent.fa output.psl 

做到这里就已经做完SNP Calling 了,如果不做Function就不用往下了。

  1. TransDecoder寻找ORF
conda install -c bioconda TransDecoder
TransDecoder.LongOrfs -t Trinity.fasta
/home/chenss/packages/TransDecoder-master/TransDecoder.LongOrfs -t Trinity.fasta
  1. 运行kissplice2reftranscriptome
Usage: kissplice2reftranscriptome [-h]
      -b PATH_TO_TRINITY_FILE
      -k PATH_TO_KISSPLICE_FILE
      -t PATH_TO_BLAT_FILE
      [-s PATH_TO_KissDE_FILE]
      [-o PATH_TO_MAIN_OUTPUT_FILE]
      [-l PATH_TO_LOW_QUERY_COVERAGE_OUTPUT_FILE]
      [-m PATH_TO_MERGED_BUBBLES_OUTPUT_FILE]
      [-u PATH_TO_UNTREATED_BUBBLES_OUTPUT_FILE]
      [-Q QC_MIN] [-C KC_MIN] [-K K_VAL]
      [--merge_codon] 

ORF需要输入bed格式所以先利用transdecoder进行格式转换:gff3 - bed

conda install -c bioconda transdecoder
#先利用gff3_file_to_bed.pl 寻找位置
/home/chenss/miniconda3/envs/py/bin/gff3_file_to_bed.pl longest_orfs.gff3 > longest_orfs.bed
#可以打开看看bed文件,去除不必要的注释信息防止以后报错
kissplice2reftranscriptome \
-b ./RS247A.Trinity.fa.transdecoder_dir/longest_orfs.bed \
-k ./results/results_RS247A_RS255A_RS276_k41_coherents_type_0a.fa \
-t ./output.psl \
-o reftrans.tsv
相关标签: 转录组 linux