欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

2021-05-12

程序员文章站 2022-03-11 18:41:17
...

宏基因组分析流程--Step1检查原始数据质量

详细内容见 微信公众号 【阿呆ForFun

https://mp.weixin.qq.com/s/SrmgNw-R5Zh2x_iHtWo6PQ

涉及到的内容太多,所以阿呆这里每天整理一点,成一个小系列。后期有改进的地方会及时更新~

 

Step1: Fastqc 检查原始数据质量

Step2: Trimmomatic 去掉接头(adapter)序列和低质量序列,得到clean data

Step3: Fastqc 检查clean data质量,得到数据质量统计表

同Step1

Step4: 去掉宿主序列(如人的序列,大鼠的序列等)

Step5: MetaPhIAn2 分析微生物群落丰度信息

Step6: HUMAnN2 分析微生物代谢途径和功能模块信息

Step7: LEfSe 分析进行多组间差异分析

 

 

Step1: Fastqc 检查原始数据质量

(1)FastQC 质控软件的下载

FastQC的下载地址:http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc

linux命令:

nohup wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip 1>fastqc.o 2>fastqc.e

得到压缩包:fastqc_v0.11.5.zip

解压:unzip fastqc_v0.11.5.zip

进入FastQC

查看help文档:fastqc -h

增加可执行权限:chmod 754 fastqc

无需编译,直接运行

运行命令:fastqc -f fastq -o result/ clean_r1.fq clean_r2.fq

 

(2)FastQC 使用方法

用法:

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

参数:

-o 输出目录,需自己创建目录

--(no)extract 是否解压输出文件,默认是自动解压缩zip文件。加上--noextract不解压文件。

-f 指定输入文件的类型,支持fastq|bam|sam三种格式的文件,默认自动识别。

-t 同时处理的文件数目。

-c 是contaminant 文件,会从中搜索overpresent 序列。

 

(2)FastQC 更新

https://launchpad.net/ubuntu/+source/fastqc (可以去这个网站看fastQC在ubuntu上的最新版本以及以往发布的版本,界面如下)

fastqc -version(查看你的fastqc版本)

更新到最新的版本一般可以解决以下两种比较常见的报错问题:

Too many tiles (>500) so giving up trying to do per-tile qualities since we're probably parsing the file wronglyuk.ac.babraham.FastQC.Sequence.SequenceFormatException: Midline'CTCCTCCCAGCTGGGCTGACEGEH?CEFG<[email protected]@ACE<[email protected]:[email protected]:140.431' didn't start with '+'

(3)MultiQC, 整合QC质控结果

先将所有的数据进行质控,得到zip的压缩文件(*_fastqc.zip)和html文件(don’t need slurm)

fastqc -o /data/QC -t 6 *.fastq.gz  

然后利用multiqc整合分析fastqc质控文件

multiqc  /data/*_fastqc.zip

余下内容下期奉上~

 

参考:

1. https://blog.csdn.net/niuhuihui_fei/article/details/72961561

相关标签: 宏基因组

推荐阅读