2021-05-12

程序员文章站 2022-03-11 18:41:17

...

宏基因组分析流程--Step1检查原始数据质量

详细内容见微信公众号【阿呆ForFun】

https://mp.weixin.qq.com/s/SrmgNw-R5Zh2x_iHtWo6PQ

涉及到的内容太多，所以阿呆这里每天整理一点，成一个小系列。后期有改进的地方会及时更新~

Step1: Fastqc 检查原始数据质量

Step2: Trimmomatic 去掉接头（adapter）序列和低质量序列，得到clean data

Step3: Fastqc 检查clean data质量，得到数据质量统计表

同Step1

Step4: 去掉宿主序列（如人的序列，大鼠的序列等）

Step5: MetaPhIAn2 分析微生物群落丰度信息

Step6: HUMAnN2 分析微生物代谢途径和功能模块信息

Step7: LEfSe 分析进行多组间差异分析

Step1: Fastqc 检查原始数据质量

（1）FastQC 质控软件的下载

FastQC的下载地址：http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc

linux命令：

nohup wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip 1>fastqc.o 2>fastqc.e

得到压缩包：fastqc_v0.11.5.zip

解压：unzip fastqc_v0.11.5.zip

进入FastQC

查看help文档：fastqc -h

增加可执行权限：chmod 754 fastqc

无需编译，直接运行

运行命令：fastqc -f fastq -o result/ clean_r1.fq clean_r2.fq

（2）FastQC 使用方法

用法：

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

参数：

--(no)extract 是否解压输出文件，默认是自动解压缩zip文件。加上--noextract不解压文件。

-f 指定输入文件的类型，支持fastq|bam|sam三种格式的文件，默认自动识别。

-t 同时处理的文件数目。

-c 是contaminant 文件，会从中搜索overpresent 序列。

（2）FastQC 更新

https://launchpad.net/ubuntu/+source/fastqc (可以去这个网站看fastQC在ubuntu上的最新版本以及以往发布的版本，界面如下）

fastqc -version(查看你的fastqc版本）

更新到最新的版本一般可以解决以下两种比较常见的报错问题：

Too many tiles (>500) so giving up trying to do per-tile qualities since we're probably parsing the file wronglyuk.ac.babraham.FastQC.Sequence.SequenceFormatException: Midline'CTCCTCCCAGCTGGGCTGACEGEH?CEFG<[email protected]@ACE<[email protected]:[email protected]:140.431' didn't start with '+'

（3）MultiQC, 整合QC质控结果

先将所有的数据进行质控，得到zip的压缩文件（*_fastqc.zip）和html文件(don’t need slurm)

fastqc -o /data/QC -t 6 *.fastq.gz

然后利用multiqc整合分析fastqc质控文件

multiqc  /data/*_fastqc.zip

余下内容下期奉上~

参考：

1. https://blog.csdn.net/niuhuihui_fei/article/details/72961561