2021-05-12
宏基因组分析流程--Step1检查原始数据质量
详细内容见 微信公众号 【阿呆ForFun】
https://mp.weixin.qq.com/s/SrmgNw-R5Zh2x_iHtWo6PQ
涉及到的内容太多,所以阿呆这里每天整理一点,成一个小系列。后期有改进的地方会及时更新~
Step1: Fastqc 检查原始数据质量
Step2: Trimmomatic 去掉接头(adapter)序列和低质量序列,得到clean data
Step3: Fastqc 检查clean data质量,得到数据质量统计表
同Step1
Step4: 去掉宿主序列(如人的序列,大鼠的序列等)
Step5: MetaPhIAn2 分析微生物群落丰度信息
Step6: HUMAnN2 分析微生物代谢途径和功能模块信息
Step7: LEfSe 分析进行多组间差异分析
Step1: Fastqc 检查原始数据质量
(1)FastQC 质控软件的下载
FastQC的下载地址:http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc
linux命令:
nohup wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip 1>fastqc.o 2>fastqc.e
得到压缩包:fastqc_v0.11.5.zip
解压:unzip fastqc_v0.11.5.zip
进入FastQC
查看help文档:fastqc -h
增加可执行权限:chmod 754 fastqc
无需编译,直接运行
运行命令:fastqc -f fastq -o result/ clean_r1.fq clean_r2.fq
(2)FastQC 使用方法
用法:
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
参数:
-o 输出目录,需自己创建目录
--(no)extract 是否解压输出文件,默认是自动解压缩zip文件。加上--noextract不解压文件。
-f 指定输入文件的类型,支持fastq|bam|sam三种格式的文件,默认自动识别。
-t 同时处理的文件数目。
-c 是contaminant 文件,会从中搜索overpresent 序列。
(2)FastQC 更新
https://launchpad.net/ubuntu/+source/fastqc (可以去这个网站看fastQC在ubuntu上的最新版本以及以往发布的版本,界面如下)
fastqc -version(查看你的fastqc版本)
更新到最新的版本一般可以解决以下两种比较常见的报错问题:
Too many tiles (>500) so giving up trying to do per-tile qualities since we're probably parsing the file wrongly
uk.ac.babraham.FastQC.Sequence.SequenceFormatException: Midline'CTCCTCCCAGCTGGGCTGACEGEH?CEFG<[email protected]@ACE<[email protected]:[email protected]:140.431' didn't start with '+'
(3)MultiQC, 整合QC质控结果
先将所有的数据进行质控,得到zip的压缩文件(*_fastqc.zip)和html文件(don’t need slurm)
fastqc -o /data/QC -t 6 *.fastq.gz
然后利用multiqc整合分析fastqc质控文件
multiqc /data/*_fastqc.zip
余下内容下期奉上~
参考:
1. https://blog.csdn.net/niuhuihui_fei/article/details/72961561
上一篇: PHP变量中加CSS代码。解决方法
下一篇: mysql列转行(列值不确定
推荐阅读