#step by step# Linux command line and explanation for NGS data
参考http://userweb.eng.gla.ac.uk/umer.ijaz/bioinformatics/linux.html
http://blog.csdn.net/lixiangyong123/article/details/52062323
http://blog.csdn.net/lixiangyong123/article/details/51816747
http://blog.csdn.net/SHMILYRINGPULL/article/details/9225195
处理NGS数据的命令及解释,图文笔记。
1送样得到数据
送样到测序公司,NGS测序下机得到的数据是fastq格式的raw data,通常测序公司在将数据返回给客户之前会做“clean”处理,即得到clean_data;不管有没有clean,最好都进行质量控制;(公司返回的数据 单向测序是一个fastq.gz格式压缩文件,双向测序是两个fastq.gz格式压缩文件)
2质量控制
2.1质量检测
软件:FastQC
perl .../FastQC/fastqc -o qc --noextract -f fastq Sample_1.fastq.gz Sample_2.fastq.gz
-o qc 输出结果到文件夹qc(文件夹qc需要事先创建);
--noextract 默认是把输出结果自动解压缩,命令里加上--noextract则不解压缩,输出结果为*.zip文件;
或者简单些,不加参数直接用:
fastqc Sample_1.fastq.gz Sample_2.fastq.gz
检测完毕后会得到测序结果报告*.html文件,(上面*.zip压缩包里面就是.html里面的图片,没啥用),打开*.html文件;
有红色X的选项表示质量检测不过关的选项,是质量控制的关键;
比如上图中的Per base sequence content,代表要trim掉前15bp;
如Adapter Content,需要去接头;
2.2 Quality Control(QC)质量控制(reads的质量控制)
cite:http://blog.csdn.net/SHMILYRINGPULL/article/details/9225195
Quality Control,即过滤低质量reads,低质量的reads有如下几种:
- 含有Primer/Adaptor的reads
- 含有过多non-ATCG碱基N的reads
- 测序质量较低的碱基数占的比例过高的reads
软件:NGSQC toolkit (官网:http://www.nipgr.res.in/ngsqctoolkit.html;citation:http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0030619)
该软件解压缩后包括4个文件夹(QC Tools、Trimming Tools、Statistics Tools、Format-converter Tools)和1个PDF格式的manual文件。manual文件是详细的说明;4个文件夹中都是使用perl编写的用于QC的程序。按其重要程度决定先后,其介绍如下:
QC Tools文件夹
QC Tools文件夹中包含了5个perl程序:IlluQC.pl、IlluQC_PRLL.pl(用于ILLUMINA平台下机reads的QC)和454QC.pl、454QC_PRLL.pl (用于454平台下机reads的QC)和454QC_PE.pl (用于454平台paired-end测序下机reads的QC);其中IlluQC_PRLL.pl、454QC_PRLL.pl与IlluQC.pl、454QC.pl相比没有多大区别,只是多了 ‘-c’ 参数来进行并行计算,增加程序速度,可优先选择。
默认情况下去除掉含有primer/adaptor的reads和低质量的reads,并给出统计结果和6种图形结果。
perl .../NGSQCToolkit_v2.3.3/QC/IlluQC_PRLL.pl -pe .../Sample_1.fastq Sample_2.fastq 2 5 -c 4 -p 8 -l 70 -s 20 -o output
5 根据测序机器1.8版本以后的都选5 ;
-c 8 选用8个的cpu,越多越快;
-l 70 -s 20 去除了数据中碱基质量低于20(q20)的为低质量碱基; ( ‘-l’ 参数)低质量碱基在reads中比例 >30% 的为低质量reads;
-o 选着输出的文件夹