#step by step# Linux command line and explanation for NGS data

程序员文章站 2022-05-18 09:28:38

...

参考http://userweb.eng.gla.ac.uk/umer.ijaz/bioinformatics/linux.html

http://blog.csdn.net/lixiangyong123/article/details/52062323

http://blog.csdn.net/lixiangyong123/article/details/51816747

http://blog.csdn.net/SHMILYRINGPULL/article/details/9225195

处理NGS数据的命令及解释，图文笔记。

1送样得到数据

送样到测序公司，NGS测序下机得到的数据是fastq格式的raw data，通常测序公司在将数据返回给客户之前会做“clean”处理，即得到clean_data；不管有没有clean，最好都进行质量控制；（公司返回的数据单向测序是一个fastq.gz格式压缩文件，双向测序是两个fastq.gz格式压缩文件）

2质量控制

2.1质量检测

软件：FastQC

perl .../FastQC/fastqc -o qc --noextract -f fastq  Sample_1.fastq.gz Sample_2.fastq.gz

-o qc 输出结果到文件夹qc（文件夹qc需要事先创建）；

--noextract 默认是把输出结果自动解压缩，命令里加上--noextract则不解压缩，输出结果为*.zip文件；
或者简单些，不加参数直接用：

fastqc Sample_1.fastq.gz Sample_2.fastq.gz

检测完毕后会得到测序结果报告*.html文件，（上面*.zip压缩包里面就是.html里面的图片，没啥用），打开*.html文件；

#step by step# Linux command line and explanation for NGS data

有红色X的选项表示质量检测不过关的选项，是质量控制的关键；

比如上图中的Per base sequence content，代表要trim掉前15bp；

#step by step# Linux command line and explanation for NGS data

如Adapter Content，需要去接头；

2.2 Quality Control(QC)质量控制(reads的质量控制)

cite：http://blog.csdn.net/SHMILYRINGPULL/article/details/9225195

Quality Control，即过滤低质量reads,低质量的reads有如下几种：

含有Primer/Adaptor的reads
含有过多non-ATCG碱基N的reads
测序质量较低的碱基数占的比例过高的reads

软件：NGSQC toolkit （官网：http://www.nipgr.res.in/ngsqctoolkit.html；citation：http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0030619）

该软件解压缩后包括4个文件夹（QC Tools、Trimming Tools、Statistics Tools、Format-converter Tools）和1个PDF格式的manual文件。manual文件是详细的说明；4个文件夹中都是使用perl编写的用于QC的程序。按其重要程度决定先后，其介绍如下：

QC Tools文件夹

QC Tools文件夹中包含了5个perl程序：IlluQC.pl、IlluQC_PRLL.pl（用于ILLUMINA平台下机reads的QC）和454QC.pl、454QC_PRLL.pl （用于454平台下机reads的QC）和454QC_PE.pl （用于454平台paired-end测序下机reads的QC）；其中IlluQC_PRLL.pl、454QC_PRLL.pl与IlluQC.pl、454QC.pl相比没有多大区别，只是多了 ‘-c’ 参数来进行并行计算，增加程序速度，可优先选择。

默认情况下去除掉含有primer/adaptor的reads和低质量的reads，并给出统计结果和6种图形结果。

perl .../NGSQCToolkit_v2.3.3/QC/IlluQC_PRLL.pl -pe .../Sample_1.fastq Sample_2.fastq 2 5 -c 4 -p 8 -l 70 -s 20 -o output

5 根据测序机器1.8版本以后的都选5 ；
-c 8 选用8个的cpu，越多越快；
-l 70 -s 20 去除了数据中碱基质量低于20（q20）的为低质量碱基； ( ‘-l’ 参数)低质量碱基在reads中比例 >30% 的为低质量reads；
-o 选着输出的文件夹

上一篇： Docker_入门

下一篇： quicksort