欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

#step by step# Linux command line and explanation for NGS data

程序员文章站 2022-05-18 09:28:38
...

参考http://userweb.eng.gla.ac.uk/umer.ijaz/bioinformatics/linux.html

http://blog.csdn.net/lixiangyong123/article/details/52062323

http://blog.csdn.net/lixiangyong123/article/details/51816747

http://blog.csdn.net/SHMILYRINGPULL/article/details/9225195

​处理NGS数据的命令及解释,图文笔记。

1送样得到数据

送样到测序公司,NGS测序下机得到的数据是fastq格式的raw data,通常测序公司在将数据返回给客户之前会做“clean”处理,即得到clean_data;不管有没有clean,最好都进行质量控制;(公司返回的数据 单向测序是一个fastq.gz格式压缩文件,双向测序是两个fastq.gz格式压缩文件)

2质量控制

2.1质量检测

软件:FastQC

perl .../FastQC/fastqc -o qc --noextract -f fastq  Sample_1.fastq.gz Sample_2.fastq.gz
-o qc 输出结果到文件夹qc(文件夹qc需要事先创建);

--noextract 默认是把输出结果自动解压缩,命令里加上--noextract则不解压缩,输出结果为*.zip文件;
或者简单些,不加参数直接用:

fastqc Sample_1.fastq.gz Sample_2.fastq.gz
检测完毕后会得到测序结果报告*.html文件,(上面*.zip压缩包里面就是.html里面的图片,没啥用),打开*.html文件;

#step by step# Linux command line and explanation for NGS data

有红色X的选项表示质量检测不过关的选项,是质量控制的关键;

比如上图中的Per base sequence content,代表要trim掉前15bp;

#step by step# Linux command line and explanation for NGS data

如Adapter Content,需要去接头;

#step by step# Linux command line and explanation for NGS data

2.2 Quality Control(QC)质量控制(reads的质量控制)

cite:http://blog.csdn.net/SHMILYRINGPULL/article/details/9225195

Quality Control,即过滤低质量reads,低质量的reads有如下几种:

  • 含有Primer/Adaptor的reads
  • 含有过多non-ATCG碱基N的reads
  • 测序质量较低的碱基数占的比例过高的reads

软件:NGSQC toolkit (官网:http://www.nipgr.res.in/ngsqctoolkit.html;citation:http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0030619)

该软件解压缩后包括4个文件夹(QC Tools、Trimming Tools、Statistics Tools、Format-converter Tools)和1个PDF格式的manual文件。manual文件是详细的说明;4个文件夹中都是使用perl编写的用于QC的程序。按其重要程度决定先后,其介绍如下:

QC Tools文件夹

QC Tools文件夹中包含了5个perl程序:IlluQC.pl、IlluQC_PRLL.pl(用于ILLUMINA平台下机reads的QC)和454QC.pl、454QC_PRLL.pl 用于454平台下机reads的QC)和454QC_PE.pl (用于454平台paired-end测序下机reads的QC);其中IlluQC_PRLL.pl、454QC_PRLL.pl与IlluQC.pl、454QC.pl相比没有多大区别,只是多了 ‘-c’ 参数来进行并行计算,增加程序速度,可优先选择。

默认情况下去除掉含有primer/adaptor的reads和低质量的reads,并给出统计结果和6种图形结果。

perl .../NGSQCToolkit_v2.3.3/QC/IlluQC_PRLL.pl -pe .../Sample_1.fastq Sample_2.fastq 2 5 -c 4 -p 8 -l 70 -s 20 -o output 

5       根据测序机器1.8版本以后的都选5  ;
-c 8  选用8个的cpu,越多越快;  
-l 70  -s 20 去除了数据中碱基质量低于20(q20)的为低质量碱基; ( ‘-l’ 参数)低质量碱基在reads中比例 >30% 的为低质量reads;
-o 选着输出的文件夹

上一篇: Docker_入门

下一篇: quicksort