生物信息学-1-BASIC
pair end
pair end是直接在DNA两端假设接头进行双向测序,插入片段长度较短
Paired-end方法是指在构建待测DNA文库时在“两端”的接头上都加上测序引物结合位点,在第一轮完成后,去除第一轮测序的模板链,用对读测序模块引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量
mate pair
mate pair测序的DNA文库是将很长的DNA进行环化,环化的接口处连接识别序列,然后打断,富集含有识别序列的DNA,再进行双向测序,那么双向测序的插入片段长度就会很长。
Mate-pair文库制备旨在生成一些短的DNA片段,这些片段包含基因组中较大跨度(2-10 kb)片段两端的序列,更具体地说:首先将基因组DNA随机打断到特定大小(2-10 kb范围可选);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600 bp的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成mate-pair文库,然后上机测序(图3)。
一种测序时的大片段Library构建方法。就是先环化,然后再从特定位置切开,再做双端测序。这样可以跨过一些难以拼接的区域,比如重复序列
de novo测序
在不依赖于参考基因组的情况下进行组装,从而绘制该物种的全基因组序列图谱。de novo 是拉丁语从头开始。
DNA mate-pair
(1)定义:首先将基因组DNA随机打断到特定大小(2-20kb);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有链亲和霉素的磁珠将带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库,不需要克隆到细菌中,直接在Illumina测序仪上进行测序。通过大片段文库构建,从而获得基因组中较大跨度(2-20kb)片段两端的序列。
(2)用途:DNA Mate-pair文库制备的整个过程需要5天,这种从较大跨度两端所获得的序列对基因组de novo项目的组装和基因组结构变异发掘具有非常重要的作用。
Q&A
HTML - http://www.novogene.com/index.php?m=content&c=index&a=lists&catid=46
Powerpoint - http://wenku.baidu.com/link?url=JaMz6sFYcZCSMv4mRy7pO7WM2_GfoIT3TeRmp9vVgui52zUd_8hY2rzepXw5aLcrYbl_CEGGa7icrgYM9UYqCtkpHU3lYHMOb6duLMgXbNK
- 什么是Read、Contig、Scaffold、Kmer?
Read:测序读到的碱基序列片段,测序的最小单位;
Contig:由reads通过对overlap区域拼接组装成的没有gap的序列段;
Scaffold:通过pair ends信息确定出的contig排列,中间有gap;
Kmer:长度为k的核苷酸序列,用于构建de brujin图。 - 什么是N50,N70,N90?
答:把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小,N50对评价基因测序的完整性有重要意义;N70和N90的计算方法与N50类似,只是百分数变为70%或90%。 - 普通基因组的解决方案?
SOAPdenovoII进行普通基因组组装。
组装流程
(1)构建不同长度的插入片段文库;
(2)构建de Brujin图;
(3)化简de Brujin图;
(4)构建contigs;
(5)构建scaffolds;
(6)补gaps; - 复杂基因组(二倍体杂合)的解决方案?
答:针对复杂基因组中二倍体杂合基因组,诺禾致源开发了NOVOheter软件,成功实现了二倍体杂合基因组组装。与SOAPdenovo相比,NOVOheter软件组装二倍体杂合基因组的技术创新主要体现在以下几个方面:
(1)通过高深度测序(200-300X)将基因组上的杂合和纯合区域分开;
(2)利用reads信息和PE关系连接杂合位点,延长原始contigs:在杂合部分间距离较短的情况下,利用reads信息将杂合位点连接起来,若杂合部分间距离较长时,利用Pair-End关系连接杂合位点(所以需要加入更多类型的小片段文库,以连接不同距离的杂合位点),从而提高了contigs的长度,为后续组装打下基础(图3);
a:利用深度信息区分杂合部分(覆盖度为n)和纯合部分(覆盖度为2n);
b:若杂合部分的距离较短(如60bp),则可利用reads信息将杂合位点连接起来;
c:若杂合部分的距离较长(如400bp),则利用Pair-End关系,将杂合位点连接起来;
d:得到杂合contigs。
注:图中不同颜色的点表示杂合位点。
(3)分区域构建scaffolds:同样利用contigs深度信息区分纯合contigs和杂合contigs;利用Pair-End关系将纯合contigs,杂合contigs分别组装成scaffolds;最后将相邻的纯合contigs和杂合contigs进行连接,构建更长的scaffolds。 - 如何评价组装结果?
答:常染色体区的覆盖度:评价基因组常染色体区的覆盖度,可以用BAC或者是Fosmid序列来评估;把已公布或者客户提供的BAC或fosmid克隆序列作为Refrence,将拼接完成的基因组序列map回已知的BAC或者fosmid序列上,检查拼接的序列对已知序列的覆盖度到什么水平。
基因区的覆盖度:评价基因区的覆盖度,可以用EST序列或者是转录组序列来评估;把已公布或者客户提供的EST或转录组序列作为query序列map到拼接完成的基因组序列上,检查拼接序列对已知序列的覆盖度是达到什么水平。 - 影响基因组组装的因素?
答:基因组的重复序列和杂合度,是否污染以及基因组的倍性情况。 - 基因组项目的标准生物信息分析的内容?
答:基因组项目的标准生物信息分析的内容如下:
(1)数据处理;
(2)基因组组装:
基因组评估:基因组大小、GC含量、复杂序列、杂合度评;
组装:数据纠错;Contig、Scaffold组装;Gap填充;组装质量分析、评估和结果统计;
(3)基因组注释:重复序列注释;基因预测;基因组功能注释;非编码RNA注释;
(4)比较基因组学分析:
基因家族鉴定;
基因组共线性分析;
全基因组复制分析(动物:WGAC;植物:WGD);
正选择基因的鉴定及功能分析;
基因家族的扩增收缩分析;
系统发育分析;
物种分化时间估计。 - Kmer 分布
简单基因组的Kmer覆盖深度呈现单峰形式,符合泊松分布
高杂合二倍体基因组的杂合平均深度是n,纯合约是2n,因此会有两个峰。
Phrap 算法
建立所有overlap的信息,然后组成一个layout重叠片段互相连接,然后对这个图找Hamilton路(有向带权图)。
Euler 算法
构造de brujin图,然后对这个图找Euler路,其中图的路径是
Shotgun
Shotgun得到reads片段,然后组合而成contigs,连起来称为supercontigs,最后得到结果。
基因组大小
查询植物基因组大小的网站:http://data.kew.org/cvalues/CvalServlet?querytype=2;
查询动物基因组大小的网站:http://www.genomesize.com/search.php。