欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

扩增子聚类之术语“ seed ”

程序员文章站 2022-06-16 18:41:28
前面的swarm聚类文章中讲到过,“ seed ” 是 de novo 思想的算法在聚类时,选择的第一个作为质心或起点的高丰度扩增子,它通常作为 cluster 的代表序列参与物种注释等其它分析。从计算机角度来看:算法的开始,创建一个初始为空的数据库,并在处理输入序列扩展数据库。对于每一个 cluster , 数据库只精确地包含一个代表性序列。在UCLUST中,“ seed 序列 ” 这个术语不再使用,为了避免与 BLAST 和 UBLAST 等算法中的对齐种子(即:查询序列与参考序列比对上的匹配词...

前面的swarm聚类文章中讲到过,“ seed ” 是 de novo 思想的算法在聚类时,选择的第一个作为质心或起点的高丰度扩增子,它通常作为 cluster 的代表序列参与物种注释等其它分析。

从计算机角度来看:算法的开始,创建一个初始为空的数据库,并在处理输入序列扩展数据库。对于每一个 cluster , 数据库只精确地包含一个代表性序列。

在UCLUST中,“ seed 序列 ” 这个术语不再使用,为了避免与 BLAST 和 UBLAST 等算法中的对齐种子(即:查询序列与参考序列比对上的匹配词)混淆。作为替代,称质心为“ 代表序列 ”。

 

在这里用UBLAST举例来说:

UBLAST是 Edgar 开发的 USEARCH 包中的一个工具。

UBLAST最常用于蛋白质或翻译搜索,低相似度的序列比对就可以提供信息。UBLAST也支持核苷酸搜索,但USEARCH通常更合适,因为核苷酸同源性只有在序列之间具有高相似度时才能检测到。

因此,UBLAST被设计为对较远的( more distant)序列关系敏感,USEARCH对于这些序列而言敏感度较低,例如蛋白质的识别率(identity)低于50%。而当序列识别率较低时,查询序列和数据库参考序列可能只有一个简短的匹配词(common k mer),如下图所示。这个匹配词称作 “seed”(即:种子)。

扩增子聚类之术语“ seed ”
图源:https://www.drive5.com/usearch/manual/ublast_algo.html

 

 


持续更新,禁止转载

本文地址:https://blog.csdn.net/weixin_42126262/article/details/107284965