扩增子聚类之术语“ seed ”

程序员文章站 2022-03-22 08:28:29

前面的swarm聚类文章中讲到过，“ seed ” 是 de novo 思想的算法在聚类时，选择的第一个作为质心或起点的高丰度扩增子，它通常作为 cluster 的代表序列参与物种注释等其它分析。从计算机角度来看：算法的开始，创建一个初始为空的数据库，并在处理输入序列扩展数据库。对于每一个 cluster ，数据库只精确地包含一个代表性序列。在UCLUST中，“ seed 序列 ” 这个术语不再使用，为了避免与 BLAST 和 UBLAST 等算法中的对齐种子（即：查询序列与参考序列比对上的匹配词...

前面的swarm聚类文章中讲到过，“ seed ” 是 de novo 思想的算法在聚类时，选择的第一个作为质心或起点的高丰度扩增子，它通常作为 cluster 的代表序列参与物种注释等其它分析。

从计算机角度来看：算法的开始，创建一个初始为空的数据库，并在处理输入序列扩展数据库。对于每一个 cluster ，数据库只精确地包含一个代表性序列。

在UCLUST中，“ seed 序列 ” 这个术语不再使用，为了避免与 BLAST 和 UBLAST 等算法中的对齐种子（即：查询序列与参考序列比对上的匹配词）混淆。作为替代，称质心为“ 代表序列 ”。

在这里用UBLAST举例来说：

UBLAST是 Edgar 开发的 USEARCH 包中的一个工具。

UBLAST最常用于蛋白质或翻译搜索，低相似度的序列比对就可以提供信息。UBLAST也支持核苷酸搜索，但USEARCH通常更合适，因为核苷酸同源性只有在序列之间具有高相似度时才能检测到。

因此，UBLAST被设计为对较远的（ more distant）序列关系敏感，USEARCH对于这些序列而言敏感度较低，例如蛋白质的识别率（identity）低于50%。而当序列识别率较低时，查询序列和数据库参考序列可能只有一个简短的匹配词（common k mer），如下图所示。这个匹配词称作 “seed”（即：种子）。

扩增子聚类之术语“ seed ” — 图源：https://www.drive5.com/usearch/manual/ublast_algo.html

持续更新，禁止转载

本文地址：https://blog.csdn.net/weixin_42126262/article/details/107284965

上一篇：使用纯HTML的通用数据管理和服务

下一篇： JavaSE-加强for循环以及可变参数

扩增子聚类之术语“ seed ”

Python聚类算法之基本K均值实例详解

Python聚类算法之DBSACN实例分析

Python聚类算法之凝聚层次聚类实例分析

python机器学习实战之K均值聚类

python机器学习库sklearn之DBSCAN密度聚类实例

Python机器学习之K-Means聚类实现详解

机器学习之聚类算法（三）KMeans、KMeans++、KMeans||原理介绍及代码实现

机器学习系列之聚类

机器学习之聚类算法：密度聚类BDscan，整理ing

sklearn聚类之—KMeans