欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

论文阅读报告:Taxonomy-aware feature engineering for microbiome classification,Mai Oudah and Andreas Hen

程序员文章站 2022-06-25 19:22:22
文章目录1. HFE1. HFEHierarchical Feature Engineering,简写 HFE,包含四个阶段,分别是:特征工程阶段(Feature engineering phase)基于相关性的过滤阶段(Correlation-based filtering phase)基于信息增益的过滤阶段(Information Gain based filtering phase)基于信息增益的叶过滤阶段(IG-based leaf filtering phase)......


1. HFE

Hierarchical Feature Engineering,简写 HFE,包含四个阶段,分别是:

  • 特征工程阶段(Feature engineering phase)
  • 基于相关性的过滤阶段(Correlation-based filtering phase)
  • 基于信息增益的过滤阶段(Information Gain based filtering phase)
  • 基于信息增益的叶过滤阶段(IG-based leaf filtering phase)

1.1. Feature engineering phase

论文阅读报告:Taxonomy-aware feature engineering for microbiome classification,Mai Oudah and Andreas Hen
上图中,树结构共有 8 层。前七层是生物学的分类:界(Kingdom)、门(Phylum),纲(Class),目(Order)、科(Family)、属(Genus)和种(Species)。论文中额外在最底层增加了一层:OTU 层。

数据集中原有的特征向量表示为:

( o j i ) n × m = [ o 1 1 o 2 1 … o m 1 o 1 2 o 2 2 … o m 2 … … … … o 1 n o 2 n … o m n ] , i ∈ [ 1 , 2 , … , n ] , j ∈ [ 1 , 2 , … , m ] . (o^i_j)_{n \times m}= \begin{bmatrix} o^1_1 & o^1_2 & \dots & o^1_m \\ o^2_1 & o^2_2 & \dots & o^2_m \\ \dots & \dots & \dots & \dots \\ o^n_1 & o^n_2 & \dots & o^n_m \\ \end{bmatrix}, i \in [1, 2, \dots, n], j \in [1, 2, \dots, m]. (oji)n×m=o11o12o1no21o22o2nom1om2omn,i[1,2,,n],j[1,2,,m].

将较高分类单元 i k i_k ik 视为潜在特征,其相对丰度是自下而上的树遍历中各自孩子 C C C 的相对丰度的累加和:

o i k = ∑ c ∈ C ( i k ) o c . o_{i_k} = \sum_{c \in C(i_k)} o_c. oik=cC(ik)oc.

树结构中的某个非叶子节点,是一个具有较高层次的潜在特征,我们将其记为 i k i_k ik,它的孩子节点的集合记为 C ( i k ) C(i_k) C(ik),则按照公式计算 i k i_k ik 的相对丰度 o i k o_{i_k} oik

o i k = [ o i k 1 o i k 2 … o i k n ] = [ ∑ c ∈ C ( i k ) o c 1 ∑ c ∈ C ( i k ) o c 2 … ∑ c ∈ C ( i k ) o c n ] . o_{i_k} = \begin{bmatrix} o^1_{i_k} \\ o^2_{i_k} \\ \dots \\ o^n_{i_k} \\ \end{bmatrix} = \begin{bmatrix} \sum_{c \in C(i_k)} o^1_c \\ \sum_{c \in C(i_k)} o^2_c \\ \dots \\ \sum_{c \in C(i_k)} o^n_c \\ \end{bmatrix}. oik=oik1oik2oikn=cC(ik)oc1cC(ik)oc2cC(ik)ocn.

所有较高层次的潜在特征,组成一个内部节点的特征集合,表示如下:
[ o i 1 1 o i 2 1 … o i m ‾ 1 o i 1 2 o i 2 2 … o i m ‾ 2 … … … … o i 1 n o i 2 n … o i m ‾ n ] \begin{bmatrix} o^1_{i_1} & o^1_{i_2} & \dots & o^1_{i_{\overline{m}}} \\ o^2_{i_1} & o^2_{i_2} & \dots & o^2_{i_{\overline{m}}} \\ \dots & \dots & \dots & \dots \\ o^n_{i_1} & o^n_{i_2} & \dots & o^n_{i_{\overline{m}}} \\ \end{bmatrix} oi11oi12oi1noi21oi22oi2noim1oim2oimn

原始特征和内部节点衍生出来的特征,共同构成扩展特征向量,其表示形式如下所示:
F = [ o 1 1 o 2 1 … o m 1 o i 1 1 o i 2 1 … o i m ‾ 1 o 1 2 o 2 2 … o m 2 o i 1 2 o i 2 2 … o i m ‾ 2 … … … … … … … … o 1 n o 2 n … o m n o i 1 n o i 2 n … o i m ‾ n ] F = \begin{bmatrix} o^1_1 & o^1_2 & \dots & o^1_m & o^1_{i_1} & o^1_{i_2} & \dots & o^1_{i_{\overline{m}}} \\ o^2_1 & o^2_2 & \dots & o^2_m & o^2_{i_1} & o^2_{i_2} & \dots & o^2_{i_{\overline{m}}} \\ \dots & \dots & \dots & \dots & \dots & \dots & \dots & \dots \\ o^n_1 & o^n_2 & \dots & o^n_m & o^n_{i_1} & o^n_{i_2} & \dots & o^n_{i_{\overline{m}}} \\ \end{bmatrix} F=o11o12o1no21o22o2nom1om2omnoi11oi12oi1noi21oi22oi2noim1oim2oimn

1.2. Correlation-based filtering phase

论文阅读报告:Taxonomy-aware feature engineering for microbiome classification,Mai Oudah and Andreas Hen
对于层级中每对 “父亲-孩子”,皮尔逊相关系数(Pearson correlation coefficient) ρ \rho ρ 是父亲节点和孩子节点的一组向量计算出来的。
如果 ρ \rho ρ 比预定义的阈值 θ p \theta_{p} θp 大,那么移除孩子节点;否则保留孩子节点作为层级结构的一部分。

operation = { remove ,  if  ρ > θ p ; retain ,  otherwise. \text{operation} = \begin{cases} \text{remove}, \text{ if } \rho > \theta_{p}; \\ \text{retain}, \text{ otherwise.} \end{cases} operation={remove, if ρ>θp;retain, otherwise.

对于任意的非叶子节点 i k i_k ik,它的孩子节点集合是 C ( i k ) C(i_k) C(ik),则

∀ i k , c ∈ C ( i k ) \forall i_k, c \in C(i_k) ik,cC(ik),
operation  = { remove  c ,  if  ρ ( i k , c ) > θ p ; retain  c ,  otherwise. \text{operation } = \begin{cases} \text{remove } c, \text{ if } \rho(i_k, c) > \theta_{p}; \\ \text{retain } c, \text{ otherwise.} \end{cases} operation ={remove c, if ρ(ik,c)>θp;retain c, otherwise.

1.3. Information Gain ( I G IG IG) based filtering phase

论文阅读报告:Taxonomy-aware feature engineering for microbiome classification,Mai Oudah and Andreas Hen

根据上一阶段保留的节点,从叶子到根(即每个 OTU 的世系)构建所有路径。

对每条路径而言,计算路径上每个节点关于标签/类别 L L L I G IG IG

平均 I G IG IG 作为阈值 θ \theta θ,用于丢弃具有较小 I G IG IG 值或者零值的节点。

需要注意的是,具有不完整路径上的叶子节点不参与这一步,这些叶子节点将在 1.4. 中处理。

公式表示如下:
θ i g = ∑ p ∈ P I G ( o p , L ) ∣ P ∣ \theta_{ig} = \frac{\sum_{p \in P} IG(o_p, L)}{\left| P \right|} θig=PpPIG(op,L)

∀ c  in a complete leaf-root path  P  in  T \forall c \text{ in a complete leaf-root path } P \text{ in } T c in a complete leaf-root path P in T,

operation  = {  remove  c ,  if  I G ( o c , L ) < θ i g ;  retain  c ,  otherwise. \text{operation } = \begin{cases} \text{ remove } c, \text{ if } IG(o_c, L) < \theta_{ig}; \\ \text{ retain } c, \text{ otherwise.} \end{cases} operation ={ remove c, if IG(oc,L)<θig; retain c, otherwise.

1.4. I G IG IG-based leaf filtering phase

为了处理 OTUs 中完整的分类信息,
论文阅读报告:Taxonomy-aware feature engineering for microbiome classification,Mai Oudah and Andreas Hen
对于那些具有不完整分类信息的 OTU(路径不完整: incomplete paths),如果它的 I G IG IG 大于 1.3. 中完整路径中所有节点的全局平均 I G IG IG 值,那么保留该节点;否则,丢弃该节点。

用公式表示:

θ t = ∑ c ∈ T I G ( o c , L ) ∣ T ∣ . \theta_{t} = \frac{\sum_{c \in T} IG(o_c, L)}{\left| T \right|}. θt=TcTIG(oc,L).

operation  = {  remove  c ,  if  I G ( o i , L ) < θ t ;  retain  c ,  otherwise. \text{operation } = \begin{cases} \text{ remove } c, \text{ if } IG(o_i, L) < \theta_{t}; \\ \text{ retain } c, \text{ otherwise.} \end{cases} operation ={ remove c, if IG(oi,L)<θt; retain c, otherwise.

2. DOI

  1. https://doi.org/10.1186/s12859-018-2205-3

本文地址:https://blog.csdn.net/PursueLuo/article/details/108754772