论文阅读笔记《Few-Shot Learning Through an Information Retrieval Lens》

程序员文章站 2022-05-12 13:29:37

小样本学习&元学习经典论文整理||持续更新核心思想本文提出一种完全不同的小样本学习方法（mAP-SSVM，mAP-DLM），从信息检索（information retrieval）的角度来解决小样本学习问题，与之前episode中分成支持集和查询集的方式不同，本文将batch内的每个样本都看作一个查询样本，并且从其他所有样本中检索出与当前查询样本同一类别的样本。网络输出的是其他样本与当前查询样本相似度的排序结果，为评价输出结果的优劣，本文采用mAP作为优化的目标函数，为方便后文描述，这里简单...

小样本学习&元学习经典论文整理||持续更新

核心思想

本文提出一种完全不同的小样本学习方法（mAP-SSVM，mAP-DLM），从信息检索（information retrieval）的角度来解决小样本学习问题，与之前episode中分成支持集和查询集的方式不同，本文将batch内的每个样本都看作一个查询样本，并且从其他所有样本中检索出与当前查询样本同一类别的样本。网络输出的是其他样本与当前查询样本相似度的排序结果，为评价输出结果的优劣，本文采用mAP作为优化的目标函数，为方便后文描述，这里简单介绍一下mAP。
对于数据集 $B$ 中的样本 $x_1$ ， $Rel^{x_1}$ 表示数据集 $B$ 中与 $x_1$ 类别相同的样本集合， $O^{x_1}$ 表示与样本 $x_1$ 相似度的排序集合， $O^{x_1}[1]$ 表示与 $x_1$ 最相似的样本， $O^{x_1}[j]$ 表示与 $x_1$ 第 $j$ 相似的样本，准确率 $Prec@j^{x_1}$ 表示 $O^{x_1}$ 中前 $j$ 个样本与 $x_1$ 属于同一类别的比率，计算过程如下
论文阅读笔记《Few-Shot Learning Through an Information Retrieval Lens》
平均准确率 $A P$ 则表示对 $O^{x_1}[j]$ 中所有的 $j$ 值对应准确率求平均值，计算过程如下

论文阅读笔记《Few-Shot Learning Through an Information Retrieval Lens》
平均准确率的均值 $m A P$ 则是对所有的查询样本对应的平均准确率再求均值

本文的目标就是通过训练使得输出的相似度排序结果能让 $m A P$ 尽可能的大，很显然直接以mAP作为目标函数进行优化是很难实现的，因此本文引入了结构化预测（Structured Prediction）的思路来实现这一目标，结构化预测需要寻找一个评分函数 $F (x, y; w)$ 用于评价输入 $x$ 与输出 $y$ 在参数 $w$ 条件下的“相合性”，然后在此基础上寻找到使 $F (x, y; w)$ 最大化的输出结果 $y$ 。这里存在三个问题：如何定义评分函数 $F (x, y; w)$ 的形式？如何寻找到使 $F (x, y; w)$ 最大化的输出结果？如何通过训练的方式优化评分函数 $F (x, y; w)$ 中的参数 $w$ ?（关于结构化推测的更多细节介绍，可以参看这篇博客https://www.cnblogs.com/wry789/p/13236881.html）
具体到本文而言，作者首先根据mAP目标函数的需求，定义了模型输出结果的形式，模型输出一个结构化向量 $y_{kj}^i$ ，对于查询样本 $i$ ，如果样本 $k$ 与样本 $i$ 的相似度大于样本 $j$ 与样本 $i$ 的相似度，则 $y_{kj}^i=1$ ，否则 $y_{kj}^i=-1$ ，特别地 $y_{kk}^i= 0$ 。然后定义了评分函数 $F (x, y; w)$ 的形式
论文阅读笔记《Few-Shot Learning Through an Information Retrieval Lens》
式中 $\mathcal{P}^{c_i}$ 表示与样本 $i$ 类别相同的样本集合， $\mathcal{N}^{c_i}$ 表示与样本 $i$ 类别不同的样本集合， $\varphi$ 表示余弦相似度度量函数

式中 $f$ 表示参数为 $w$ 的特征提取网络，对上述二式进行分析可知，当样本 $x_k$ 与 $x_i$ 的余弦相似度大于样本 $x_j$ 与 $x_i$ 的余弦相似度（即 $\varphi(x_i,x_k,w)-\varphi(x_i,x_j,w)>0$ ），且模型的输出 $y_{kj}^i=1$ （即模型判断样本 $x_k$ 要比 $x_j$ 与 $x_i$ 更相似）时，评分函数 $F$ 的得分为正值，表示模型的输出结果，与当前输入样本 $x_i,x_j,x_k$ "相合"，且 $\varphi(x_i,x_k,w)-\varphi(x_i,x_j,w)$ 的值越大，得分越高，相合程度越高。反之当模型的输出结果和输入的样本不相合时（即 $(\varphi(x_i,x_k,w)-\varphi(x_i,x_j,w))$ 与 $y_{kj}^i$ 异号时），评分函数的得分为负值。
如上文所述，确定了评分函数 $F$ 的形式后，下面要做的就是要找到能够使 $F$ 最大化的输出 $y$ 了
论文阅读笔记《Few-Shot Learning Through an Information Retrieval Lens》
怎么解决这个问题呢？最直接的方法似乎是枚举法？其实该问题对于不同的任务目标，不同的评分函数都有不同的求解方式。作者指出对于本文的任务而言，输出结果计算方法如下
论文阅读笔记《Few-Shot Learning Through an Information Retrieval Lens》
并且作者还提出了一种损失增强的计算方法

上式是通过动态规划的方式进行求解的，在另一篇文章中给出了计算方式。看到这种计算方法不仅要让评分函数最大化，而且增加了一个额外的任务损失函数 $L$ ，本文定义的任务损失函数如下
论文阅读笔记《Few-Shot Learning Through an Information Retrieval Lens》
式中 $p^i$ 是一个二元的向量，其中的每个元素 $p^i_g$ 表示样本 $g$ 是否与样本 $i$ 属于同一类别，当 $p^i_g=1$ 时表示二者属于同一类别，否则 $p^i_g=-1$ 。 $p^i$ 表示训练样本的真实标签结果， $\hat{p}^i$ 表示模型的预测结果。
至此结构推断的前两个问题已经解决了，最后就是如何对评分函数中的参数 $w$ 进行优化呢？作者引入了两种方法：结构化支持向量机（SSVM）和直接损失最小化（DLM），其目标函数与损失梯度计算方法如下所示
SSVM：
论文阅读笔记《Few-Shot Learning Through an Information Retrieval Lens》

DLM：

最后就是迭代上述的过程，得到一个最优的评分函数 $F$ ，并以此选择出最优的输出结果 $y$ 。

实现过程

训练策略

论文阅读笔记《Few-Shot Learning Through an Information Retrieval Lens》

创新点

本文提出了图像检索任务，并且以提高mAP作为目标，实现小样本学习
引入了结构化推测的方法，并定义了评分函数的形式
引入了损失增强的方法，并定义了mAP损失函数

算法评价

本文把图像分类任务延申为了图像检索任务，从一堆图像中选择出与当前查询图像最相近的图像样本，为实现该任务的训练，采用了mAP做为优化的目标函数，而为了实现模型的训练，又引入了结构化推测的方法。具体的细节内容还包括评分函数的定义，任务损失函数的定义，参数优化算法等。本文是近期读过的文章中比较难以理解的一篇了，主要是引入的结构化推测的方法之前并未接触过，给整篇文章的理解增添了很大的难度，因此建议在认真研究本文之前，应该先了解下结构化推测，结构化学习的部分内容。

如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。论文阅读笔记《Few-Shot Learning Through an Information Retrieval Lens》

本文地址：https://blog.csdn.net/qq_36104364/article/details/109002432

相关标签：深度学习 # 小样本学习小样本学习图像检索结构化推测

上一篇：特斯拉自动驾驶崩溃？核心负责人跳槽英伟达

下一篇： Apple Watch运动表带展示方式获得设计专利