视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）

程序员文章站 2022-06-09 20:40:59

摘要和简介数据扩充是提高深部网络性能的有效途径。我们发现，对像素或特征进行过多的丢弃或处理会阻碍图像恢复，而空间关系是非常重要的。在分析的基础上，我们提出了一种CutBlur算法，它可以剪切出一个低分辨率的 patch 并粘贴到相应的高分辨率图像区域，反之亦然。CutBlur的关键是使模型不仅可以学习“如何”而且可以“在哪里”超分图像。通过这样做，模型可以理解“多少”，而不是盲目地学习对每个给定像素的超分。我们的方法在不同的场景中持续显著地提高了性能，特别是当模型规模很大并且数据是在真实环境中收集的时候....

视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
论文名称：一个深度对偶注意的视频超分辨率网络
文章检索出处： IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 29, 2020

摘要和简介

以往的方法大多采用小尺度运动估计来处理大的运动，由于空间分辨率的降低，会对运动估计的精度产生不利影响。此外，这些方法通常对不同的中间特征一视同仁，对高频细节信息的利用缺乏灵活性。为了解决上述问题,本文的主要贡献如下：

提出了一个深度对偶注意网络(DDAN),该网络由运动补偿网络(MCNet)和深度注意重建网络(ReconNet)组成，充分利用时空相关性，学习更有意义的信息。
MCNet以金字塔的方式研究相邻帧之间的多层次光流表示，并使用它们之间的空间变换来模拟运动补偿
为了更准确地提取特征，使用原始LR相邻帧的细节分量作为补充信息，从而减轻运动估计的误差。
在ReconNet中，我们将通道和空间维度的双重注意机制与残差学习相结合，以强调恢复对高频细节有意义的特征。MCNet和ReconNet可以联合端到端可训练的运动补偿和视频SR重建。

视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）

方法

架构

先将中心帧 $I_t^L$ 和相邻帧 $I_i^L$ 输入到MCNet中，生成相邻运动补偿帧 $\hat I_i^L$ 。视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）

为了缓解错误配准带来的运动估计的影响,通过计算 $I_i^L$ 和 $\hat I_i^L$ 之间的残差提取细节组件 $d_i$ 。
视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）

在ReconNet中，我们在通道维度将对齐后的帧、细节分量和LR中心帧串联起来，作为重构的输入进行特征提取和SR重构。
视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
上述公式中， $F_{MC}$ 为运动补偿模块MCNet， $F_{SR}$ 为重建模块ReconNet。

运动补偿网络

除了学习降尺度流表示外，我们开发了额外的运动估计模块来学习全分辨率光流表示。我们采用金字塔多层次结构来进行相邻帧间的运动补偿。对于x4的运动估计部分，给定输入帧 $I_t^L$ 和 $I_i^L$ ，将这两个帧concat，然后通过两个下采样x2的卷积层（具体见TABLE 1）和一个×4亚像素卷积层上采样得到x4的粗糙光流 $\Delta_{t→i}^{×4}$ ，这个估计的光流有两个去处，一个是加入到×2的运动估计的输入部分；另一个是和 $I_t^L$ 扭曲生成 $\hat I^{L}_{i,×4}$ 视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
其中 $\Iota(·)$ 表示扭曲操作，采用双线性插值来提高翘曲过程的效率。 $\hat I^{L}_{i,×4}$ 也将被添加到×2运动估计的输入部分。在×2运动估计部分，输入由 $I_t^L$ 、 $I_i^L$ 、上采样的 $\Delta_{t→i}^{×4}$ 和 $\hat I^{L}_{i,×4}$ concat构成，然后通过一个下采样x2的卷积层和一个×2的亚像素卷积层上采样得到x2的光流（具体见TABLE 1），得到的光流与×4部分的光流相加然后扭曲 $I_t^L$ 得到 $\hat I^{L}_{i,×2}$
视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
作者进一步利用一个附加的运动估计（Fig.2顶部）来学习全分辨率光流表示，该运动估计包含多个卷积层，而没有任何向下缩放过程。具体流程和×2部分类似，不再赘述。
视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）

细节组件提取

以前基于光流的方法只是将补偿后的相邻帧和中心帧串联起来进行特征提取和重构。然而，光流估计中的任何错误都会对后续的SR重建产生不利影响。为了解决这个问题，我们通过在对齐的帧与其原始LR输入之间进行减法运算来提取相邻帧的细节分量。然后，将提取的细节分量与扭曲帧和中心LR输入在通道维中进行连接视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）

SR重建网络

ReconNet的详细结构如 Fig.3 所示。该方法包括四个部分：一个特征提取模块，一个多层密集的ConvLSTM块（DCB）作为构建模块，一个残差注意模块（RAM）和一个上采样模块。视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
1.特征提取
由卷积和残差网络组成
2.密集ConvLSTM块
把状态看作是运动物体的隐藏表示时，ConvLSTM可以捕捉运动，且密集连接多个Conv-ConvLSTM可以有效地建模时间相关性。视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
3.残差注意模块
残差注意组（RAG）由一系列残差注意块（RAB）和一个3×3卷积层组成。RAB结合了经典的空间残差单元和通道注意机制。假设在残差注意模块（RAM）中有n个RAGs，每个RAG包含m个RABs，第n个RAG的输出 $G_n$ 表示为
视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
其中， $G_{n−1}$ 是第n-1个RAG的输出和第n个RAG的输入。 $R_1^n,R_2^n,…,R_{m-1}^n,R_m^n]$ 表示m个RABs的映射函数。 $h_m^n(·)$ 表示最后一个卷积层的卷积运算。
4.残差注意块
每个RAB包含两个3×3卷积层和一个注意模块（AM）。对于第j个RAB，前两个卷积层的输出 $U_j$ 可以表示为视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
$f^1_j(·)$ 和 $f^2_j(·)$ 分别是两个卷积层的映射函数。RABs中AM的结构如Fig.4(b)所示。我们嵌入空间注意单元（SA）和通道注意单元（CA）来探索通道和空间位置之间的特征相关性。对于CA单元，我们首先在UJT上进行全局平均池化，输出shape为1×1×C
视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
其中， $u_j^c(p,q)$ 是 $u_j$ 的第c个通道(p,q)位置的值， $f_{GP}(·)$ 表示全局池化操作。然后使用两个1×1的卷积层
其中， $W_C^1$ 和 $W_C^2$ 是两个卷积层的权重， $\tau(·)$ 是PReLU激活函数。
与CA不同，SA侧重于更重要的区域，并在局部表示上对上下文信息进行建模。首先采用1×1卷积层来集成先前状态的特征。然后，使用一个深度卷积层来获得每个通道的不同空间注意映射视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
对由CA单元和SA单元生成的注意映射进行元素加法运算（1×1×C和H×W×C没写怎么加）。然后利用sigmoid函数将这种注意映射的范围规范化到[0,1]，生成γ

第j个RAB的输出可以表示为视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
我们将RAGs的所有输出特征映射输入到1×1卷积层中，生成融合表示
5.上采样模块
一个3×3卷积和一个亚像素上采样再接一个单通道3×3卷积从而输出HR残差图像视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
将中心帧进行双三次上采样和残差图相加，得到最终SR结果，DDAN可表示为

训练策略

光流部分损失函数视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
其中， $_{t→i}$ 为学习光流中每个分量的总变化 $\Delta^{'}_{t→i}$ ， $\alpha=0.01$ 。
重建部分采用Charbonnier损失
总损失为
其中， $\beta=0.01$

经验

数据集：使用MMCNN的数据集，训练集有522个视频，测试集有20个（百度云链接）

消融实验

注意模块的消融实验
视频超分：DDAN（Learning a Deep Dual Attention Network for Video Super-Resolution）
细节组件的消融实验

残差注意模块中不同n和m的对比实验

不同DCB模块数和有无RAM的对比实验

其中， $N_F$ 为不同的输入帧数。