2019-周报26

2019-10-20

weekly-report

基于深度学习的图像增强目前的创新点主要在网络结构上面，如 multi-scale, LSTM， Recursive， Recurrent, 其中很多创新是将序列模型中的东西用到了CNN中。在视频处理领域，由于其在空间维度上有图像处理的特性，在时间维度上有序列模型的特性，所以和序列模型的结合更为紧密。比如FRVSR[1]便是受RNN的启发，将前一序列的输出当作下一序列的输入，充分利用了视频的序列特性。

本周主要学习了序列模型，序列模型的发展可以分为表示学习(Representation Learning)和模型创新。本周从整体上初步了解了以下三个方面的内容。

序列模型 (sequence model)
表示学习（Representation Learning）
图神经网络（Graph Neural Network）

其中表示学习和图神经网络都是刚刚接触，还没有深入了解。

1 序列模型

序列模型的发展选取以下几个较为重要的思想进行记录，充分体现出了序列模型网络结构的发展情况，主要参考了吴恩达序列模型的课程[3]。

GRU单元 (gate recurrent unit)
LSTM单元 (long short term memory)
Bidirectional RNN
Deep RNN
注意力机制

####1.1 Standard RNN

首先是标准RNN的结构如下

standard rnn

1.2 GRU

GRU单元已经成为了序列模型的基本单元，可以看作简化版的LSTM模块，其提出主要是为了解决序列模型的长依赖关系以及梯度消失问题问题。其结构与前向传播公式如下

GRU

1.3 LSTM

与GRU相比，LSTM将更新门独立成了遗忘门与输出门，并进一步区分了细胞状态和隐藏状态。其结构与前向传播公式如下

LSTM

1.4 B-RNN

bidirectional rnn主要是为了解决由上下文引起的语义歧义性，传统的RNN模型只能前向参考，而实际应用中后面的内容会引起语义的不同，例如 “He said, Teddy bears are on sale” 和 “He said, Teddy Roosevelt was a great President。其结构如下

B-RNN

其每次反向传播必须在两个方向的前向传播都完成之后才能进行，虽然准确率有所提升，但训练速度会大大降低。

1.5 Deep RNN

Deep RNN通过简单堆叠的方式提升模型的深度，从而获得更多的增益，其网络结构如下

Deep-RNN

1.6 注意力机制

注意力机制最早来自2014年Bahdanau等人的研究 [6]，主要为了解决长句子BLEU得分衰减问题。其主要思想是序列中的某个位置对周围序列的参考权值是不一样的。通常来说，相距越远参考性应该越低。衰减曲线与网络结构如下

attention

2 表示学习

在神经网络出现之前，存在特征提取师这么一个行业，特侦提取这个过程便称作表示，不同的表示对后续的处理影响很大。比如阿拉伯数字和罗马数字就是对数字的两种不同表示，使用阿拉伯数字进行算数运算比使用罗马数字进行相同的运算简易很多，这就是表示不同带来的差异。下面主要介绍序列模型中的表示学习，并引出图像处理中的表示学习。

序列模型中和表示学习相关的论文便是大名鼎鼎的word2vec [2] , 使用word Embedding方法代替了传统的one-hot编码，现在序列模型处理基本没有使用one-hot编码直接处理了。

2.1 word2vectore

使用one-hot编码，每个单词相互独立没有关联，任意两个单词之间的L2距离均为 $\sqrt{2}$ 而现实世界中不同单词之间存在不一样的关联性，word2vectore便是学习更贴近现实世界的表示。论文中给出了CBOW和Skip-gram两种实现方法，具体实现还没来得及仔细研究。

2.2 图像的表示

现在基于深度学习的图像处理很多都是end-to-end模式，直接将图像的表示和具体应用融合进行。end-to-end的方法训练与使用都很方便，但迁移效果并不理想，很多时候不如随机初始化的效果好。这也让人开始思考图像是否有更优的表示方法，图像表示的一个特殊应用便是人脸识别，使用Triplet损失学习人脸的表示。

3 图神经网络

图神经网络还没有深入了解，序列的表示以及有了很大的发展，然而由于图像的高维特性，其特征的表示发展缓慢，图神经网络的一大目标便是更好地学习图像的表示[7]。

参考资料

Sajjadi, M. S., Vemulapalli, R., & Brown, M. (2018). Frame-recurrent video super-resolution. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 6626-6634).
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
网易云课堂-吴恩达-序列模型
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.
https://www.cse.iitk.ac.in/users/sigml/lec/Slides/LSTM.pdf
Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
Advancements in Graph Neural Networks Includes joint work with H. Ren, W. Hamilton, R. Ying, J. You,
M. Zitnik,W. Hu, K. Xu, S. Jegelka