2019-周报27

之前做CVPR时,为了赶速度,代码写得很乱,本周重构了相关代码,并且开始试验新的模型。之外学习了图模型的一些知识。

1 新模型探索

通过分析之前模型的设计与实验结果,主要打算在以下两个方面进行改进从而提高增益

  • 增加参考帧,并充分利用参考帧的信息
  • 增加网络参数,找到最适合的参数量与BD增益

1.1 参考帧分析,3帧与7帧的选择

分析之前3帧与7帧的试验结果,表明3帧和7帧的增益基本相同。这和视频超分中的结果不一致,视频超分中7帧效果明显好于3帧。这个结果主要是我们的网络结构导致,相距较远的帧最后放入网络,感受野仅为7 pixel,而帧间偏移远大于7 pixel,导致较远帧不能提供有效信息。

由于参数量一直是我们需要注意的问题,所以需要在不引入过多参数量的情况下解决这个问题。最后决定使用space-to-depth(如下图)无损下采样方法解决感受野问题,使用这个方法可以在不增加网络深度的情况下成倍扩大感受野,并且可以使用multi-scale的相关方法。

1.2 网络参数与BD增益的自适应探索

目前我们针对所有码流以及所有QP使用的网络结构都是完全固定的,CVPR论文中最后使用的网络,,网络参数占传统码流的比例在0.3%-10%之间浮动。对于其中占比低于5%的情况,有较大的优化空间,但对于占比10%上下的码流,增加网络参数会大大降低BD的增益情况,这个因素给网络的设计带来很大的困扰。

要想解决这个困扰,只能增加网络结构的自适应调整功能,初步的观察结果表明,网络参数占传统码流的比例在8%-10%之间的表现较好。可以通过固定网络参数的占比这一要素,调整网络大小,实现网络的自适应功能,从而进一步提高BD增益。针对这一设想,设计一个便于调节模型大小的网络结构,通过一个变量(该变量可通过待拟合码流与固定的网络参数占比计算得到)调节网络结构。

2 图模型学习

第一次接触该领域,阅读文献时有很多没听过的专业名词,目前的理解是使用图的数据结构表示待处理数据,并设计处理此类数据结构的网络。理论部分不是很了解,学习了基础的图数据结构的构建,与常用的深度优先与广度优先的图遍历算法,初步了解了该领域常用的编程框架:pytorch-geometric, DGL, networkX

Share Comments