2019-周报27

2019-11-27

weekly-report

之前做CVPR时，为了赶速度，代码写得很乱，本周重构了相关代码，并且开始试验新的模型。之外学习了图模型的一些知识。

1 新模型探索

通过分析之前模型的设计与实验结果，主要打算在以下两个方面进行改进从而提高增益

增加参考帧，并充分利用参考帧的信息
增加网络参数，找到最适合的参数量与BD增益

1.1 参考帧分析，3帧与7帧的选择

分析之前3帧与7帧的试验结果，表明3帧和7帧的增益基本相同。这和视频超分中的结果不一致，视频超分中7帧效果明显好于3帧。这个结果主要是我们的网络结构导致，相距较远的帧最后放入网络，感受野仅为7 pixel，而帧间偏移远大于7 pixel，导致较远帧不能提供有效信息。

由于参数量一直是我们需要注意的问题，所以需要在不引入过多参数量的情况下解决这个问题。最后决定使用space-to-depth（如下图）无损下采样方法解决感受野问题，使用这个方法可以在不增加网络深度的情况下成倍扩大感受野，并且可以使用multi-scale的相关方法。

1.2 网络参数与BD增益的自适应探索

目前我们针对所有码流以及所有QP使用的网络结构都是完全固定的，CVPR论文中最后使用的网络,，网络参数占传统码流的比例在0.3%-10%之间浮动。对于其中占比低于5%的情况，有较大的优化空间，但对于占比10%上下的码流，增加网络参数会大大降低BD的增益情况，这个因素给网络的设计带来很大的困扰。

要想解决这个困扰，只能增加网络结构的自适应调整功能，初步的观察结果表明，网络参数占传统码流的比例在8%-10%之间的表现较好。可以通过固定网络参数的占比这一要素，调整网络大小，实现网络的自适应功能，从而进一步提高BD增益。针对这一设想，设计一个便于调节模型大小的网络结构，通过一个变量（该变量可通过待拟合码流与固定的网络参数占比计算得到）调节网络结构。

2 图模型学习

第一次接触该领域，阅读文献时有很多没听过的专业名词，目前的理解是使用图的数据结构表示待处理数据，并设计处理此类数据结构的网络。理论部分不是很了解，学习了基础的图数据结构的构建，与常用的深度优先与广度优先的图遍历算法，初步了解了该领域常用的编程框架：pytorch-geometric, DGL, networkX