2019-周报25-试验结果与分析

2019-10-07

weekly-report

试验结果记录与分析

1. classB 单个epoch（50帧）运行时间

训练：21s
测试：9s

2. x264结果

week25-x264-result

3. ClassE结果

week25-classE-HM

4. 分析总结

分析目前为止的BD情况，差的基本都是低码率的码流，按常规理解来说，码流的大小和传输的信息量是相关的。我们之前拟合帧数是以50帧为基准，按原始码流的像素信息决定拟合的帧数。按照 learning-to-remember 的思路，网络记住的是信息，而非YUV数据占据的磁盘空间。现在正在初步试验根据码流确定拟合帧数的效果，相当于之前网络对不同码流都是拟合相同帧数，而现在加入了一个调度系统 （熵调度？），根据实际码流确定拟合帧数。但是由于我们的试验涉及编码和网络训练，要确定一个好的调度方案需要很多时间，而我们现在没有足够的时间进行试验。

论文总结

BRCN (NIPS2015 & PAMI2018)

Huang, Yan, Wei Wang, and Liang Wang. “Video super-resolution via bidirectional recurrent convolutional networks.” IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 1015-1028.

Huang, Yan, Wei Wang, and Liang Wang. “Bidirectional recurrent convolutional networks for multi-frame super-resolution.” Advances in Neural Information Processing Systems. 2015.

主要创新点在网络部分，相当于将RNN的结构使用了两次，一次从前往后，一次从后往前，最后重构的时候将两部分合并。

BRCN-NET-architecture

FRVSR (CVPR2018)

Sajjadi, Mehdi SM, Raviteja Vemulapalli, and Matthew Brown. “Frame-recurrent video super-resolution.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

网络输入有三个：当前帧小图，前一帧小图，前一帧超分图。输出一个：当前帧超分图
将网络的输出信息利用了起来，把前一帧的修复结果利用起来修复当前帧，节省了计算量
在光流对齐部分新增了损失函数，用来增强对齐效果
使用subpixel的反操作，将大图分成多张小图当作输入
单帧超分中，5个残差块增益基本到顶，再增加残差块效果提升也不明显了。多帧超分，增加网络深度，超分效果提升明显

FRVSR-NET-ARCHI

文章细节给得很详细，循环利用网络的输出信息，在光流对齐处加损失函数的做法也是比较新颖的，利用subpixel的反操作（space-to-depth）将大图变为小图再输入的方法也是第一见到，很值得借鉴。

YOLO (CVPR2016)

Redmon, Joseph, et al. “You only look once: Unified, real-time object detection.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

滑动窗口卷积（sliding window approach）
之前的目标识别都是多步骤进行，先生成候选框，再识别框内物体。YOLO一步完成候选框与识别任务

Using our system, you only look once (YOLO) at an image to predict what objects are present and where they are.
一次完成对整张图片目标的框定与识别
在同样的速度下，识别准确率是其它模型的两倍

论文比较复杂，没有细看，后面有时间再仔细研究一下