2019-周报25-试验结果与分析

试验结果记录与分析

1. classB 单个epoch(50帧)运行时间

  • 训练:21s
  • 测试:9s

2. x264结果

week25-x264-result

3. ClassE结果

week25-classE-HM

4. 分析总结

分析目前为止的BD情况,差的基本都是低码率的码流,按常规理解来说,码流的大小和传输的信息量是相关的。我们之前拟合帧数是以50帧为基准,按原始码流的像素信息决定拟合的帧数。按照 learning-to-remember 的思路,网络记住的是信息,而非YUV数据占据的磁盘空间。现在正在初步试验根据码流确定拟合帧数的效果,相当于之前网络对不同码流都是拟合相同帧数,而现在加入了一个调度系统 (熵调度?),根据实际码流确定拟合帧数。但是由于我们的试验涉及编码和网络训练,要确定一个好的调度方案需要很多时间,而我们现在没有足够的时间进行试验。

论文总结

BRCN (NIPS2015 & PAMI2018)

Huang, Yan, Wei Wang, and Liang Wang. “Video super-resolution via bidirectional recurrent convolutional networks.” IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 1015-1028.

Huang, Yan, Wei Wang, and Liang Wang. “Bidirectional recurrent convolutional networks for multi-frame super-resolution.” Advances in Neural Information Processing Systems. 2015.

主要创新点在网络部分,相当于将RNN的结构使用了两次,一次从前往后,一次从后往前,最后重构的时候将两部分合并。

BRCN-NET-architecture

FRVSR (CVPR2018)

Sajjadi, Mehdi SM, Raviteja Vemulapalli, and Matthew Brown. “Frame-recurrent video super-resolution.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

  • 网络输入有三个:当前帧小图,前一帧小图,前一帧超分图。输出一个:当前帧超分图
  • 将网络的输出信息利用了起来,把前一帧的修复结果利用起来修复当前帧,节省了计算量
  • 在光流对齐部分新增了损失函数,用来增强对齐效果
  • 使用subpixel的反操作,将大图分成多张小图当作输入
  • 单帧超分中,5个残差块增益基本到顶,再增加残差块效果提升也不明显了。多帧超分,增加网络深度,超分效果提升明显

FRVSR-NET-ARCHI

文章细节给得很详细,循环利用网络的输出信息,在光流对齐处加损失函数的做法也是比较新颖的,利用subpixel的反操作(space-to-depth)将大图变为小图再输入的方法也是第一见到,很值得借鉴。

YOLO (CVPR2016)

Redmon, Joseph, et al. “You only look once: Unified, real-time object detection.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

  • 滑动窗口卷积 (sliding window approach)

  • 之前的目标识别都是多步骤进行,先生成候选框,再识别框内物体。YOLO一步完成候选框与识别任务

    Using our system, you only look once (YOLO) at an image to predict what objects are present and where they are.

  • 一次完成对整张图片目标的框定与识别

  • 在同样的速度下,识别准确率是其它模型的两倍

论文比较复杂,没有细看,后面有时间再仔细研究一下

Share Comments