2019-周报20

2019-09-01

weekly-report

1 当前情况分析

观察以下两组数据分析当前 X265， VTM, X265+FRCNN 三种编码方式的效果。

week20-x265-vtm

week20-x265-FRCNN

分析得到以下情况：

效果排名 VTM > X265 + FRCNN > X265
PSNR (VTM) ≈ PSNR (X265 + FRCNN) + 0.2
Bitrate (VTM) ≈ 0.77 * Bitrate (X265 + FRCNN)

VTM在编码码率与编码效果两个方面都好于 X265+FRCNN，我们编码方式的性质决定了码率必然是大于VTM，所以只能从提升PSNR的角度出发。通过计算得知，要使 X265+FRCNN 的效果赶上 VTM，需要在保持模型参数不变的情况下使PSNR在当前基础上再提升0.7

2 思路与实践

要使psnr在目前的基础上提升0.7，根据之前做编码损伤修复的经验来看仅仅通过以前的方法几乎不可能实现。

2.1 思路

和吴畅讨论之后有以下收获：

2.1.1 多帧融合

目前为止使用的网络都是处理单帧，没有做多帧融合网络，而视频编码会参考周围帧，所以可以从使用带多帧融合的网络试验观察效果。

2.1.2 过拟合

当前的试验其实并不算真正的过拟合，可能是图片数据量太大和网络参数不够导致的。参考之前做过减小数据量的试验（如下表），仅拟合一帧的效果反而不好。 week20-different-frame

但继续减小数据量，在仅拟合一帧 42x42 的图片时达到了完全的过拟合，无损地恢复出了标签数据

week20-overfit

也就是说当前的网路结构与参数，仅能过拟合 42x42 的数据量，而现在50帧的1080x1920数据量太大做不到过拟合。

2.2 实践

首先简单试验了多帧融合拟合，在参数量不增加的情况下做了一个简单的多帧网络进行训练。结果和单帧拟合相比并没有明显的提升

2.3 总结

分析以上结果发现由于图片的数据量太大，过拟合非常困难，而现在试验的提升都不算真正的过拟合，是具有一定的泛化能力的。

所以当前的工作重点是想办法在保证网络参数的情况下尽量实现过拟合，考虑到视频编解码过程的帧间参考，之后的工作主要想办法做多帧融合的过拟合试验。