一种基于神经网络的视频编码方法及系统技术方案

技术编号:25051787 阅读:26 留言:0更新日期:2020-07-29 05:39
本发明专利技术公开了一种基于神经网络的视频编码方法及系统,方法包括:获取用于训练神经网络的视频数据,构建一个含有多参考帧的神经网络,基于视频数据对含有多参考帧的神经网络进行训练,得到训练好的神经网络,基于训练好的神经网络对视频进行编码。本发明专利技术能够基于神经网络,利用多参考帧,有效提升面向低延时场景时,视频编码的性能。

【技术实现步骤摘要】
一种基于神经网络的视频编码方法及系统
本专利技术涉及视频编码
,尤其涉及一种基于神经网络的视频编码方法及系统。
技术介绍
目前,互联网上大部分的视频都被压缩成H.264或H.265的格式。新的视频编码标准如H.266和AV1正在制定中。尽管新的标准相比H.265在同样的视觉质量下节省了50%的码率,但是这种性能提升也带来了编码复杂度的成倍增加。事实上,所有的传统编码标准都使用了同样的框架。该框架使用了基于运动补偿的预测、基于块的变换和基于人工设计的熵编码器。经过三十多年的不断发展,该框架在压缩效率不断增长的同时,系统复杂度变得越来越高,单个技术的性能变得越来越小,已在一定程度上趋于饱和。近年来,一系列研究工作试图构建新的基于深度神经网络的视频编码框架。这些工作可以根据不同的应用场景分为两大类。第一类是面向点播应用的随机切入场景。例如,一种基于内插的视频编码方案,该方案包括结合了运动信息编码和图像合成的内插模型以及用于残差编码的自编码器,该方案在PSNR(PeakSignaltoNoiseRatio,峰值信噪比)指标下高码率端的编码性能已经超过H.265。第二类面向的是直播应用的低延时场景。例如,一种端到端深度学习视频编码模型,该模型联合优化了运动估计、运动编码、运动补偿、和残差编码等模块,该模型在MS-SSIM指标下的编码性能与H.265相当。但是,这些已有的模型要么面向的是随机切入场景,要么只使用了前面的一个重建帧当作参考帧,无法充分利用视频帧之间的时域相关性。在面向低延时场景时,视频编码的性能较低。因此,如何进一步有效地提升基于神经网络的视频编码的性能,是一项亟待解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于神经网络的视频编码方法,能够基于神经网络,利用多参考帧,有效提升面向低延时场景时,视频编码的性能。本专利技术提供了一种基于神经网络的视频编码方法,包括:获取用于训练神经网络的视频数据;构建一个含有多参考帧的神经网络;基于所述视频数据对所述含有多参考帧的神经网络进行训练,得到训练好的神经网络;基于所述训练好的神经网络对视频进行编码。优选地,所述构建一个含有多参考帧的神经网络,包括:构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块;构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块;构建用于对原始运动场残差进行编码的运动差编码模块,以及用于对原始运动场残差进行解码的运动差解码模块;构建用于获得重建运动场的运动重建模块;构建用于获得当前帧的预测的运动补偿模块;构建用于对原始残差进行编码的残差编码模块,以及用于对原始残差进行解码的残差解码模块;构建用于获得重建帧的帧重建模块。优选地,所述构建一个含有多参考帧的神经网络,包括:构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块;构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块;构建用于对原始运动场残差进行编码的运动差编码模块,以及用于对原始运动场残差进行解码的运动差解码模块;构建用于获得重建运动场的运动重建模块;构建用于改善重建运动场的运动场改善模块;构建用于获得当前帧的预测的运动补偿模块;构建用于对原始残差进行编码的残差编码模块,以及用于对原始残差进行解码的残差解码模块;构建用于获得重建帧的帧重建模块。优选地,所述构建一个含有多参考帧的神经网络,包括:构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块;构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块;构建用于对原始运动场残差进行编码的运动差编码模块,以及用于对原始运动场残差进行解码的运动差解码模块;构建用于获得重建运动场的运动重建模块;构建用于改善重建运动场的运动场改善模块;构建用于获得当前帧的预测的运动补偿模块;构建用于对原始残差进行编码的残差编码模块,以及用于对原始残差进行解码的残差解码模块;构建用于改善重建残差的残差改善模块;构建用于获得重建帧的帧重建模块。优选地,所述基于所述视频数据对所述含有多参考帧的神经网络进行训练,得到训练好的神经网络,包括:基于所述视频数据,采用渐进式训练方法在训练集上训练所述含有多参考帧的神经网络,得到训练好的神经网络。一种基于神经网络的视频编码系统,包括:获取单元,用于获取用于训练神经网络的视频数据;构建单元,用于构建一个含有多参考帧的神经网络;训练单元,用于基于所述视频数据对所述含有多参考帧的神经网络进行训练,得到训练好的神经网络;编码单元,用于基于所述训练好的神经网络对视频进行编码。优选地,所述构建单元具体用于:构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块;构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块;构建用于对原始运动场残差进行编码的运动差编码模块,以及用于对原始运动场残差进行解码的运动差解码模块;构建用于获得重建运动场的运动重建模块;构建用于获得当前帧的预测的运动补偿模块;构建用于对原始残差进行编码的残差编码模块,以及用于对原始残差进行解码的残差解码模块;构建用于获得重建帧的帧重建模块。优选地,所述构建单元具体用于:构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块;构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块;构建用于对原始运动场残差进行编码的运动差编码模块,以及用于对原始运动场残差进行解码的运动差解码模块;构建用于获得重建运动场的运动重建模块;构建用于改善重建运动场的运动场改善模块;构建用于获得当前帧的预测的运动补偿模块;构建用于对原始残差进行编码的残差编码模块,以及用于对原始残差进行解码的残差解码模块;构建用于获得重建帧的帧重建模块。优选地,所述构建单元具体用于:构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块;构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块;构建用于对原始运动场残差进行编码的运动差编码模块,以及用于对原始运动场残差进行解码的运动差解码模块;构建用于获得重建运动场的运动重建模块;构建用于改善重建运动场的运动场改善模块;构建用于获得当前帧的预测的运动补偿模块;构建用于对原始残差进行编码的残差编码模块,以及用于对原始残差进行解码的残差解码模块;构建用于改善重建残差的残差改善模块;构建用于获得重建帧的帧重建模块。优选地,所述训练单元具体用于:基于所述视频数据,采用渐进式训练方法在训练集上训练所述含有多参考帧的神经网络,得到训练好的神经网络。综上所述,本专利技术公开了一种基本文档来自技高网
...

【技术保护点】
1.一种基于神经网络的视频编码方法,其特征在于,包括:/n获取用于训练神经网络的视频数据;/n构建一个含有多参考帧的神经网络;/n基于所述视频数据对所述含有多参考帧的神经网络进行训练,得到训练好的神经网络;/n基于所述训练好的神经网络对视频进行编码。/n

【技术特征摘要】
1.一种基于神经网络的视频编码方法,其特征在于,包括:
获取用于训练神经网络的视频数据;
构建一个含有多参考帧的神经网络;
基于所述视频数据对所述含有多参考帧的神经网络进行训练,得到训练好的神经网络;
基于所述训练好的神经网络对视频进行编码。


2.根据权利要求1所述的方法,其特征在于,所述构建一个含有多参考帧的神经网络,包括:
构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块;
构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块;
构建用于对原始运动场残差进行编码的运动差编码模块,以及用于对原始运动场残差进行解码的运动差解码模块;
构建用于获得重建运动场的运动重建模块;
构建用于获得当前帧的预测的运动补偿模块;
构建用于对原始残差进行编码的残差编码模块,以及用于对原始残差进行解码的残差解码模块;
构建用于获得重建帧的帧重建模块。


3.根据权利要求1所述的方法,其特征在于,所述构建一个含有多参考帧的神经网络,包括:
构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块;
构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块;
构建用于对原始运动场残差进行编码的运动差编码模块,以及用于对原始运动场残差进行解码的运动差解码模块;
构建用于获得重建运动场的运动重建模块;
构建用于改善重建运动场的运动场改善模块;
构建用于获得当前帧的预测的运动补偿模块;
构建用于对原始残差进行编码的残差编码模块,以及用于对原始残差进行解码的残差解码模块;
构建用于获得重建帧的帧重建模块。


4.根据权利要求1所述的方法,其特征在于,所述构建一个含有多参考帧的神经网络,包括:
构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块;
构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块;
构建用于对原始运动场残差进行编码的运动差编码模块,以及用于对原始运动场残差进行解码的运动差解码模块;
构建用于获得重建运动场的运动重建模块;
构建用于改善重建运动场的运动场改善模块;
构建用于获得当前帧的预测的运动补偿模块;
构建用于对原始残差进行编码的残差编码模块,以及用于对原始残差进行解码的残差解码模块;
构建用于改善重建残差的残差改善模块;
构建用于获得重建帧的帧重建模块。


5.根据权利要求1所述的方法,其特征在于,所述基于所述视频数据对所述含有多参考帧的神经网络进行训练,得到训练好的神经网络,包括:
基于所述视频数据,采用渐进式训练方法在训练集上训练所述含有多参考帧的神经网络,...

【专利技术属性】
技术研发人员:刘东林建平李厚强吴枫
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1