一种基于神经网络的视频编码方法及系统技术方案

技术编号：25051787 阅读：26 留言：0更新日期：2020-07-29 05:39

本发明专利技术公开了一种基于神经网络的视频编码方法及系统，方法包括：获取用于训练神经网络的视频数据，构建一个含有多参考帧的神经网络，基于视频数据对含有多参考帧的神经网络进行训练，得到训练好的神经网络，基于训练好的神经网络对视频进行编码。本发明专利技术能够基于神经网络，利用多参考帧，有效提升面向低延时场景时，视频编码的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络的视频编码方法及系统
本专利技术涉及视频编码
，尤其涉及一种基于神经网络的视频编码方法及系统。
技术介绍
目前，互联网上大部分的视频都被压缩成H.264或H.265的格式。新的视频编码标准如H.266和AV1正在制定中。尽管新的标准相比H.265在同样的视觉质量下节省了50％的码率，但是这种性能提升也带来了编码复杂度的成倍增加。事实上，所有的传统编码标准都使用了同样的框架。该框架使用了基于运动补偿的预测、基于块的变换和基于人工设计的熵编码器。经过三十多年的不断发展，该框架在压缩效率不断增长的同时，系统复杂度变得越来越高，单个技术的性能变得越来越小，已在一定程度上趋于饱和。近年来，一系列研究工作试图构建新的基于深度神经网络的视频编码框架。这些工作可以根据不同的应用场景分为两大类。第一类是面向点播应用的随机切入场景。例如，一种基于内插的视频编码方案，该方案包括结合了运动信息编码和图像合成的内插模型以及用于残差编码的自编码器，该方案在PSNR(PeakSignaltoNoiseRatio，峰值信噪比)指标下高码率端的编码性能已经超过H.265。第二类面向的是直播应用的低延时场景。例如，一种端到端深度学习视频编码模型，该模型联合优化了运动估计、运动编码、运动补偿、和残差编码等模块，该模型在MS-SSIM指标下的编码性能与H.265相当。但是，这些已有的模型要么面向的是随机切入场景，要么只使用了前面的一个重建帧当作参考帧，无法充分利用视频帧之间的时域相关性。在面向低延时场景时，视频编码的性能较低。...

【技术保护点】
1.一种基于神经网络的视频编码方法，其特征在于，包括：/n获取用于训练神经网络的视频数据；/n构建一个含有多参考帧的神经网络；/n基于所述视频数据对所述含有多参考帧的神经网络进行训练，得到训练好的神经网络；/n基于所述训练好的神经网络对视频进行编码。/n

【技术特征摘要】
1.一种基于神经网络的视频编码方法，其特征在于，包括：
获取用于训练神经网络的视频数据；
构建一个含有多参考帧的神经网络；
基于所述视频数据对所述含有多参考帧的神经网络进行训练，得到训练好的神经网络；
基于所述训练好的神经网络对视频进行编码。

2.根据权利要求1所述的方法，其特征在于，所述构建一个含有多参考帧的神经网络，包括：
构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块；
构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块；
构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块；
构建用于获得重建运动场的运动重建模块；
构建用于获得当前帧的预测的运动补偿模块；
构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块；
构建用于获得重建帧的帧重建模块。

3.根据权利要求1所述的方法，其特征在于，所述构建一个含有多参考帧的神经网络，包括：
构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块；
构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块；
构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块；
构建用于获得重建运动场的运动重建模块；
构建用于改善重建运动场的运动场改善模块；
构建用于获得当前帧的预测的运动补偿模块；
构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块；
构建用于获得重建帧的帧重建模块。

4.根据权利要求1所述的方法，其特征在于，所述构建一个含有多参考帧的神经网络，包括：
构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块；
构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块；
构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块；
构建用于获得重建运动场的运动重建模块；
构建用于改善重建运动场的运动场改善模块；
构建用于获得当前帧的预测的运动补偿模块；
构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块；
构建用于改善重建残差的残差改善模块；
构建用于获得重建帧的帧重建模块。

5.根据权利要求1所述的方法，其特征在于，所述基于所述视频数据对所述含有多参考帧的神经网络进行训练，得到训练好的神经网络，包括：
基于所述视频数据，采用渐进式训练方法在训练集上训练所述含有多参考帧的神经网络，...

【专利技术属性】
技术研发人员：刘东，林建平，李厚强，吴枫，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人