一种视频帧预测方法、装置及终端设备制造方法及图纸

技术编号:24419157 阅读:22 留言:0更新日期:2020-06-06 13:07
本发明专利技术适用于视频帧预测技术领域,提供了一种视频帧预测方法、装置及终端设备,所述方法包括:将当前帧的前一帧和当前帧输入编码网络并进行熵编码后得到二进制码流;将所述二进制码流输入解码网络进行熵解码后得到所述当前帧的前一帧和当前帧的形变参数和mask;基于所述形变参数对所述当前帧的前一帧进行形变得到形变帧;根据所述mask和形变帧得到预测帧。本发明专利技术利用自适应形变卷积的空间变换能力来完成运动压缩,利用更少的码字来进行更复杂的运动描述,结合使用光流和卷积核来进行更好的运动描述,从而提升了视频压缩的质量。

A video frame prediction method, device and terminal equipment

【技术实现步骤摘要】
一种视频帧预测方法、装置及终端设备
本专利技术属于视频帧预测
,尤其涉及一种视频帧预测方法、装置及终端设备。
技术介绍
当前基于深度学习的空间变换方法主要分为两大类:光流估计法和自适应卷积核估计法。光流估计法用于描述简单的大运动,而自适应卷积可以利用像素点融合描述复杂的小运动。当视频中同时存在大运动和小运动时,使用光流估计法则不能很好的描述小运动,使用自适应卷积则不能很好的描述大运动,导致视频压缩效率不高。因此,有必要提出一种新的技术方案,来解决上述问题。
技术实现思路
有鉴于此,本专利技术实施例提供了一种视频帧预测方法、装置及终端设备,以解决现有技术中视频压缩质量不高的问题。本专利技术实施例的第一方面提供了一种视频帧预测方法,包括:将当前帧的前一帧和当前帧输入编码网络并进行熵编码后得到二进制码流;将所述二进制码流输入解码网络进行熵解码后得到所述当前帧的前一帧和当前帧的形变参数和mask(掩膜);基于所述形变参数对所述当前帧的前一帧进行形变得到形变帧;根据所述mask和形变帧得到预测帧。本专利技术实施例的第二方面提供了一种视频帧预测装置,包括:编码模块,用于将当前帧的前一帧和当前帧输入编码网络并进行熵编码后得到二进制码流;解码模块,将所述二进制码流输入解码网络进行熵解码后得到所述当前帧的前一帧和当前帧的形变参数和mask;形变模块,基于所述形变参数对所述当前帧的前一帧进行形变得到形变帧;预测帧模块,根据所述mask和形变帧得到预测帧。本专利技术实施例的第三方面提供了一种视频帧预测终端设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上第一方面所提供的方法的步骤。本专利技术实施例的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上第一方面所提供的方法的步骤。本专利技术实施例与现有技术相比存在的有益效果是:本专利技术利用自适应形变卷积的空间变换能力来完成运动压缩,利用更少的码字来进行更复杂的运动描述,结合使用光流和卷积核来进行更好的运动描述,从而提升了视频压缩的质量。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的视频帧预测方法的实现流程示意图;图2是本专利技术实施例提供的视频帧预测装置的示意图;图3是本专利技术实施例提供的视频帧预测终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。实施例一图1示出了本专利技术实施例一提供的视频帧预测方法的实现流程,该方法的执行主体可以是终端设备,详述如下:步骤S101,将当前帧的前一帧和当前帧输入编码网络并进行熵编码后得到二进制码流。可选地,将当前帧的前一帧和当前帧输入编码网络即编码器中,生成对应的特征信息。进一步地,对上述特征信息进行熵编码得到二进制码流。可选地,上述编码网络为卷积神经网络,该卷积神经网络可以包括至少一个卷积层。进一步地,上述卷积层可包括卷积核,输入卷积层的图像经过与卷积核的卷积运算后去除冗余的图像信息,输出包含特征信息的图像。在经过多个卷积层的处理后,输入卷积神经网络的图像的尺寸经过了多级收缩,得到多幅尺寸小于输入神经网络的图像尺寸的特征信息。步骤S102,将上述二进制码流输入解码网络进行熵解码后得到上述当前帧的前一帧和当前帧的形变参数和mask。可选地,对上述二进制码流进行熵解码后得到当前帧的前一帧和当前帧的性变参数和mask。其中,上述编解码可以是香农(Shannon)编码、哈夫曼(Huffman)编码或者算术编码(arithmeticcoding)等熵编码方案,此处不作限定。步骤S103,基于上述形变参数对上述当前帧的前一帧进行形变得到形变帧。可选地,根据上述形变参数对当前帧的前一帧进行形变后得到形变帧。具体地,根据上述形变参数即形变的坐标偏移量,将当前帧的前一帧warp(图像仿射变换)到指定位置得到形变帧。步骤S104,根据上述mask和形变帧得到预测帧。可选地,根据上述mask,对上述形变帧进行卷积操作后得到预测帧,即将mask与上述形变帧相乘得到预测帧。可选地,在上述根据上述mask和形变帧得到预测帧后,还包括:将上述预测帧与当前帧相减得到残差;将上述残差输入残差压缩网络得到解压残差;可选地,其中残差压缩网络为包含上采样层、编码网络、解码网络和下采样层的神经网络。将残差输入残差压缩网络,对上述残差进行编码得到残差比特流,再基于解码网络对上述残差比特流进行解码并下采样得到解压残差。将上述预测帧与上述解压残差相加得到重构帧。本实施例中,通过利用自适应形变卷积的空间变换能力来完成运动压缩,利用更少的码字来进行更复杂的运动描述,结合使用光流和卷积核来进行更好的运动描述,从而提升了视频压缩的质量。应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本专利技术实施例的实施过程构成任何限定。实施例二图2示出了本专利技术实施例提供的视频帧预测装置的结构框图,为了便于说明,仅示出了与本专利技术实施例相关的部分。该视频帧预测装置2包括:编码模块21,解码模块22,形变模块23,预测帧模块24。其中,编码模块21,用于将当前帧的前一帧和当前帧输入编码网络并进行熵编码后得到二进制码流;解码模块22,将上述二进制码流输入解码网络进行熵解码后得到上述当前帧的前一帧和当前帧的形变参数和mask;形变模块23,基于上述形变参数对上述当前帧的前一帧进行形变得到形变帧;预测帧模块24,根据上述mask和形变帧得到预测帧。进一步地,上述性变参数为形变的坐标偏移量。可选地,上述形变模块23包括:warp单元,用于根据上述形变参数对上述当前帧的前一帧进行warp操作后得到形变帧。可选地,上述预测帧模块24包括:卷积单元,用于根据上述mask,对上述形变帧进行卷积操作后得到预测帧。可选地,上述视频帧预测装置2还包括:重构帧模块,用于将上述预测帧和当前帧相减得到残差,将上述残差输入残差压缩网络得到解压残差,将上述预测帧与上述解压残差相加得到本文档来自技高网...

【技术保护点】
1.一种视频帧预测方法,其特征在于,包括:/n将当前帧的前一帧和当前帧输入编码网络并进行熵编码后得到二进制码流;/n将所述二进制码流输入解码网络进行熵解码后得到所述当前帧的前一帧和当前帧的形变参数和mask(掩膜);/n基于所述形变参数对所述当前帧的前一帧进行形变得到形变帧;/n根据所述mask和形变帧得到预测帧。/n

【技术特征摘要】
1.一种视频帧预测方法,其特征在于,包括:
将当前帧的前一帧和当前帧输入编码网络并进行熵编码后得到二进制码流;
将所述二进制码流输入解码网络进行熵解码后得到所述当前帧的前一帧和当前帧的形变参数和mask(掩膜);
基于所述形变参数对所述当前帧的前一帧进行形变得到形变帧;
根据所述mask和形变帧得到预测帧。


2.如权利要求1所述的视频帧预测方法,其特征在于,
所述形变参数为形变的坐标偏移量。


3.如权利要求1所述的视频帧预测方法,其特征在于,所述基于所述形变参数对所述当前帧的前一帧进行形变得到形变帧包括:
根据所述形变参数对所述当前帧的前一帧进行warp操作后得到形变帧。


4.如权利要求1所述的视频帧预测方法,其特征在于,所述根据所述mask和形变帧得到预测帧包括:
根据所述mask,对所述形变帧进行卷积操作后得到预测帧。


5.如权利要求1所述的视频帧预测方法,其特征在于,在所述根据所述mask和形变帧得到预测帧后,还包括:
将所述预测帧与当前帧相减得到残差;
将所述残差输入残差压缩网络得到解压残差;
将所述预测帧与所述解压残差相加得到重构帧。


6.一种视频帧预测装...

【专利技术属性】
技术研发人员:于泓久
申请(专利权)人:合肥图鸭信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1