一种应用于视频压缩技术的运动补偿方法技术

技术编号:24504349 阅读:136 留言:0更新日期:2020-06-13 06:43
本发明专利技术提供一种应用于视频压缩技术的运动补偿方法,属于涉及视频压缩,人工智能,深度学习技术领域,本发明专利技术将传统视频压缩技术中的中间结果光流图与参考帧与光流图和参考帧的合成图像三者进行串联作为运动补偿神经网络的输入。利用深度学习技术在处理图像视频方面的优势帮助视频压缩技术提升压缩效果。

A motion compensation method applied to video compression technology

【技术实现步骤摘要】
一种应用于视频压缩技术的运动补偿方法
本专利技术涉及视频压缩,人工智能,深度学习技术,尤其涉及一种应用于视频压缩技术的运动补偿方法。
技术介绍
通常,视频压缩编码器基于输入的当前帧生成比特流。解码器根据接收到的比特流重建视频帧。传统视频压缩技术大致包含六个步骤,包括:运动估计,运动补偿,变换和量化,逆转换,熵编码,视频帧重构六部分。运动估计:通过获得每个事先划分好的的像素块的对应运动矢量,来估计当前帧xt和先前的重建帧xt-1之间的运动。运动补偿:通过在运动估计中得到的运动矢量vt,将先前重建帧中的相应像素复制到当前帧中,从而获得预测帧xt。原始帧xt和预测帧x-t之间的残差rt。rt=xt-x^t。变换和量化:将运动补偿得来的残差进行量化为yt。在量化之前使用变换(例如,DCT)以获得更好的压缩性能。逆变换:通过逆变换将上一步中的量化结果yt用于获得重构残差rt。熵编码:通过将运动估计中的运动矢量vt和量化的结果yt都编码为比特,并发动给解码器。视频帧重建:通过将运动补偿获得的当前帧的预测帧与逆变换回的残差相加生成重构帧x^t。传统基于规则式的运动补偿方法无法学习到视频帧与视频帧之间的非线性映射规则,因此补偿后的结果较为粗糙导致后续残差结果较大难以有效提高压缩效率。
技术实现思路
为了解决以上技术问题,本专利技术提出了一种应用于视频压缩技术的运动补偿方法,通过利用深度学习技术在处理图像视频方面的优势帮助视频压缩技术提升压缩效果。本专利技术的技术方案是:一种应用于视频压缩技术的运动补偿方法,将传统视频压缩技术中的中间结果光流图与参考帧与光流图和参考帧的合成图像三者进行串联作为运动补偿神经网络的输入。运动补偿神经网络的输入是运动估计得来的像素的运动矢量vt,上一帧重构图像x^t-1,和vt与x^t-1重构图w(x^t-1,vt)。vt的储存形式为光流图通道数为2,x^t-1储存形式为图像通道数为3,w(x^t-1,vt)储存形式为图像通道数为3,因此神经网络的输入为三者串联的通道数为8,宽高为输入图像大小的张量。具体步骤如下:步骤一:将运动估计得来的像素的运动矢量vt,上一帧重构图像x^t-1,和vt与x^t-1重构图w(x^t-1,vt)串联成为8通道的张量作为神经网络的输入。步骤二:利用第一层卷积层conv_1对步骤一的输入做卷积操作,卷积操作的具体方法为利用64个大小为3x3的卷积核进行步长为1的卷积操作。输出设为conv_1_out。步骤三:将conv_1_out作为输入传进第一层残差层res_1。将该层的输出设为res_1_out。步骤四:利用第一个下采样层pool_1对步骤三的输出res_1_out进行下采样,下采样是利用大小为3x3的64个卷积核进行步长为2的下采样进行操作,该层输出设为pool_1_out。步骤五:将pool_1_out作为输入传进第二层残差层中res_2,输出结果设为res_2_out。步骤六:将res_2_out作为输入传进第二层下采样层中pool_2,该层操作与步骤四相同,输出设为pool_2_out。步骤七:pool_2_out作为输入传进第三个残差块res_3,并得倒输出res_3_out。步骤八:将res_3_out作为输入传进第四个残差块res_4,并且得到输出res_4_out。步骤九:将res_4_out通过反卷积进行上采样操作。该层为第一层上采样层UpSampling_1。卷积方式为利用64个大小为3x3的卷积核进行补偿为2的上采样,输出设为UpSampling_1_out。步骤十:将res_2_out与UpSampling_1_out求和作为输入传进第五个残差块res_5,输出为res_5_out。步骤十一:将res_5_out作为输入传进第二个上采样层UpSampling_2,操作方法与UpSampling_1相同。将输出设为UpSampling_2_out。步骤十二:将red_1_out与UpSampling_2_out之和作为输入传进第六个残差块res_6,输出设为res_6_out。步骤十三:将res_6_out作为输入传进第二个卷积层conv_2卷积方式与conv_1相同。输出设为conv_2_out。步骤十四:将conv_2_out作为输入传进第三个卷积层conv_3,卷积方式为利用3个大小为3x3的卷积核进行步长为1的卷积操作,将张量最终复原成为3通道的图像数据。本专利技术对传统视频压缩流程中的运动补偿部分进行替换改进,利用深度学习技术在处理图像视频方面的优势帮助视频压缩技术提升压缩效果。在保持传统视频压缩框架后流程下,利用神经网络的思想,搭建卷积残差网络对传统视频压缩中的运动补偿部分进行改进替换最终达到提升视频压缩效果的目的。本专利技术的有益效果是1)全卷积网络适应任何大小的输入图片;2)大残差块套小残差块保证特征信息在网络的传输过程中信息不丢失,加速训练时模型的收敛速度;3)网络中的下采样与上采样全是通过卷积操作实现。附图说明图1是本专利技术的工作流程示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术主要用于替代和优化传统视频压缩流程中的运动补偿模块。将基于传统技术而进行的运动补偿替换成基于神经网络技术的运动补偿模块。运动补偿神经网络的输入是运动估计得来的像素的运动矢量vt,上一帧重构图像x^t-1,和vt与x^t-1重构图w(x^t-1,vt)。vt的储存形式为光流图通道数为2,x^t-1储存形式为图像通道数为3,w(x^t-1,vt)储存形式为图像通道数为3,因此神经网络的输入为三者串联的通道数为8,宽高为输入图像大小的张量。具体步骤如下:步骤一:将运动估计得来的像素的运动矢量vt,上一帧重构图像x^t-1,和vt与x^t-1重构图w(x^t-1,vt)串联成为8通道的张量作为神经网络的输入。步骤二:利用第一层卷积层conv_1对步骤一的输入做卷积操作,卷积操作的具体方法为利用64个大小为3x3的卷积核进行步长为1的卷积操作。输出设为conv_1_out。步骤三:将conv_1_out作为输入传进第一层残差层res_1。将该层的输出设为res_1_out。步骤四:利用第一个下采样层pool_1对步骤三的输出res_1_out进行下采样,下采样是利用大小为3x3的64个卷积核进行步长为2的下采样进行操作,该层输出设为pool_1_out。步骤五:将pool_1本文档来自技高网...

【技术保护点】
1.一种应用于视频压缩技术的运动补偿方法,其特征在于,/n将传统视频压缩技术中的中间结果光流图与参考帧与光流图和参考帧的合成图像三者进行串联作为运动补偿神经网络的输入。/n

【技术特征摘要】
1.一种应用于视频压缩技术的运动补偿方法,其特征在于,
将传统视频压缩技术中的中间结果光流图与参考帧与光流图和参考帧的合成图像三者进行串联作为运动补偿神经网络的输入。


2.根据权利要求1所述的方法,其特征在于,
运动补偿神经网络的输入是运动估计得来的像素的运动矢量vt,上一帧重构图像x^t-1,和vt与x^t-1重构图w(x^t-1,vt)。


3.根据权利要求2所述的方法,其特征在于,
vt的储存形式为光流图通道数为2,x^t-1储存形式为图像通道数为3,w(x^t-1,vt)储存形式为图像通道数为3,因此神经网络的输入为三者串联的通道数为8,宽高为输入图像大小的张量。


4.根据权利要求3所述的方法,其特征在于,
步骤如下:
步骤一:将运动估计得来的像素的运动矢量vt,上一帧重构图像x^t-1,和vt与x^t-1重构图w(x^t-1,vt)串联成为8通道的张量作为神经网络的输入;
步骤二:利用第一层卷积层conv_1对步骤一的输入做卷积操作,输出设为conv_1_out;
步骤三:将conv_1_out作为输入传进第一层残差层res_1。将该层的输出设为res_1_out;
步骤四:利用第一个下采样层pool_1对步骤三的输出res_1_out进行下采样,该层输出设为pool_1_out;
步骤五:将pool_1_out作为输入传进第二层残差层中res_2,输出结果设为res_2_out;
步骤六:将res_2_out作为输入传进第二层下采样层中pool_2,该层操作与步骤四相同,输出设为pool_2_out;
步骤七:pool_2_out作为输入传进第三个残差块res_3,并得倒输出res_3_ou...

【专利技术属性】
技术研发人员:安程治李锐金长新
申请(专利权)人:济南浪潮高新科技投资发展有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1