一种基于关键目标的深度视频压缩算法制造技术

技术编号:38194772 阅读:13 留言:0更新日期:2023-07-20 21:15
本发明专利技术提出一种基于关键目标的深度视频压缩算法,模型主要包括两部分。第一部分是基于长短期注意力机制的语义分割网络,该模块利用长期注意力机制和短期注意力机制以聚合目标的信息并学习时间平滑性,生成高质量的特征图,最后,通过解码器输出带有语义信息的帧序列。第二部分是基于残差编码的深度视频压缩网络DVC,通过对输入帧序列做运动估计提取运动信息,并将运动编解码后的运行信息做残差,然后对残差进行压缩,最后将重建的残差与运动信息相加重建帧序列。息相加重建帧序列。息相加重建帧序列。

【技术实现步骤摘要】
一种基于关键目标的深度视频压缩算法


[0001]本专利技术属于视频压缩
,具体一种基于关键目标的深度视频压缩算法。

技术介绍

[0002]在过去的几十年里,已经提出了一些传统的视频压缩算法,如H.264和H.265。这些算法大多遵循预测编码体系结构。尽管它们提供了高效的压缩性能,但它们是手工设计的,如基于块的运动估计和离散余弦变换(DCT),不能以端到端方式共同优化。随着近些年来神经网络的发展,端到端的视频编码技术也有了迅猛的发展。现有的大多数神经视频编解码器的工作大致可以分为三类:基于残差编码的、基于条件编码的和基于3D自动编码器的解决方案。其中,许多方法属于基于残差编码的解。残差编码来自于传统的混合视频编解码器。具体来说,首先生成运动补偿预测,然后对其与当前帧的残差进行编码。对于基于条件编码的解决方案,时间帧或特征作为当前帧编码的条件。与残差编码相比,条件编码具有较低或相等的熵界。而基于3D自编码器的解决方案,是通过扩展输入维数,对神经图像编解码器的自然延伸,但是它带来了较大的编码延迟,大大增加了内存开销。综上所述,这些已有的工作大多集中在如何通过探索不同的数据流或网络结构来生成优化的潜在表示。

技术实现思路

[0003]本专利技术提出一种基于关键目标的深度视频压缩算法,模型主要包括两部分。第一部分是基于长短期注意力机制的语义分割网络,该模块利用长期注意力机制和短期注意力机制以聚合目标的信息并学习时间平滑性,生成高质量的特征图,最后,通过解码器输出带有语义信息的帧序列。第二部分是基于残差编码的深度视频压缩网络,通过对输入帧序列做运动估计提取运动信息,并将运动编解码后的运行信息做残差,然后对残差进行压缩,最后将重建的残差与运动信息相加重建帧序列。具体如下:一种基于关键目标的深度视频压缩算法,包括下述步骤:输入被压缩对象到语义分割网络;语义分割网络进行前景分割;语义分割网络输出与输入对应的前景分割图;将所述前景分割图和参考帧输入到编码网络;提取当前帧和参考帧的运动信息;对所述运动信息压缩编码;将重构的运动信息和参考帧输入到运动补偿模块;运动补偿模块输出初步预测帧;计算所述初步预测帧与输入帧之间的残差;将所述残差输入到压缩网络中;所述压缩网络对残差进行压缩与编码;将重构的残差与所述初步预测帧相加,得到最后的重建帧。
[0004]在上述方案的基础上,所述语义分割网络为一个基于长短期注意力的语义分割网络;其具体工作步骤为:通过编码器提取视频帧序列中的特征;利用长短期transformer学习当前帧对应的特征并传递给下一帧对应的长短期transformer;通过解码器输出语义分割帧序列。
[0005]在上述方案的基础上,所述编码网络为基于重要性图的运动编码网络;其具体工作步骤为:编码器对输入的运动信息压缩、量化,得到一个初步的量化码流;重要性映射子网络从运动信息中学习一个重要性图,生成重要性mask,利用重要性mask对初步量化码流修剪生成最终的量化码流;解码器对量化码流解码,重建运动信息。
[0006]在上述方案的基础上,所述运动补偿网络利用重构的运动信息将参考帧扭曲为一个扭曲帧,利用卷积神经网络消除扭曲帧中的空间不连续现象,得到初步的预测帧。
[0007]本专利技术还提出一种基于关键目标的深度视频压缩设备,包括:语义分割模块、编码网络、运动补偿模块、第一运算模块、压缩网络、第二运算模块;所述语义分割模块用于进行前景分割,输出与输入对应的前景分割图;所述编码网络用于提取当前帧和参考帧的运动信息,对所述运动信息压缩编码;所述运动补偿模块用于输出初步预测帧;所述第一运算模块用于计算所述初步预测帧与输入帧之间的残差;所述压缩网络用于对残差进行压缩与编码;所述第二运算模块用于重构的残差与所述初步预测帧相加,得到最后的重建帧。
[0008]在上述方案的基础上,所述语义分割模块包括编码器、解码器;所述编码器用于提取视频帧序列中的特征,所述解码器用于输出语义分割帧序列。
[0009]在上述方案的基础上,所述编码网络包括编码器、解码器和重要性映射子网络;所述编码器用于对输入的运动信息压缩、量化;所述重要性映射子网络用于生成重要性mask,利用重要性mask对初步量化码流修剪生成最终的量化码流;所述解码器对量化码流解码,重建运动信息。
[0010]在上述方案的基础上,所述运动补偿模块利用重构的运动信息将参考帧扭曲为一个扭曲帧,利用卷积神经网络消除扭曲帧中的空间不连续现象,得到初步的预测帧。
[0011]本专利技术的有益效果:本专利技术的针对视频聊天和视频会议的深度视频编码算法,能够有效保证关键目标视觉效果的同时,降低整体码率。
附图说明
[0012]本专利技术有如下附图:图1为本专利技术实施例所述的一种基于关键目标的深度视频压缩方法流程框架示意
图;图2为本专利技术实施例所述的运动编码网络框架;图3为本专利技术实施例所述的运动补偿网络框架;图4为本专利技术实施例所述的算法在关键目标的测试结果;图5为本专利技术实施例所述的算法在整体的测试结果。
具体实施方式
[0013]为使本专利技术的目的、优点和特征更加显而易见,下面结合附图1

5和具体实施方式对本专利技术进行进一步的详细说明。
[0014]参考图1,一种基于关键目标的深度视频压缩方法具体实施例:包括如下步骤:步骤(1):首先输入一组视频帧序列到语义分割网络提取关键目标帧序列。
[0015]步骤(2):将关键目标帧和参考帧输入到运动估计模块,提取运动信息输入到运动编码网络中压缩编码。
[0016]步骤(3):将重构的运动信息和参考帧输入到运动补偿网络,扭曲、细化后得到初步预测帧。
[0017]步骤(4):将输入帧和初步预测帧之间的残差输入到残差编码网络进行压缩编码,并将重构的残差与初步预测帧求和得到最后的重建帧。
[0018]在视频编码的具体过程中,首先,将带有语义信息的帧序列输入到视频压缩网络中,针对前景和背景采用不同的压缩率进行编码,基于重要性映射的端到端视频编码网络包括光流估计、运动编码、运动补偿、残差编码、比特估计等模块,首先将当前帧和重建的参考帧输入到光流估计子网络中提取运动信息,随后将运动信息 输入到运动编码子网络中提取高维特征并进行量化编码,随后将重构的 输入到运动解码子网络重构为运动信息,与重建的参考帧共同输入到运动补偿子网络中生成初步预测帧 ,当前帧和预测帧的残差将进入残差编解码器中压缩并重构为残差,重构的残差和初步预测帧相加得到最后的重构帧。
[0019]参考图2,在步骤(1)中,提出了一个基于长短期注意力的语义分割网络,首先通过编码器提取视频帧序列中的特征,然后利用长短期transformer学习和传递特征给下一个单元,最后通过解码器输出语义分割帧序列。
[0020]参考图3,在步骤(2)中,提出了基于重要性图的运动编码网络,该网络包括编码器、解码器和重要性映射子网络。编码器首先对输入的运动信息压缩、量化,得到一个初步的量化码流。重要性映射子网络从运动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键目标的深度视频压缩算法,其特征在于,包括下述步骤:输入被压缩对象到语义分割网络;语义分割网络进行前景分割;语义分割网络输出与输入对应的前景分割图;将所述前景分割图和参考帧输入到编码网络;提取当前帧和参考帧的运动信息;对所述运动信息压缩编码;将重构的运动信息和参考帧输入到运动补偿模块;运动补偿模块输出初步预测帧;计算所述初步预测帧与输入帧之间的残差;将所述残差输入到压缩网络中;所述压缩网络对残差进行压缩与编码;将重构的残差与所述初步预测帧相加,得到最后的重建帧。2.根据权利要求1所述的一种基于关键目标的深度视频压缩算法,其特征在于,所述语义分割网络为一个基于长短期注意力的语义分割网络;其具体工作步骤为:通过编码器提取视频帧序列中的特征;利用长短期transformer学习当前帧对应的特征并传递给下一帧对应的长短期transformer;通过解码器输出语义分割帧序列。3.根据权利要求1所述的一种基于关键目标的深度视频压缩算法,其特征在于,所述编码网络为基于重要性图的运动编码网络;其具体工作步骤为:编码器对输入的运动信息压缩、量化,得到一个初步的量化码流;重要性映射子网络从运动信息中学习一个重要性图,生成重要性mask,利用重要性mask对初步量化码流修剪生成最终的量化码流;解码器对量化码流解码,重建运动信息。4.根据权利要求1所述的一种基于关键目标的深度视频压缩算法,其特征在于,所述运动补偿网络利用重构的运动信息将参考帧扭...

【专利技术属性】
技术研发人员:白慧慧邹同元钟烨
申请(专利权)人:航天恒星科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1