一种基于深度神经网络的信号处理方法技术

技术编号:27009954 阅读:29 留言:0更新日期:2021-01-08 17:18
本发明专利技术公开了一种基于深度神经网络的信号处理方法,首先根据当前帧与前一帧均方差的阈值将视频帧分为关键帧和非关键帧,再分别对应为其训练网络模型进行压缩;对于非关键帧,采用了基于上下文与超先验的熵模型自编码器进行帧内预测;对于非关键帧,提取光流信息和深度信息结合生成运动信息,从而进行帧重构,再对重构帧与真实帧之间的残差进行提取编码,最终在解码端根据传输的运动信息和残差信息结合前一帧来生成当前帧。本发明专利技术充分利用了深度神经网络强大的非线性表达能力和联合训练的优势,是一个压缩效果超越h.264的端到端视频压缩方法。

【技术实现步骤摘要】
一种基于深度神经网络的信号处理方法
本专利技术涉及涉及视频压缩领域,具体涉及一种结合光流信息与深度信息进行帧预测的视频压缩方法。
技术介绍
图像/视频编码通常是指将图像/视频压缩成二进制代码以便于存储和传输的计算技术。压缩根据能否保证图像/视频从比特完美地重建分为无损编码和有损编码。对于自然图像/视频,无损编码的压缩效率通常低于要求,因此大部分工作都集中在有损编码上。有损图像/视频编码解决方案主要从两个方面进行评估:一是压缩效率,通常用比特数(编码速率)来衡量,越低越好;其次是产生的损失,通常用重构图像/视频的质量来衡量,与原始图像/视频相比,质量越高越好。图像/视频编码是计算机图像处理、计算机视觉和视觉通信的基础和实现技术。在过去的三十年中,已经制定了一系列关于图像/视频编码的标准。如JPEG、JPEG2000、H.264,H.265,等等。目前,H.265/HEVC于2013年正式出版,代表了最先进的图像/视频编码技术。目前,视频已经占据了互联网接近80%的流量,而这数字预计仍会继续上升。另一方面,随着视频技术的进步,特别是超高清视频的普及,也迫切需要进一步提高压缩效率,在有限的存储和有限的传输带宽下适应超高清视频。因此,HEVC、MPEG和VCEG组成联合视频专家团队(JointVideoExpertsTeam,JVET),探索先进的视频编码技术,并开发联合探索模型(JointExplorationModel,JEM)进行研究。此外,自2018年以来,JVET团队一直致力于开发一种新的视频编码标准,非正式地称为通用视频编码(VVC),作为HEVC的继承者。预计VVC在保持相同质量的同时,相比HEVC可节省约50%的比特,从而提高压缩效率,尤其是对于高清视频而言。尽管如此,值得注意的是,VVC的改进可能是以乘性编码/解码复杂度为代价实现的。近年来,深度神经网络在图像处理领域取得了很大的进展,在视频处理如视频检测、视频超分辨、视频去噪等方面也有了一定的发展。深度神经网络因其强大的线性表达能力和联合训练的优势,在图像/视频领域表现出了强大的潜力。但深度神经网络在视频压缩方面的发展还处于起步阶段,也因此,拥有广泛的前景和可能。目前,深度学习在视频压缩领域的应用主要分为两大类,其一是作为深度学习工具应用于传统视频编码器,至今已有很多工作证明将传统编码模块与深度学习结合是非常有效的,这些模块包括且不限于运动补偿和插帧网络,帧内预测编码模块,比特率控制模块和后处理模块;其二是以深度神经网络为视频编码核心的端到端深度视频压缩框架。由于目前深度视频压缩是一个新兴的研究题目,因此至今为止所提出的端到端深度视频压缩内容并不多。
技术实现思路
本专利技术的目的在于提供一种基于深度神经网络的信号处理方法(视频压缩方法),利用神经网络强大的非线性表达能力和联合训练的优势,构建一个端到端的视频压缩框架,包括如下步骤:S1,收集和整理公开的高清视频数据集,构建神经网络训练集和测试集;S2,对于待压缩视频,计算前后两帧间的均方差,并根据阈值将帧分为关键帧和非关键帧;对于关键帧,采用帧内预测,即图像压缩的方式;对于非关键帧,则采用帧间预测;S3,构建和训练两个网络模型分别用于关键帧和非关键帧的压缩;对于关键帧:构建用于图像压缩的自编码器和基于上下文的熵模型和超先验网络对其进行压缩传输;构建自编码器输入端对帧进行特征提取编码传输到输出端,在输出端根据提取的信息解码恢复图像;构建上下文和超先验网络分别利用帧内的上下文与超先验信息来估计编码的比特率;对于非关键帧:构建光流网络和深度网络进行帧间预测,估计前一帧与当前帧之间的运动信息,并通过将前一帧像素搬移得到当前帧,并计算其与真实的当前帧之间的残差;本步骤中的光流与深度信息及残差信息都用结合超先验的熵模型卷积神经网络自编码器进行传输和码率估计;S4,对于步骤S3中的网络,分别采用率失真优化的训练策略进行端到端的联合训练,采用率即编码特征图所需的比特率,失真即重建帧与真实的当前帧之间的均方差。优选的,步骤S1中,训练集采用viemo90K。优选的,步骤S1中,测试集采用HEVC标准测试序列:ClassA、ClassB、ClassC、ClassD和ClassE。优选的,步骤S3中,光流网络采用SpyNet;SpyNet将经典光流估计中的空间分层手段与深度神经网络相结合,以一种从粗糙到精细的方式实现光流估计。优选的,步骤S3中,深度网络采用MegaDepth;采用InternetSFM+MVS数据来解决单点深度估计问题;首先,采用在深度估计上更稳定的基于COLMAP的改善的MVS算法,然后,采用语意分割的方法强化和过滤(实体感知过滤器)深度映射,并且产生额外的相对深度数据。优选的,步骤S3中,编码光流和残差的自编码器都分别应用与S3中自编码器相同的网络结构来构建,包含自编码器网络、上下文与超先验网络、熵估计网络。优选的,步骤S3中,对于关键帧:首先,待压缩帧,例如的RGB图像,输入到自编码器编码端,经过卷积神经网络四层下采样,变成的192通道特征图,量化后分别输入到上下文和超先验网络,输出记为c1、c2,c1、c2在通道数上连接之后输入到熵估计网络;熵估计网络的输出分为两部分,分别作为自编码器输出的192个通道的特征图的μ和σ,即192个μ和192个σ,通过高斯误差函数erf进行概率估计,在训练和测试时估计编码特征图所需的码流;在输出端,解码器将来自编码端的数据进行解码,重建当前帧。优选的,步骤S3中,对于非关键帧:将前一帧和当前帧输入到光流网络获取光流信息,将当前帧输入到深度网络中获取深度信息,将光流信息与深度信息结合,融合前一帧得到当前帧,并计算其与真实的当前帧之间的残差;残差输入到自编码器网络中进行传输;在解码端,根据传输的残差信息、光流与深度信息,将重建的前一帧与光流与深度信息融合,并与残差信息相加,得到重建的当前帧。优选的,步骤S4中,通过用优化器Adam对网络模型进行训练;在训练中,可以通过改变λ的值来训练出具有不同压缩比的网络模型;λ越大,则训练出的网络失真越小,但比特率会相应增加;对于帧内预测:D为帧重建前后的失真,R为编码特征图和超先验特征的比特率;对于帧间预测:D为重建帧与真实的当前帧之间的失真,R包括两部分,一部分是编码光流和深度信息所用的比特率,一部分是编码残差所需的比特率。本专利技术构建一个基于深度神经网络的端到端视频压缩框架,并利用光流信息和深度信息进行帧预测,以解决运动信息较复杂时压缩性能大幅下降的问题,同时实现视频压缩各模块的联合训练,达到整体的最优效果。与现有技术相比,本专利技术具有以下有益的技术效果:本专利技术将视频压缩分为关键帧和非关键帧的压缩,并由计算前后两帧的均方差,与设定阈值相比较来确定时关键帧和非关键帧;对于关键帧采用帧内预测方式,执行图像压缩的方案,对于非关键帧则采用帧间预测。进一步地,对于帧间预测,本专利技术提出了本文档来自技高网
...

【技术保护点】
1.一种基于深度神经网络的信号处理方法,其特征在于,利用神经网络的非线性表达能力和联合训练,构建一个端到端的视频压缩框架,包括如下步骤:/nS1,收集和整理公开的高清视频数据集,构建神经网络训练集和测试集;/nS2,对于待压缩视频,计算前后两帧间的均方差,并根据阈值将帧分为关键帧和非关键帧;/n对于关键帧,采用帧内预测;/n对于非关键帧,则采用帧间预测;/nS3,构建和训练两个网络模型分别用于关键帧和非关键帧的压缩;/n对于关键帧:构建用于图像压缩的自编码器和基于上下文的熵模型和超先验网络对其进行压缩传输;构建自编码器输入端对帧进行特征提取编码传输到输出端,在输出端根据提取的信息解码恢复图像;构建上下文和超先验网络分别利用帧内的上下文与超先验信息来估计编码的比特率;/n对于非关键帧:构建光流网络和深度网络进行帧间预测,估计前一帧与当前帧之间的运动信息,并通过将前一帧像素搬移得到当前帧,并计算其与真实的当前帧之间的残差;光流与深度信息及残差信息都用结合超先验的熵模型卷积神经网络自编码器进行传输和码率估计;/nS4,对于步骤S3中的网络,分别采用率失真优化的训练策略进行端到端的联合训练,采用率即编码特征图所需的比特率,失真即重建帧与真实的当前帧之间的均方差。/n...

【技术特征摘要】
1.一种基于深度神经网络的信号处理方法,其特征在于,利用神经网络的非线性表达能力和联合训练,构建一个端到端的视频压缩框架,包括如下步骤:
S1,收集和整理公开的高清视频数据集,构建神经网络训练集和测试集;
S2,对于待压缩视频,计算前后两帧间的均方差,并根据阈值将帧分为关键帧和非关键帧;
对于关键帧,采用帧内预测;
对于非关键帧,则采用帧间预测;
S3,构建和训练两个网络模型分别用于关键帧和非关键帧的压缩;
对于关键帧:构建用于图像压缩的自编码器和基于上下文的熵模型和超先验网络对其进行压缩传输;构建自编码器输入端对帧进行特征提取编码传输到输出端,在输出端根据提取的信息解码恢复图像;构建上下文和超先验网络分别利用帧内的上下文与超先验信息来估计编码的比特率;
对于非关键帧:构建光流网络和深度网络进行帧间预测,估计前一帧与当前帧之间的运动信息,并通过将前一帧像素搬移得到当前帧,并计算其与真实的当前帧之间的残差;光流与深度信息及残差信息都用结合超先验的熵模型卷积神经网络自编码器进行传输和码率估计;
S4,对于步骤S3中的网络,分别采用率失真优化的训练策略进行端到端的联合训练,采用率即编码特征图所需的比特率,失真即重建帧与真实的当前帧之间的均方差。


2.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S1中,训练集采用viemo90K。


3.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S1中,测试集采用HEVC标准测试序列:ClassA、ClassB、ClassC、ClassD和ClassE。


4.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S3中,光流网络采用SpyNet。


5.根据权利要求1所述的基于深度神经网络的信号处理方法,其特征在于,步骤S3中,深度网络采用MegaDepth;采用InternetSFM+MVS数据来解决单点深度估计问题;首先,...

【专利技术属性】
技术研发人员:侯兴松李瑞敏
申请(专利权)人:苏州天必佑科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1