基于深度神经网络的3D视频深度图帧内快速编码方法技术

技术编号:28384607 阅读:52 留言:0更新日期:2021-05-08 00:13
本发明专利技术公开了一种基于深度神经网络的3D视频深度图帧内快速编码方法,方法包括:输入大小为64×64的编码树单元(CTU)和其深度帧内跳过模式(DIS)率失真值、量化参数QP,预处理后作为卷积神经网络的输入,经过卷积操作后,对最终特征反卷积,并与中间特征叠加起来,最终输出CTU中深度为0、1和2的21个预测结果,对一个CTU中三个深度层级的CU继续四叉树划分或者停止四叉树划分做出预测。本发明专利技术有效地降低了深度图编码单元四叉树划分的复杂度,减少了所需的编码时间;并在提高编码速度的同时,保证了最终解码端合成视角的视频质量。

【技术实现步骤摘要】
基于深度神经网络的3D视频深度图帧内快速编码方法
本专利技术属于视频编解码
,具体涉及一种基于深度神经网络的3D视频深度图帧内快速编码方法。
技术介绍
3D视频能够在立体世界中给我们带来奇妙的用户体验。针对3D视频,高效视频编码(HighEfficiencyVideoCoding,HEVC)的3D扩展(3D-HEVC)是最新的编码标准。3D-HEVC基于HEVC的四叉树编码架构,包括编码树单元(CTU)和编码单元(CU)、预测单元(PU)和变换单元(TU)。HEVC基本上是为纹理编码设计的,但是,3D-HEVC系统中的深度图具有一些特征,例如大量的平滑区域和尖锐的边缘,和与之对应的颜色纹理图完全不同。因此,当编码由平滑区域或边缘组成的深度图时,传统的HEVC编码器通常不能保持良好的编码效率。为此,深度图编码中新增了几种新的编码工具,例如深度建模模式(DMM)和深度帧内跳过模式(DIS),更加加剧了算法复杂度。如图1,编码块四叉树划分采用递归设计,面对平滑编码块,复杂的四叉树划分结构造成很多无效的冗余编码。因此,为降低深度图算法复杂度,快速判断编码结构划分是一种有效途径。文献“MoraEG,JungJ,CagnazzoM,etal.Initialization,Limitation,andPredictiveCodingoftheDepthandTextureQuadtreein3D-HEVC[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2014,24(9):1554-1565.”利用纹理视图和深度视图运动信息的相似性,以纹理视图的编码结构来限制深度视图的编码结构划分。文献“ZhangHB,ChanYL,FuCH,etal.Quadtreedecisionfordepthintracodingin3D-HEVCbygoodfeature[C]//2016IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2016.”设计了一个用像素域角点信息来衡量当前编码区域复杂度的方法,该方法依据当前编码块的复杂度来限制划分深度。近年来,在视频编码框架内继续使用传统方法改进编码性能变得越来越困难,基于神经网络的视频编码逐渐成为可能。
技术实现思路
本专利技术的目的在于提供一种基于深度神经网络的3D视频深度图帧内快速编码方法,在保证合成视角中视频质量的前提下,降低编码单元四叉树划分计算复杂度,节约编码时间。实现本专利技术目的的技术解决方案为:一种基于深度神经网络的3D视频深度图帧内快速编码方法,包括如下步骤:步骤1:数据收集,选取深度图多种细节不同的视频,每隔20帧选取1帧,每个视频共计选取5帧,在不同量化参数QP下用原始3D-HEVC编码器进行编码,将每个编码树单元CTU中三种不同深度等级的编码单元CU是继续四叉树划分或者终止四叉树划分的结果作为标签,并采集深度0的64×64编码单元的DIS率失真值和量化参数QP,与所有划分标签记录在一个CTU中,作为训练数据集;步骤2:数据训练,对于训练集中的CTU,将CTU的亮度值进行去均值预处理,作为卷积神经网络的输入,随后进行五次卷积计算,最终得到1×1的特征;将QP和DIS率失真值作为先验输入全连接层,并将输出的特征与CTU的特征叠加,经过softmax作为深度0的输出;随后对1×1的特征进行反卷积计算得到2×2的特征,并与中间对应大小特征叠加,经过softmax作为深度1的输出;继续进行反卷积,得到4×4的特征,并与中间对应大小特征叠加,经过softmax作为深度2的输出,经过数据训练后得到一个用于3D-HEVC帧内快速编码的网络;步骤3:数据测试,选取8个视频序列作为测试集,每一帧图像每一个CTU,在编码深度0的64×64的CTU后,将CTU亮度值、QP、DIS率失真值输入到训练好的用于3D-HEVC帧内快速编码的网络中,得到每个CTU中不同深度编码单元的划分判断结果,根据判断结果进行后续编码。本专利技术与现有技术相比,其显著优点在于:(1)对特征反卷积并与中间特征concatenate,将全局视野与局部视野融合,提高深度为1和2的CU的划分判断准确率;(2)网络直接得到深度0、1、2的所有CU的划分判断,无需对每个深度CU单独判断;(3)用一个神经网络完成三个深度层级的训练和判断,无需为每一层深度单独训练神经网络。附图说明图1是3D-HEVC中深度图CTU四叉树划分结构示意图。图2是本专利技术基于深度神经网络的3D视频深度图帧内快速编码方法的模型训练图。图3是本专利技术基于深度神经网络的3D视频深度图帧内快速编码方法的编码流程图。具体实施方式本专利技术利用深度神经网络来判断3D视频深度图编码块是否需要划分。结合图2,具体步骤如下:步骤1:数据收集,选取深度图多种细节不同的视频,每隔20帧选取1帧,每个视频共计选取5帧,在不同量化参数QP下用原始3D-HEVC编码器进行编码,将每个编码树单元CTU中三种不同深度等级的编码单元CU是继续四叉树划分或者终止四叉树划分的结果作为标签,并采集深度0的64×64编码单元的深度帧内跳过模式(DIS)率失真值和量化参数QP,与所有划分标签记录在一个CTU中,作为训练数据集;步骤2:数据训练,对于训练集中的CTU,将CTU的亮度值进行去均值预处理,作为卷积神经网络的输入,随后进行五次卷积计算,最终得到1×1的特征,维度为128;将QP和DIS率失真值作为先验输入全连接层,并将输出的特征与CTU的特征叠加,经过softmax作为深度0的输出;随后对1×1的特征进行反卷积计算得到2×2的特征,并与中间对应大小特征叠加,经过softmax作为深度1的输出;继续进行反卷积,得到4×4的特征,并与中间对应大小特征叠加,经过softmax作为深度2的输出,经过数据训练后得到一个用于3D-HEVC帧内快速编码的网络;步骤3:数据测试,选取8个视频序列作为测试集,每一帧图像每一个CTU,在编码深度0的64×64的CTU后,将CTU亮度值、QP、DIS率失真值输入到训练好的用于3D-HEVC帧内快速编码的网络中,得到每个CTU中不同深度编码单元的划分判断结果,根据判断结果进行预测编码。进一步地,步骤1中所述用DIS率失真RD-cost的计算表达式如下:J=DVSO+λ·B(1)其中,J是指DIS模式的率失真RD-cost,Dvso是通过视点合成优化技术VSO得到的DIS模式的失真,λ是拉格朗日乘子,B表示用DIS模式编码当前块的比特数。进一步地,步骤2的五次卷积计算,卷积核大小与步长相等,每次卷积的卷积核不重叠。进一步地,步骤2将64×64大小CU得到的特征与QP的特征、DIS率失真值的特征concatenate在一起。进一步地,步骤2将64本文档来自技高网
...

【技术保护点】
1.一种基于深度神经网络的3D视频深度图帧内快速编码方法,其特征在于,包括如下步骤:/n步骤1:数据收集,选取深度图多种细节不同的视频,每隔20帧选取1帧,每个视频共计选取5帧,在不同量化参数QP下用原始3D-HEVC编码器进行编码,将每个编码树单元CTU中三种不同深度等级的编码单元CU是继续四叉树划分或者终止四叉树划分的结果作为标签,并采集深度0的64×64编码单元的DIS率失真值和量化参数QP,与所有划分标签记录在一个CTU中,作为训练数据集;/n步骤2:数据训练,对于训练集中的CTU,将CTU的亮度值进行去均值预处理,作为卷积神经网络的输入,随后进行五次卷积计算,最终得到1×1的特征;将QP和DIS率失真值作为先验输入全连接层,并将输出的特征与CTU的特征叠加,经过softmax作为深度0的输出;随后对1×1的特征进行反卷积计算得到2×2的特征,并与中间对应大小特征叠加,经过softmax作为深度1的输出;继续进行反卷积,得到4×4的特征,并与中间对应大小特征叠加,经过softmax作为深度2的输出,经过数据训练后得到一个用于3D-HEVC帧内快速编码的网络;/n步骤3:数据测试,选取8个视频序列作为测试集,每一帧图像每一个CTU,在编码深度0的64×64的CTU后,将CTU亮度值、QP、DIS率失真值输入到训练好的用于3D-HEVC帧内快速编码的网络中,得到每个CTU中不同深度编码单元的划分判断结果,根据判断结果进行后续编码。/n...

【技术特征摘要】
1.一种基于深度神经网络的3D视频深度图帧内快速编码方法,其特征在于,包括如下步骤:
步骤1:数据收集,选取深度图多种细节不同的视频,每隔20帧选取1帧,每个视频共计选取5帧,在不同量化参数QP下用原始3D-HEVC编码器进行编码,将每个编码树单元CTU中三种不同深度等级的编码单元CU是继续四叉树划分或者终止四叉树划分的结果作为标签,并采集深度0的64×64编码单元的DIS率失真值和量化参数QP,与所有划分标签记录在一个CTU中,作为训练数据集;
步骤2:数据训练,对于训练集中的CTU,将CTU的亮度值进行去均值预处理,作为卷积神经网络的输入,随后进行五次卷积计算,最终得到1×1的特征;将QP和DIS率失真值作为先验输入全连接层,并将输出的特征与CTU的特征叠加,经过softmax作为深度0的输出;随后对1×1的特征进行反卷积计算得到2×2的特征,并与中间对应大小特征叠加,经过softmax作为深度1的输出;继续进行反卷积,得到4×4的特征,并与中间对应大小特征叠加,经过softmax作为深度2的输出,经过数据训练后得到一个用于3D-HEVC帧内快速编码的网络;
步骤3:数据测试,选取8个视频序列作为测试集,每一帧图像每一个CTU,在编码深度0的64×64的CTU后,将CTU亮度值、QP、DIS率失真值输入到训练好的用于3D-HEVC帧内快速编码的网络中,得到每个CTU中不同深度编码单元的划分判断结果,根据判断结果进行后续编码。


2.如权利要求1所述的基于深度神经网络的3D视频深度图帧内快速编码方法,其特征在于,步骤1中所述DIS率失真的计算表达式如下:
J=DVSO+λ·B(1)
其中...

【专利技术属性】
技术研发人员:伏长虹徐梦婷洪弘
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1