基于深度神经网络的3D视频深度图帧内快速编码方法技术

技术编号：28384607 阅读：52 留言：0更新日期：2021-05-08 00:13

本发明专利技术公开了一种基于深度神经网络的3D视频深度图帧内快速编码方法，方法包括：输入大小为64×64的编码树单元(CTU)和其深度帧内跳过模式(DIS)率失真值、量化参数QP，预处理后作为卷积神经网络的输入，经过卷积操作后，对最终特征反卷积，并与中间特征叠加起来，最终输出CTU中深度为0、1和2的21个预测结果，对一个CTU中三个深度层级的CU继续四叉树划分或者停止四叉树划分做出预测。本发明专利技术有效地降低了深度图编码单元四叉树划分的复杂度，减少了所需的编码时间；并在提高编码速度的同时，保证了最终解码端合成视角的视频质量。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度神经网络的3D视频深度图帧内快速编码方法
本专利技术属于视频编解码
，具体涉及一种基于深度神经网络的3D视频深度图帧内快速编码方法。
技术介绍
3D视频能够在立体世界中给我们带来奇妙的用户体验。针对3D视频，高效视频编码(HighEfficiencyVideoCoding,HEVC)的3D扩展(3D-HEVC)是最新的编码标准。3D-HEVC基于HEVC的四叉树编码架构，包括编码树单元(CTU)和编码单元(CU)、预测单元(PU)和变换单元(TU)。HEVC基本上是为纹理编码设计的，但是，3D-HEVC系统中的深度图具有一些特征，例如大量的平滑区域和尖锐的边缘，和与之对应的颜色纹理图完全不同。因此，当编码由平滑区域或边缘组成的深度图时，传统的HEVC编码器通常不能保持良好的编码效率。为此，深度图编码中新增了几种新的编码工具，例如深度建模模式(DMM)和深度帧内跳过模式(DIS)，更加加剧了算法复杂度。如图1，编码块四叉树划分采用递归设计，面对平滑编码块，复杂的四叉树划分结构造成很多无效的冗余编码。因此，为降低深度图算法复杂度，快速判断编码结构划分是一种有效途径。文献“MoraEG,JungJ,CagnazzoM,etal.Initialization,Limitation,andPredictiveCodingoftheDepthandTextureQuadtreein3D-HEVC[J].IEEETransactionsonCircuitsandSystemsforVideoTechnolog...

【技术保护点】
1.一种基于深度神经网络的3D视频深度图帧内快速编码方法，其特征在于，包括如下步骤：/n步骤1：数据收集，选取深度图多种细节不同的视频，每隔20帧选取1帧，每个视频共计选取5帧，在不同量化参数QP下用原始3D-HEVC编码器进行编码，将每个编码树单元CTU中三种不同深度等级的编码单元CU是继续四叉树划分或者终止四叉树划分的结果作为标签，并采集深度0的64×64编码单元的DIS率失真值和量化参数QP，与所有划分标签记录在一个CTU中，作为训练数据集；/n步骤2：数据训练，对于训练集中的CTU，将CTU的亮度值进行去均值预处理，作为卷积神经网络的输入，随后进行五次卷积计算，最终得到1×1的特征；将QP和DIS率失真值作为先验输入全连接层，并将输出的特征与CTU的特征叠加，经过softmax作为深度0的输出；随后对1×1的特征进行反卷积计算得到2×2的特征，并与中间对应大小特征叠加，经过softmax作为深度1的输出；继续进行反卷积，得到4×4的特征，并与中间对应大小特征叠加，经过softmax作为深度2的输出，经过数据训练后得到一个用于3D-HEVC帧内快速编码的网络；/n步骤3：数据测试...

【技术特征摘要】
1.一种基于深度神经网络的3D视频深度图帧内快速编码方法，其特征在于，包括如下步骤：
步骤1：数据收集，选取深度图多种细节不同的视频，每隔20帧选取1帧，每个视频共计选取5帧，在不同量化参数QP下用原始3D-HEVC编码器进行编码，将每个编码树单元CTU中三种不同深度等级的编码单元CU是继续四叉树划分或者终止四叉树划分的结果作为标签，并采集深度0的64×64编码单元的DIS率失真值和量化参数QP，与所有划分标签记录在一个CTU中，作为训练数据集；
步骤2：数据训练，对于训练集中的CTU，将CTU的亮度值进行去均值预处理，作为卷积神经网络的输入，随后进行五次卷积计算，最终得到1×1的特征；将QP和DIS率失真值作为先验输入全连接层，并将输出的特征与CTU的特征叠加，经过softmax作为深度0的输出；随后对1×1的特征进行反卷积计算得到2×2的特征，并与中间对应大小特征叠加，经过softmax作为深度1的输出；继续进行反卷积，得到4×4的特征，并与中间对应大小特征叠加，经过softmax作为深度2的输出，经过数据训练后得到一个用于3D-HEVC帧内快速编码的网络；
步骤3：数据测试，选取8个视频序列作为测试集，每一帧图像每一个CTU，在编码深度0的64×64的CTU后，将CTU亮度值、QP、DIS率失真值输入到训练好的用于3D-HEVC帧内快速编码的网络中，得到每个CTU中不同深度编码单元的划分判断结果，根据判断结果进行后续编码。

2.如权利要求1所述的基于深度神经网络的3D视频深度图帧内快速编码方法，其特征在于，步骤1中所述DIS率失真的计算表达式如下：
J＝DVSO+λ·B(1)
其中...

【专利技术属性】
技术研发人员：伏长虹，徐梦婷，洪弘，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人