一种三维视频帧内深度图编码单元划分方法及装置制造方法及图纸

技术编号：39256455 阅读：12 留言：0更新日期：2023-10-30 12:08

本发明专利技术公开了一种三维视频帧内深度图编码单元划分方法及装置，首先，基于Swin Transformer模块和卷积神经网络构建编码树单元划分结构预测网络模块；其次，在编码器帧内预测中加入划分结构预测模块，在编码中获取当前深度图待编码块原始像素来预测其划分深度。利用Swin Transformer模块构建划分结构，捕捉深度图编码树单元的全局信息，弥补CNN不能很好提取全局信息的缺陷，预测当前编码树单元的最优划分结构，编码器只需要传输深度图就可以得到各个编码树单元的最优划分结构，在保证编码质量基本不变的情况下，大幅降低了3D

全部详细技术资料下载

【技术实现步骤摘要】
一种三维视频帧内深度图编码单元划分方法及装置

[0001]本专利技术属于基于神经网络的视频编码
，具体涉及一种三维视频帧内深度图编码单元划分方法及装置。

技术介绍

[0002]近年来，随着三维(Three Dimensional，3D)视频服务的快速发展，3D视频进入千家万户。3D视频提供了一种立体沉浸式的观看体验，通过3D眼镜将不同的视频呈现给观看者，来实现3D场景感知。同时，3D视频也给视频编码技术提出了更高的要求。为了应对这一挑战，国际联合视频编码小组(the Joint Collaborative Team on Video Coding，JCT
‑
VC)开发了三维高效视频编码标准(3D
‑
High Efficiency Video Coding，3D
‑
HEVC)。3D
‑
HEVC一般包含2～3个视点，每个视点都有一个纹理图(Texture map)和一个对应的深度图(Depth map)。深度图是由灰度图像表示，它捕获了摄像机与实际物体之间的距离，能够利用基于深度图的虚拟视点合成技术(Depth
‑
Image
‑
Based Rendereing,DIBR)合成虚拟图像。不同于纹理图，深度图存在大量的平坦区域以及十分陡峭的边界，为区别于纹理图的特征，3D
‑
HEVC提供了众多复杂的深度图编码技术，导致3D
‑
HEVC编码复杂度提升。
[0003]帧内预...

【技术保护点】

【技术特征摘要】
1.一种深度图编码单元划分方法，其特征在于包括如下步骤：步骤S1：构建划分结构预测网络，对深度图编码单元进行分区预测；步骤S2：获取待划分的深度图编码单元，通过划分结构预测网络，得到预测的最优划分结构，比较深度图编码单元的当前深度与预测的最优划分结构的深度，当深度相同时，对当前深度图编码单元的率失真代价进行计算，否则，不进行计算，基于计算的率失真代价，确定当前深度图编码单元的最优划分结构。2.根据权利要求1所述的一种深度图编码单元划分方法，其特征在于：所述步骤S2中，若当前深度小于预测深度，则跳过当前深度的率失真代价计算，继续进行下一深度的搜索；若当前深度大于预测深度，则跳过当前深度的率失真代价计算的同时，停止进一步的深度搜索，完成当前深度图编码单元划分。3.根据权利要求1所述的一种深度图编码单元划分方法，其特征在于：所述步骤S1包括如下步骤：步骤S1.1：特征提取，获取深度图编码单元并进行分块，对每个像素的通道数据进行线性变换，然后通过移位窗口变换器提取特征，基于特征对应的分块进行合并，得到第一特征；对深度图编码单元基于卷积组进行特征提取，得到第二特征；将第一特征与第二特征进行融合；步骤S1.2：将融合的特征进行分区预测，得到预测的分区图。4.根据权利要求1所述的一种深度图编码单元划分方法，其特征在于：所述步骤S1中，构建多尺度L1损失函数MS
‑
L1，用于划分结构预测的训练：用于划分结构预测的训练：其中，MaxPool
k＝i
和MinPool
k＝i
分别表示内核大小为i的最大池化和最小池化，y表示网络输出和训练的划分结果，表示真实的划分结果，对L1进行了定义，A
k＝i
、B
k＝i
分别表示L1损失函数中对应的MaxPool
k＝i
(y)、或MinPool
k＝i
(y)、5.一种三维视频帧内深度图编码单元划分方法，其特征在于：基于权利要求1所述的一种深度图编码单元划分方法，其中所述步骤S2包括如下步骤：步骤S2.1：基于预编码通测标准提供的视频序列，提取深度图编码单元和最优划分结构作为训练数据，用于训练所述划分结构预测网络；步骤S2.2：从深度图视频中逐帧读取需要编码的深度图，将其划分为深度图编码单元，并通过训练好的划分结...

【专利技术属性】
技术研发人员：宋俊锋，龚鑫铠，季苏华，叶振，王国相，吴子健，
申请(专利权)人：浙江点创信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人