一种基于图神经网络的VVC帧内编码快速块划分方法技术

技术编号：40550102 阅读：8 留言：0更新日期：2024-03-05 19:08

本发明专利技术提供一种基于图神经网络的VVC帧内编码快速块划分方法，包括具有纹理特征编码器、多叉树特征编码器和标签预测器的基于图神经网络的编码单元划分结构预测网络模型搭建，基于多阈值的快速块划分决策方法设置，编码单元划分结构预测网络模型训练与参数优化，以及基于图神经网络的VVC帧内编码快速块划分方法流程。本申请使用卷积神经网络和图神经网络学习编码单元重要纹理信息，引入十字交叉注意力和多叉树特征编码器以实现多维度特征的交互融合，并将编码单元的量化参数进行归一化后输入网络模型，实现对最优划分结构的精准预测，之后再通过预测结果优化块划分流程，实现不降低整体编码效率的前提下大幅度提升VVC的运行速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习智能编码，具体涉及一种基于图神经网络的vvc帧内编码快速块划分方法。

技术介绍

1、高效视频编码(hevc/h.265)是视频编码联合协作组(jct-vc)于2013年制定的应用最广泛的视频编码标准。由于其优异、稳定的性能，hevc在当今的视频传输、流媒体直播和在线视频播放中发挥着重要作用。然而，随着高动态范围、360度全景视频、虚拟现实视频等新一代视频压缩算法的应用，视频数据量呈指数级增长。在这种情况下，hevc已经无法满足高效视频压缩的要求。为此，国际标准化组织iso/iec、mpeg和itu-t vceg于2015年10月成立了联合视频小组(jvet)，制定新一代视频编码标准，即通用视频编码(vvc/h.266)。vvc中引入了许多先进的视频编码技术，包括嵌套多类型树的四叉树、跨分量线性模型、位置相关预测组合、多参考线、帧内子分区、矩阵加权帧内预测和扩展角度预测。值得一提的是，通过应用这些强大的编码技术，在保持相同编码性能的情况下，vvc比hevc可以节省近一半的比特率。

2、其中，基于嵌套多类型树的四叉树(qtmt)的块划分结构显著提升了编码效率。vvc是以单个编码单元(cu)为基础的，与此同时在划分的过程中自适应的修改编码单元的大小以满足编码标准的要求。首先vvc标准将相同位置编码单元的亮度分量和两个色度分量连同相关的语法元素组成了尺寸为128×128编码树单元(ctu)，每个编码树单元会被划分为若干编码单元，而编码单元也会使用基于qtmt划分结构划分为更小的单元，最小的编码单元尺寸为

技术实现思路

1、针对现有vvc标准参考软件编码效率低的技术问题，本专利技术提供一种基于图神经网络的vvc帧内编码快速块划分方法，该方法提供一种基于图神经网络优化的参考编码软件，使用卷积神经网络和图神经网络学习编码单元重要纹理信息，引入十字交叉注意力和多叉树特征编码器以实现多维度特征的交互融合，并将量化参数进行归一化后输入网络模型，实现对最优划分结构的精准预测，之后再通过预测结果优化块划分流程，实现不降低整体编码效率的前提下大幅度提升vvc的运行速度。

2、为了解决上述技术问题，本专利技术采用了如下的技术方案：

3、一种基于图神经网络的vvc帧内编码快速块划分方法，包括以下步骤：

4、s1、基于图神经网络的编码单元划分结构预测网络模型搭建：

5、s11、基于图神经网络的编码单元划分结构预测网络包括纹理特征编码器、多叉树特征编码器和标签预测器，所述纹理特征编码器包括局部特征编码器和全局特征编码器，所述局部特征编码器通过卷积和最大池化操作进行编码单元中纹理特征的初步提取，实现局部区域从低级纹理特征到高级语义特征的转换，并将低维度图像特征映射到高维特征空间，扩充纹理特征的表征规模；所述全局特征编码器通过图卷积操作和十字交叉注意力机制实现，所述图卷积操作包含图卷积计算和前馈神经网络两个部分，所述图卷积计算对编码单元中不同区域间的长距离依赖关系进行建模，所述前馈神经网络引入非线性变换助于更复杂的建模输入数据的映射，使得网络更好处理的视觉特征与纹理特征，所述十字交叉注意力融合长距离像素之间的上下文相关性信息，产生更加有效的特征图，提高模型的语义理解能力，所述纹理特征编码器最后输出的特征图通过一个全局平均池化与展平层映射为一维特征向量进行表示；所述多叉树特征编码器包括不同结构的五个卷积层以及学习各划分区域间相关性的交叉注意力层，所述五个卷积层与vvc标准中六种qtmt划分结构中的五种划分结构相对应，所述交叉注意力层将两个相同维度的独立嵌入序列不对称的组合在一起，其中一个序列作为查询输入，另一个序列作为键和值输入，所述多叉树特征编码器最后的输出通过一个卷积层映射为多叉树特征向量；所述标签预测器将纹理特征编码器和多叉树特征编码器得到的特征向量与编码单元的量化参数融合，并通过多个全连接层进行特征判别，得到各划分结构的预测概率，供基于多阈值的快速块划分方法进行最优划分结构的选择；

6、s12、所述纹理特征编码器包含顺序设置的初始卷积层、基于vvc最小编码单元尺寸的4×4卷积层、第一个图卷积块、第一个十字交叉注意力模块、下采样层、第二个图卷积块和第二个十字交叉注意力模块，每个图卷积块包含一个图卷积计算和一个前馈神经网络；所述多叉树特征编码器包含五个与vvc标准中qtmt划分结构相对应的卷积层以及学习各划分区域间相关性的交叉注意力层；所述标签预测器包含三个全连接层、两个批归一化层和三个激活函数层；

7、s2、基于多阈值的快速块划分决策方法设置：

8、设置一个预测划分结构数量阈值τm和一个概率置信度阈值τp，将预测概率高于τp的τm个划分结构都加入到最有可能集中，如果最有可能集的数量超过了预测划分结构数量阈值τm，则将其中最不可能成为最优的若干划分结构剔除，为此，使用效率和质量的两组阈值来实现编码性能复杂度的权衡；在效率方案中，τp和τm分别被设置为1和1.0，即选择了具有最高预测概率的划分结构，实现编码时间的最大减少；在质量方案中，τp和τm分别被设置为3和0.3，即选择了预测概率最高的前三个划分结构，再使用τp丢弃冗余模式，这样可以降低编码复杂度，同时保持编码质量；

9、s3、编码单元划分结构预测网络模型训练与参数优化：

10、s31、网络参数初始化：采用kaiming初始化方法对步骤s1搭建的基于图神经网络的编码单元划分结构预测网络模型参数进行初始化；本文档来自技高网...

【技术保护点】

1.一种基于图神经网络的VVC帧内编码快速块划分方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图神经网络的VVC帧内编码快速块划分方法，其特征在于，所述步骤S12中，初始卷积层的卷积核大小为3×3，步长为1，Padding为1，卷积核数量为24、48和48；图卷积计算包括重塑形状的图节点矩阵建立层、基于K近邻算法的图结构建立层以及特征变换层，K近邻算法的K取值为9，两个图卷积块中各个卷积层的卷积核数量依次为48、96、240、384；标签预测器中全连接层输出端点对应的节点数依次为398、256、64、6，最后得到一个长度为6的一维向量作为六个划分结构各自的预测概率，所述六个划分结构依次为四叉树划分、水平二叉树划分、垂直二叉树划分、水平三叉树划分、垂直三叉树划分和不划分。

3.根据权利要求1所述的基于图神经网络的VVC帧内编码快速块划分方法，其特征在于，所述步骤S34中网络前向计算包括卷积操作、图卷积操作、批量归一化、非线性激励、特征组合和标签映射、概率值转换。

4.根据权利要求3所述的基于图神经网络的VVC帧内编码快速块划分方法

5.根据权利要求3所述的基于图神经网络的VVC帧内编码快速块划分方法，其特征在于，所述图卷积操作运算中，图卷积的输出特征图H(l+1)采用下式进行计算：

6.根据权利要求3所述的基于图神经网络的VVC帧内编码快速块划分方法，其特征在于，所述非线性激励使用整流线性单元ReLU作为非线性激励函数，将归一化后每个值进行非线性转化，所述整流线性单元ReLU定义如下：

7.根据权利要求3所述的基于图神经网络的VVC帧内编码快速块划分方法，其特征在于，所述特征组合和标签映射使用全连接层将分布式特征表示映射到样本标记空间，减少特征位置对于预测的影响，根据位置的不同显示组合特征功能或分类器功能，任意一个全连接层对应的输出F采用下式进行计算：

8.根据权利要求3所述的基于图神经网络的VVC帧内编码快速块划分方法，其特征在于，所述概率值转换使用Softmax函数将类别预测分值转换成概率分布，Softmax函数定义如下：

9.根据权利要求1所述的基于图神经网络的VVC帧内编码快速块划分方法，其特征在于，所述步骤S36中，采用Adam优化器迭代时，每次迭代使用的样本数即批大小设为128，初始学习率设为1e-4，采用余弦退货学习率衰退技术，周期与训练总轮数保持一致。

...

【技术特征摘要】

1.一种基于图神经网络的vvc帧内编码快速块划分方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图神经网络的vvc帧内编码快速块划分方法，其特征在于，所述步骤s12中，初始卷积层的卷积核大小为3×3，步长为1，padding为1，卷积核数量为24、48和48；图卷积计算包括重塑形状的图节点矩阵建立层、基于k近邻算法的图结构建立层以及特征变换层，k近邻算法的k取值为9，两个图卷积块中各个卷积层的卷积核数量依次为48、96、240、384；标签预测器中全连接层输出端点对应的节点数依次为398、256、64、6，最后得到一个长度为6的一维向量作为六个划分结构各自的预测概率，所述六个划分结构依次为四叉树划分、水平二叉树划分、垂直二叉树划分、水平三叉树划分、垂直三叉树划分和不划分。

3.根据权利要求1所述的基于图神经网络的vvc帧内编码快速块划分方法，其特征在于，所述步骤s34中网络前向计算包括卷积操作、图卷积操作、批量归一化、非线性激励、特征组合和标签映射、概率值转换。

4.根据权利要求3所述的基于图神经网络的vvc帧内编码快速块划分方法，其特征在于，所述卷积操作运算中，任意一个卷积核所对应的输出特征图zi采用下式进行计算：

5....

【专利技术属性】
技术研发人员：黎天送，刘昊坤，崔少国，张乐迁，万皓明，
申请(专利权)人：重庆师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人