System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于图神经网络的VVC帧内编码快速块划分方法技术_技高网

一种基于图神经网络的VVC帧内编码快速块划分方法技术

技术编号:40550102 阅读:8 留言:0更新日期:2024-03-05 19:08
本发明专利技术提供一种基于图神经网络的VVC帧内编码快速块划分方法,包括具有纹理特征编码器、多叉树特征编码器和标签预测器的基于图神经网络的编码单元划分结构预测网络模型搭建,基于多阈值的快速块划分决策方法设置,编码单元划分结构预测网络模型训练与参数优化,以及基于图神经网络的VVC帧内编码快速块划分方法流程。本申请使用卷积神经网络和图神经网络学习编码单元重要纹理信息,引入十字交叉注意力和多叉树特征编码器以实现多维度特征的交互融合,并将编码单元的量化参数进行归一化后输入网络模型,实现对最优划分结构的精准预测,之后再通过预测结果优化块划分流程,实现不降低整体编码效率的前提下大幅度提升VVC的运行速度。

【技术实现步骤摘要】

本专利技术涉及深度学习智能编码,具体涉及一种基于图神经网络的vvc帧内编码快速块划分方法。


技术介绍

1、高效视频编码(hevc/h.265)是视频编码联合协作组(jct-vc)于2013年制定的应用最广泛的视频编码标准。由于其优异、稳定的性能,hevc在当今的视频传输、流媒体直播和在线视频播放中发挥着重要作用。然而,随着高动态范围、360度全景视频、虚拟现实视频等新一代视频压缩算法的应用,视频数据量呈指数级增长。在这种情况下,hevc已经无法满足高效视频压缩的要求。为此,国际标准化组织iso/iec、mpeg和itu-t vceg于2015年10月成立了联合视频小组(jvet),制定新一代视频编码标准,即通用视频编码(vvc/h.266)。vvc中引入了许多先进的视频编码技术,包括嵌套多类型树的四叉树、跨分量线性模型、位置相关预测组合、多参考线、帧内子分区、矩阵加权帧内预测和扩展角度预测。值得一提的是,通过应用这些强大的编码技术,在保持相同编码性能的情况下,vvc比hevc可以节省近一半的比特率。

2、其中,基于嵌套多类型树的四叉树(qtmt)的块划分结构显著提升了编码效率。vvc是以单个编码单元(cu)为基础的,与此同时在划分的过程中自适应的修改编码单元的大小以满足编码标准的要求。首先vvc标准将相同位置编码单元的亮度分量和两个色度分量连同相关的语法元素组成了尺寸为128×128编码树单元(ctu),每个编码树单元会被划分为若干编码单元,而编码单元也会使用基于qtmt划分结构划分为更小的单元,最小的编码单元尺寸为4×4。由于这种新型划分结构的引入使得划分过程变得更加灵活多变,能够更好的适应不同纹理细节的视频内容。然而,这也导致编码时间相较于前代视频编码标准增加约十倍,其中大部分的时间增加是由于基于qtmt划分结构导致的,使得在实际场景下vvc的应用存在困难。因此,降低vvc中qtmt引入导致的额外编码复杂度已成为当今的研究热点。在过去的十年中,人们提出了许多方法。这些方法可以分为三类:启发式的方法、基于机器学习的方法和基于深度学习的方法。启发式方法使用预定义的规则和策略来设计基于阈值、率失真成本和时间/空间/访谈相关性的问题解决算法,但启发式方法的性能已经不足。一方面,这些方法严重依赖手动特征提取,所获得的物理特征的表征很差,使得为不同视频序列开发广泛适用的规则变得具有挑战性。另一方面,考虑到机器学习和深度学习的巨大发展,这些方法的性能已经超越了传统的启发式工作,机器学习方法和深度学习方法可以用足够的数据迭代更新预定义的算法和模型参数;同时,在精心设计的损失函数的指导下,自动建立编码单元特征和划分结构之间的潜在关系。然而,据本申请的专利技术人研究发现,现有的基于深度学习的快速块划分方法存在局限性,因为这些方法很少关注全局信息获取。例如,纹理差异作为全局信息,对于选择编码单元的最佳划分结构至关重要。大多数基于深度学习的方法都使用卷积神经网络,但由于卷积运算只仅限于局部信息,因此很难提取全局信息。如果在最优划分结构确认过程中能够有效捕获全局信息,就可以准确预测编码单元的划分结构。


技术实现思路

1、针对现有vvc标准参考软件编码效率低的技术问题,本专利技术提供一种基于图神经网络的vvc帧内编码快速块划分方法,该方法提供一种基于图神经网络优化的参考编码软件,使用卷积神经网络和图神经网络学习编码单元重要纹理信息,引入十字交叉注意力和多叉树特征编码器以实现多维度特征的交互融合,并将量化参数进行归一化后输入网络模型,实现对最优划分结构的精准预测,之后再通过预测结果优化块划分流程,实现不降低整体编码效率的前提下大幅度提升vvc的运行速度。

2、为了解决上述技术问题,本专利技术采用了如下的技术方案:

3、一种基于图神经网络的vvc帧内编码快速块划分方法,包括以下步骤:

4、s1、基于图神经网络的编码单元划分结构预测网络模型搭建:

5、s11、基于图神经网络的编码单元划分结构预测网络包括纹理特征编码器、多叉树特征编码器和标签预测器,所述纹理特征编码器包括局部特征编码器和全局特征编码器,所述局部特征编码器通过卷积和最大池化操作进行编码单元中纹理特征的初步提取,实现局部区域从低级纹理特征到高级语义特征的转换,并将低维度图像特征映射到高维特征空间,扩充纹理特征的表征规模;所述全局特征编码器通过图卷积操作和十字交叉注意力机制实现,所述图卷积操作包含图卷积计算和前馈神经网络两个部分,所述图卷积计算对编码单元中不同区域间的长距离依赖关系进行建模,所述前馈神经网络引入非线性变换助于更复杂的建模输入数据的映射,使得网络更好处理的视觉特征与纹理特征,所述十字交叉注意力融合长距离像素之间的上下文相关性信息,产生更加有效的特征图,提高模型的语义理解能力,所述纹理特征编码器最后输出的特征图通过一个全局平均池化与展平层映射为一维特征向量进行表示;所述多叉树特征编码器包括不同结构的五个卷积层以及学习各划分区域间相关性的交叉注意力层,所述五个卷积层与vvc标准中六种qtmt划分结构中的五种划分结构相对应,所述交叉注意力层将两个相同维度的独立嵌入序列不对称的组合在一起,其中一个序列作为查询输入,另一个序列作为键和值输入,所述多叉树特征编码器最后的输出通过一个卷积层映射为多叉树特征向量;所述标签预测器将纹理特征编码器和多叉树特征编码器得到的特征向量与编码单元的量化参数融合,并通过多个全连接层进行特征判别,得到各划分结构的预测概率,供基于多阈值的快速块划分方法进行最优划分结构的选择;

6、s12、所述纹理特征编码器包含顺序设置的初始卷积层、基于vvc最小编码单元尺寸的4×4卷积层、第一个图卷积块、第一个十字交叉注意力模块、下采样层、第二个图卷积块和第二个十字交叉注意力模块,每个图卷积块包含一个图卷积计算和一个前馈神经网络;所述多叉树特征编码器包含五个与vvc标准中qtmt划分结构相对应的卷积层以及学习各划分区域间相关性的交叉注意力层;所述标签预测器包含三个全连接层、两个批归一化层和三个激活函数层;

7、s2、基于多阈值的快速块划分决策方法设置:

8、设置一个预测划分结构数量阈值τm和一个概率置信度阈值τp,将预测概率高于τp的τm个划分结构都加入到最有可能集中,如果最有可能集的数量超过了预测划分结构数量阈值τm,则将其中最不可能成为最优的若干划分结构剔除,为此,使用效率和质量的两组阈值来实现编码性能复杂度的权衡;在效率方案中,τp和τm分别被设置为1和1.0,即选择了具有最高预测概率的划分结构,实现编码时间的最大减少;在质量方案中,τp和τm分别被设置为3和0.3,即选择了预测概率最高的前三个划分结构,再使用τp丢弃冗余模式,这样可以降低编码复杂度,同时保持编码质量;

9、s3、编码单元划分结构预测网络模型训练与参数优化:

10、s31、网络参数初始化:采用kaiming初始化方法对步骤s1搭建的基于图神经网络的编码单元划分结构预测网络模型参数进行初始化;本文档来自技高网...

【技术保护点】

1.一种基于图神经网络的VVC帧内编码快速块划分方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于图神经网络的VVC帧内编码快速块划分方法,其特征在于,所述步骤S12中,初始卷积层的卷积核大小为3×3,步长为1,Padding为1,卷积核数量为24、48和48;图卷积计算包括重塑形状的图节点矩阵建立层、基于K近邻算法的图结构建立层以及特征变换层,K近邻算法的K取值为9,两个图卷积块中各个卷积层的卷积核数量依次为48、96、240、384;标签预测器中全连接层输出端点对应的节点数依次为398、256、64、6,最后得到一个长度为6的一维向量作为六个划分结构各自的预测概率,所述六个划分结构依次为四叉树划分、水平二叉树划分、垂直二叉树划分、水平三叉树划分、垂直三叉树划分和不划分。

3.根据权利要求1所述的基于图神经网络的VVC帧内编码快速块划分方法,其特征在于,所述步骤S34中网络前向计算包括卷积操作、图卷积操作、批量归一化、非线性激励、特征组合和标签映射、概率值转换。

4.根据权利要求3所述的基于图神经网络的VVC帧内编码快速块划分方法,其特征在于,所述卷积操作运算中,任意一个卷积核所对应的输出特征图Zi采用下式进行计算:

5.根据权利要求3所述的基于图神经网络的VVC帧内编码快速块划分方法,其特征在于,所述图卷积操作运算中,图卷积的输出特征图H(l+1)采用下式进行计算:

6.根据权利要求3所述的基于图神经网络的VVC帧内编码快速块划分方法,其特征在于,所述非线性激励使用整流线性单元ReLU作为非线性激励函数,将归一化后每个值进行非线性转化,所述整流线性单元ReLU定义如下:

7.根据权利要求3所述的基于图神经网络的VVC帧内编码快速块划分方法,其特征在于,所述特征组合和标签映射使用全连接层将分布式特征表示映射到样本标记空间,减少特征位置对于预测的影响,根据位置的不同显示组合特征功能或分类器功能,任意一个全连接层对应的输出F采用下式进行计算:

8.根据权利要求3所述的基于图神经网络的VVC帧内编码快速块划分方法,其特征在于,所述概率值转换使用Softmax函数将类别预测分值转换成概率分布,Softmax函数定义如下:

9.根据权利要求1所述的基于图神经网络的VVC帧内编码快速块划分方法,其特征在于,所述步骤S36中,采用Adam优化器迭代时,每次迭代使用的样本数即批大小设为128,初始学习率设为1e-4,采用余弦退货学习率衰退技术,周期与训练总轮数保持一致。

...

【技术特征摘要】

1.一种基于图神经网络的vvc帧内编码快速块划分方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于图神经网络的vvc帧内编码快速块划分方法,其特征在于,所述步骤s12中,初始卷积层的卷积核大小为3×3,步长为1,padding为1,卷积核数量为24、48和48;图卷积计算包括重塑形状的图节点矩阵建立层、基于k近邻算法的图结构建立层以及特征变换层,k近邻算法的k取值为9,两个图卷积块中各个卷积层的卷积核数量依次为48、96、240、384;标签预测器中全连接层输出端点对应的节点数依次为398、256、64、6,最后得到一个长度为6的一维向量作为六个划分结构各自的预测概率,所述六个划分结构依次为四叉树划分、水平二叉树划分、垂直二叉树划分、水平三叉树划分、垂直三叉树划分和不划分。

3.根据权利要求1所述的基于图神经网络的vvc帧内编码快速块划分方法,其特征在于,所述步骤s34中网络前向计算包括卷积操作、图卷积操作、批量归一化、非线性激励、特征组合和标签映射、概率值转换。

4.根据权利要求3所述的基于图神经网络的vvc帧内编码快速块划分方法,其特征在于,所述卷积操作运算中,任意一个卷积核所对应的输出特征图zi采用下式进行计算:

5....

【专利技术属性】
技术研发人员:黎天送刘昊坤崔少国张乐迁万皓明
申请(专利权)人:重庆师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1