多尺度互相关注意力网络的H.266/VVC色度预测编码方法技术

技术编号:39424836 阅读:16 留言:0更新日期:2023-11-19 16:12
本发明专利技术公开一种多尺度互相关注意力网络的H.266/VVC色度预测编码方法,属于视频压缩领域。首先,在特征提取子网络,利用四并联可分离卷积的通道注意力机制提取待编码图像块的邻域像素的多尺度相关性特征,并自适应地调整邻域像素在各个颜色通道的预测权重,增强网络对尺度相关性和颜色通道相关性的特征感知能力;其次,通过引进十字交叉注意力机制提取待编码图像块的局部和全局相关性特征,建立待编码像素与因果像素集合之间的相关性映射;最后,在信息融合子网络,通过构建待编码图像块的亮度通道及邻域像素之间的互相关矩阵,实现对待编码像素的空间—颜色通道间的联合预测编码。编码。

【技术实现步骤摘要】
多尺度互相关注意力网络的H.266/VVC色度预测编码方法


[0001]本专利技术涉及图像和视频编码领域,尤其是一种可有效建模色度和亮度分量之间的相关关系,能充分提取色度和亮度分量的通道内、通道间的全局/局部相关性特征,预测准确性高、稳健性好、具备尺度自适应能力、编码性能优、多尺度互相关注意力网络的H.266/VVC色度预测编码方法。

技术介绍

[0002]视频编码是多媒体通信领域的关键基础技术之一,而近年来视频业务数据量的急剧增加,视频流量已经占到互联网流量的80%左右,并且仍呈现稳步上升的趋势,这对视频编码效率提出了越来越高的要求。为了进一步提高压缩比,最新一代国际视频编码标准H.266/VVC在I帧上采用了亮度、色度独立块划分结构,允许亮度和色度分量相互独立地选择最优编码参数,使各个颜色分量的编码机制变得更加灵活。在这种情况下,如何充分利用不同颜色分量之间的相关性,并联合使用亮度分量和已重建的色度分量对当前待处理的色度分量进行跨分量预测编码,已经成为H.266/VVC帧内编码环节的关键技术之一。
[0003]根据预测模型的不同,现有基于跨分量预测策略的色度预测编码方法大致分为三类,即基于线性模型的色度预测编码方法、基于复合线性模型的色度预测编码方法、基于深度学习的色度预测编码方法。
[0004]第一,基于线性模型的色度预测编码方法假定当前待处理像素的亮度和色度分量之间服从线性分布,进而利用线性模型对两个分量之间的相关性进行建模,并通过该线性模型和已重建的亮度分量预测当前待处理像素的色度分量。Lee等人提出了面向4:2:0YCbCr格式的跨分量线性预测方法,其显式方案的线性参数由编码器表示,而隐式解的线性参数则由解码器导出,取得了一定的编码增益。Kim等人提出了一种跨分量线性模型CCLM(cross

component linear model),使用邻近块的重建亮度和色度分量拟合得到线性模型的待定系数,据此采用当前待处理像素的亮度值预测其色度值。Laroche等人选择当前待处理块的上方相邻行、左侧相邻列中固定位置的4个像素组成2个像素对,再计算每个像素对的平均亮度值和色度值,进而利用所得到的2个平均像素值进行线性拟合确定线性模型的参数,据此实现色度分量的线性预测编码。Zhang等人认为三个色彩分量之间或者相邻像素的色彩分量之间存在一定关系,进而采用已重建像素的亮度和色度分量之间的线性关系和当前像素的亮度分量预测其色度分量。Chang等人进一步利用线性回归方法估算亮度—色度对的相关系数,进而利用该线性模型对当前块中的亮度样本进行重构,预测当前块中的色度样本。Huang等人通过分析运动补偿预测信号中相应颜色分量之间的统计相关性来推导残差预测参数,提出了一种用于帧间预测编码的引导跨分量残差预测方法。虽然上述方法能够以较低的计算复杂度实现色度分量的有效编码,但是它们均忽视了色度作为图像的分量之一,其成像机理、光谱响应特性、光谱响应区间与亮度分量存在一定差异,因此色度必然反映亮度所不具备的某种图像特有结构特性。若利用线性模型来建模色度分量与亮度分量的相关性,将产生较大的预测误差,以致降低后续熵编码阶段的压缩效率。
[0005]第二,基于复合线性模型的色度预测编码方法认为,即使在单个编码单元中,颜色分量间的相关关系也是不同的,因而应该根据每个编码单元的像素分布特定确定自适应的线性预测模型。于是,Zhang等人将相邻编码单元的重建相邻亮度和色度样本分为若干组,并以每组作为训练集,通过线性回归确定相应的线性模型,再将当前编码单元的亮度值划分为不同组,进而为每组选取恰当的线性模型完成色度分量的预测编码。Li等人提出了一种双预测的跨颜色分量编码模式,利用关于亮度分量与色度分量C0中某个重构信号的组合来生成第三个颜色分量C1的预测。与多线性模型的思路不同,Yeo等人引进模板匹配的思想突破了线性模型的数量限制,将当前编码单元的亮度分量执行模板匹配,然后使用匹配的编码单元中位于同一空间位置的色度块对当前编码单元的色度块进行预测;Fan等人则提出了一种自适应模板选择方法,其Cr分量既可以从Y分量或Cb分量分别预测得到,又能从Y和Cb分量两者联合预测。总体来看,虽然现有方法采用1个或者多个线性模型建立了色度分量间的预测关系,但是由于YUV分量或者YCrCb分量之间并不总是线性相关的,因此线性模型和复合线性模型仅仅是对色度和亮度分量之间的相关关系的粗略近似,其预测编码的效率仍然存在明显的提升空间。
[0006]第三,基于深度学习的色度预测编码方法的基本思想是利用深度人工神经网络学习亮度和色度分量之间的复杂的相关关系,从而突破传统线性预测模型的局限。Li等人使用全连接神经网络提取与当前编码单元相邻的已重建像素的跨分量相关性特征,使用卷积神经网络提取已重建像素的亮度分量的相关性特征,进而将两类相关性特征以点乘的方式融合起来,通过卷积神经网络产生当前编码单元的色度预测值。在该网络结构的基础上,Yi等人引入了一种基于离散余弦变换(discrete Cosine transform,DCT)的损失函数,旨在使人工神经网络对色度分量的预测残差更接近实际编码器的真实残差,获得了更高的预测性能。Zhu等人首先利用下采样子网络将当前编码单元的亮度分量缩放到与色度分量相同的尺寸,再通过传统的线性预测模型获得色度分量的初始预测,进而在率失真优化模型的控制下,采用一个含有20个卷积层的预测子网络计算出Cb和Cr分量的最佳预测值。由于该方法兼顾应用线性预测模型和人工神经网络模型完成色度预测编码,对视频帧中的不同图像内容和纹理结构具有较强的适应性,表现出了更好的泛化能力。Blanch等人将当前编码单元的上方相邻行、左侧相邻列像素组成边界像素集合,利用连续2个1
×
1卷积模块建立其亮度和色度之间的函数关系,进而采用自注意力机制计算边界像素集合与当前编码单元的亮度分量的相关关系,最终提出了一种基于自注意力的色度预测编码网络,提高了色度分量的预测精度。然而,现有的网络结构在色度预测方面仍然存在一定的局限性。第一,简单地深化网络未必会产生更准确的预测结果,而且会在模式选择阶段增加编码器端的计算复杂性;第二,采用固定尺寸的卷积核计算亮度分量和色度分量之间的相关性,忽略了视频帧的纹理、边缘、细节所具备的多尺度相关特性;第三,在计算颜色通道之间的互相关关系时,忽视了通道内、通道间的像素全局相关性,尤其缺乏对亮度分量中像素非局部相关性的考量,不利于充分提取颜色通道之间的相关性特征。
[0007]综上所述,目前尚没有一种可有效建模色度和亮度分量之间的相关关系,能充分提取色度和亮度分量的通道内、通道间的全局/局部相关性特征,预测准确性高、稳健性好、编码性能优,尤其是具备尺度自适应能力的色度预测编码方法。

技术实现思路

[0008]本专利技术是为了解决现有技术所存在的上述技术问题,提供一种预测准确性高、稳健性好、具备尺度自适应能力、编码性能优的多尺度互相关注意力网络的H.266/VVC色度预测编码方法。
[0009]本专利技术的技术解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多尺度互相关注意力网络的H.266/VVC色度预测编码方法,其特征在于按照如下步骤进行:步骤1.建立并初始化用于帧内色度预测的深度卷积神经网络N
YUV

LBBAF
,包含1个特征提取子网络N
feature
和1个信息融合子网络N
inf

fus
;步骤1.1建立并初始化特征提取子网络N
feature
,包含1个相邻边界像素分支B
boundary
和1个当前亮度块分支B
luma
,其中,相邻边界像素分支B
boundary
用于计算与当前待编码块直接相邻的、已经获得重建的上边界和左边界像素的通道间相关性特征,当前亮度块分支B
luma
用于计算当前待编码块的亮度通道中所有像素的局部和全局相关性特征;步骤1.1.1建立并初始化相邻边界像素分支B
boundary
,包含2组卷积层和1个四并联可分离卷积的通道注意力模块,分别为Conv1、Conv2、QPSCA;所述Conv1包含1层卷积操作和1层激活操作,其中,卷积层以大小为1
×
1的卷积核,以随机初始化方式进行初始化,以padding=0的填充模式进行卷积运算,卷积核的输入通道数为3,输出通道数为32,步长为1个像素;所述Conv2包含1层卷积操作和1层激活操作,其中,卷积层以大小为1
×
1的卷积核,以随机初始化方式进行初始化,以padding=0的填充模式进行卷积运算,卷积核的输入通道数为32,输出通道数为32,步长为1个像素;所述QPSCA包含1个通道注意力模块QPSCA_CA和4组并行排列的卷积层,分别为QPSCA_Conv1、QPSCA_Conv2、QPSCA_Conv3、QPSCA_Conv4;所述QPSCA_CA包含1组池化层和2组卷积层,其中,池化层执行自适应平均池化运算,第1个卷积层以大小为1
×
1、激活函数为ReLU、随机初始化方式进行初始化的卷积核,以1个像素为步长进行卷积运算,卷积核的输入通道数为32,输出通道数为4,第2个卷积层以大小为1
×
1、激活函数为Sigmoid、随机初始化方式进行初始化的卷积核,以1个像素为步长进行卷积运算,卷积核的输入通道数为4,输出通道数为32;所述QPSCA_Conv1包含1层卷积操作,以大小为1
×
3的卷积核,以随机初始化方式进行初始化,以padding=0的填充模式和group=1的分组模式进行卷积运算,卷积核的输入通道数为32,输出通道数为8,步长为1个像素;所述QPSCA_Conv2包含1层卷积操作,以大小为1
×
5的卷积核,以随机初始化方式进行初始化,以padding=2的填充模式和group=2的分组模式进行卷积运算,卷积核的输入通道数为32,输出通道数为8,步长为1个像素;所述QPSCA_Conv3包含1层卷积操作,以大小为1
×
7的卷积核,以随机初始化方式进行初始化,以padding=3的填充模式和group=4的分组模式进行卷积运算,卷积核的输入通道数为32,输出通道数为8,步长为1个像素;所述QPSCA_Conv4包含1层卷积操作,以大小为1
×
9的卷积核,以随机初始化方式进行初始化,以padding=4的填充模式和group=8的分组模式进行卷积运算,卷积核的输入通道数为32,输出通道数为8,步长为1个像素;步骤1.1.2建立并初始化当前亮度块分支B
luma
,包含1组卷积层和2组十字交叉注意力模块,分别为Conv3、CAM1、CAM2;所述Conv3包含1层卷积操作,以大小为5
×
5的卷积核,以ReLU为激活函数,以随机初始化方式进行初始化,以padding=2的填充模式进行卷积运算,卷积核的输入通道数为1,输
出通道数为64,步长为1个像素;所述CAM1的1
×
1卷积层的输入通道数为64,输出通道数为64,其余参数为默认设置;所述CAM2的1
×
1卷积层的输入通道数为64,输出通道数为64,其余参数为默认设置;步骤1.2建立并初始化信息融合子网络N
inf

fus
,包含5组卷积层,分别为Conv4、Conv5、Conv6、Conv7、Conv8;所述Conv4包含1层卷积操作和1层激活操作,其中,卷积层以大小为1
×
1的卷积核,以随机初始化方式进行初始化,以padding=0的填充模式进行卷积运算,卷积核的输入通道数为32,输出通道数为16,步长为1个像素,激活函数为ReLU;所述Conv5包含1层卷积操作和1层激活操作,其中,卷积层以大小为1
×
1的卷积核,以随机初始化方式进行初始化,以padding=0的填充模式进行卷积运算,卷积核的输入通道数为64,输出通道数为16,步长为1个像素,激活函数为ReLU;所述Conv6包含1层卷积操作和1层激活操作,其中,卷积层以大小为1
×
1的卷积核,以随机初始化方式进行初始化,以padding=0的填充模式进行卷积运算,卷积核的输入通道数为64,输出通道数为32,步长为1个像素,激活函数为ReLU;所述Conv7包含1层卷积操作和1层激活操作,其中,卷积层以大小为3
×
3的卷积核,以随机初始化方式进行初始化,以padding=1的填充模式进行卷积运算,卷积核的输入通道数为32,输出通道数为32,步长为1个像素,激活函数为ReLU;所述Conv8包含1层卷积操作和1层激活操作,其中,卷积层以大小为1
×
1的卷积核,以随机初始化方式进行初始化,以padding=0的填充模式进行卷积运算,卷积核的输入通道数为32,输出通道数为2,步长为1个像素,激活函数为Identity;步骤2.输入DIV2K数据集中的训练集图像,对其进行分块处理,得到大小分别为4
×
4、8
×
8、16
×
16的图像块集合,进而构造深度卷积神经网络N
YUV

LBBAF
的输入训练向量;步骤2.1对于训练集的每幅图像,将其颜色空间从RGB转换为YCbCr,并将其分别划分成大小为4
×
4、8
×
8、16
×
16的不重叠的块,组成训练图像块集合S
tb
,令S
tb
中的图像块数量为N
tb
;步骤2.2分别令向量S

0、向量X

0、向量X
Cb

0、向量X
Cr

0,并令计数器i

1;步骤2.3对于训练图像块集合S
tb
的第i个图像块令其宽度和高度均为取出其亮度通道的个像素值组成亮度通道像素值向量X
i
,并令所述表示连接运算;步骤2.4取出图像块的Cb通道的全部像素值组成向量并令步骤2.5取出图像块的Cr通道的全部像素值组成向量并令步骤2.6在所在的原图像内取出个相邻的因果邻域像素,包括与的左边界直接相邻的个像素、与的上边界直接相邻的个像素以及与的左上角顶点直接相邻的1个像素,并将该个像素的Y、Cb和Cr三个颜色通道的像素值组成因果邻域像素值向量S
i
,令步骤2.7如果i>N
tb
,那么转入步骤3,否则令i

i+1,并返回步骤2.3;步骤3.输入向量S、X、X
Cb
和X
Cr
,对深度卷积神经网络N
YUV

LBBAF
进行训练,令迭代次数
iter1;步骤3.1令计数器i

1;步骤3.2取出向量S中第i个图像块的因果邻域像素值向量S
i
,将其输入相邻边界像素分支B
boundary
,利用卷积层Conv1对S
i
进行计算,得到卷积特征图SF1;步骤3.3利用卷积层Conv2对SF1进行计算,得到卷积特征图SF2;步骤3.4利用四并联可分离卷积的通道注意力模块QPSCA对SF2进行处理,得到卷积特征图Y;步骤3.4.1利用卷积层QPSCA_Conv1对SF2进行计算,得到卷积特征图Y1;步骤3.4.2利用卷积层QPSCA_Conv2对SF2进行计算,得到卷积特征图Y2;步骤3.4.3利用卷积层QPSCA_Conv3对SF2进行计算,得到卷积特征图Y3;步骤3.4.4利用卷积层QPSCA_Conv4对SF2进行计算,得到卷积特征图Y4;步骤3.4.5令步骤3.5利用通道注意力模块QPSCA_CA对Y1、Y2、Y3、Y4进行处理,得到特征...

【专利技术属性】
技术研发人员:宋传鸣武惠娟段晟颐王相海
申请(专利权)人:辽宁师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1