视频编码和解码中的色度帧内预测制造技术

技术编号:35587975 阅读:16 留言:0更新日期:2022-11-16 15:03
针对色度数据提供了帧内预测模式,其中神经网络所实现的注意力模块指示色度数据块相对于针对并置的亮度块的亮度数据的编码。对于针对并置的亮度块的亮度数据的编码。对于针对并置的亮度块的亮度数据的编码。

【技术实现步骤摘要】
【国外来华专利技术】视频编码和解码中的色度帧内预测


[0001]本公开涉及视频编码和解码。

技术介绍

[0002]可以对数字视频进行编码以用于传输和/或存储。这在对信道带宽的需求、存储要求以及错误检测和/或校正方面可以具有效率优势。
[0003]视频压缩技术涉及采集视频数据块并采用多种方法来发挥冗余的优势。例如,帧内预测是一种空间性方法,其涉及针对一个视频块,参考视频数据的同一帧中的另一个(预测性的)视频块来对其进行编码。另一方面,帧间预测是一种时间性方法,其涉及针对视频帧的一个视频块,参考视频数据的另一帧的相应的(预测性的)块来对其进行编码。
[0004]通常,视频数据包括亮度(luma)数据和色度(chroma)数据。亮度数据表示图像的亮度,而并不参考颜色。本质上,亮度数据描述了黑白图像,并且准确地说,这样的图像可以单独地根据亮度数据进行重构。色度数据表示颜色信息,该颜色信息可被用于在黑白图像上对颜色进行重构。
[0005]可以使用不同的方法来对亮度数据和色度数据进行编码。人眼对亮度比对色度更加敏感;这导致相比亮度数据有机会更进一步地压缩色度数据。
附图说明
[0006]图1是根据实施例的通信网络的示意图;
[0007]图2是图1的通信网络的发送器的示意图;
[0008]图3是示出在图2的发送器上实施的编码器的图;
[0009]图4是示出图3的编码器的预测模块的结构和功能的过程图;
[0010]图5是图1的通信网络的接收器的示意图;
[0011]图6是示出在图4的接收器上实施的解码器的图;以及
[0012]图7是示出图6的解码器的预测模块的结构和功能的过程图。
具体实施方式
[0013]多功能视频编码(VVC:Versatile Video Coding)(MPEG

I Part 3)是目前由联合视频专家团队(JVET:Joint Video Experts Team)、ISO/IEC JTC 1的MPEG工作组的联合视频专家团队和ITU

T的VCEG工作组开发的视频压缩标准。
[0014]通常通过基于当前块附近环境中已经重构的样本计算预测值来采用帧内预测,以便开发帧内的空间冗余。最新的VVC草案(在本文档的其余部分中被简称为VVC)允许使用大量可能的帧内预测模式(“帧内模式”)来预测亮度分量,所述大量可能的帧内预测模式包括多达65个角度(定向)模式、平面(Planar)和直流(DC)预测以及其它高级的预测方法。
[0015]这大量的选项是以相当大数量的信令数据为代价的,用以用信号通知在亮度数据块上采用了哪种帧内模式。相反,为了限制帧内模式信令的影响,采用了缩减数量的帧内模
式来对色度分量进行帧内预测。这包括可被用于预测亮度的模式的子集,包括例如导出模式(DM:Derived Mode,对应于使用被用于预测亮度的模式)加上一小组固定候选模式(包括Planar模式、DC模式、纯水平模式和纯垂直模式)。
[0016]此外,VVC规定了交叉分量线性模型(CCLM:Cross

Component Linear Model)帧内模式的使用。当使用CCLM时,使用线性模型从已经重构的亮度样本中预测色度分量。该模型的参数是借助于简单的线性回归而导出的,被应用于从编码块左上边界中提取出的已重构的相邻的亮度和色度样本。目前在VVC中采用了三种CCLM模式,包括使用左上可用样本的通用LM模式以及分别采用仅从当前块的顶部或左侧提取出的参考样本的扩展阵列的两种定向LM模式。
[0017]已经证实了LM预测的使用有效地提高了色度帧内预测的效率。然而,本文所公开的实施例寻求从其它方法中获得进一步的优势。
[0018]在此应注意,简单线性预测的使用可能会受到限制。相对于现有技术,本文所公开的实施例可以通过使用基于机器学习(ML:Machine Learning)机制的更复杂的架构来实现改进的性能。
[0019]在“用于色度帧内预测的混合神经网络”(2018年第25届IEEE图像处理国际会议(ICIP:International Conference on Image Processing);Li Yue、Li Li、Zhu Li、Jianchao Yang、Ning Xu、Dong Liu和Houqiang Li;IEEE,2018,pp.1797

1801)中对用于色度帧内预测的混合神经网络进行了描述,其中,用于从当前块的已重构亮度样本中提取特征的卷积神经网络(CNN:convolutional neural network)与现有的用于提取相邻亮度与色度样本之间的交叉分量相关性的基于全连接的架构相结合。使用这样的架构,可以推导出复杂的非线性映射,以用于对Cb和Cr信道进行端到端预测。然而,这样的架构通常会在对预测块中的相应位置进行预测时忽略边界样本的空间相关性。
[0020]本文所公开的实施例提供了一种包含注意力模块的神经网络架构,该注意力模块用于控制每个参考相邻样本对计算针对每个样本位置的预测值的贡献,从而确保在计算预测值时考虑到空间信息。与前述的混合神经网络类似,根据本文所公开的实施例的方法采取了基于三个网络分支的方案,该三个网络分支被组合以产生预测样本。前两个分支同时工作,用以从可用的已重构样本中提取特征,该已重构样本包括已经重构的亮度块以及已经重构的相邻的亮度和色度参考样本。第一个分支(被称为交叉分量边界分支)旨在使用当前块的左侧和上方的扩展参考阵列来从相邻的已重构样本中提取交叉分量信息。第二个分支(被称为亮度卷积分支)应用卷积操作来遍及并置的已重构亮度块而提取空间图案。本文所描述的实施例呈现了使用注意力模块来融合由第一个分支和第二个分支输出的特征的过程。下面将描述注意力模块的示例。注意力模块的输出最终被馈送到第三个网络分支,用以产生作为结果的Cb和Cr色度输出预测值。
[0021]这种使用神经网络来实现色度预测的方法可以被看作是对VVC中定义的现有色度预测模式的扩充。因此,在实施例中,可以实现基于神经网络的架构,用以与针对所支持的4
×
4、8
×
8、16
×
16设置的已建立模式进行竞争。然后,针对每个预测单元,编码器将通过使率失真成本标准最小化来在传统的角度模式、LM模型或所公开的神经网络模式之间进行选择。
[0022]上述布置可以在视频通信网络中实现,被设计为通过编码技术来对视频呈现进行
处理,使其能够被传输(或存储)以供回放设备解码。
[0023]一般而言,本公开的方面能够基于亮度样本和注意力掩蔽(attention mask)来对色度样本进行帧内预测,该注意力掩蔽通过卷积神经网络来配置。
[0024]如图1中所示,其示出了包括示意性视频通信网络10的布置,其中发送器20和接收器30经由通信信道40进行通信。在实践中,通信信道40可以包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种对视频数据进行解码的方法,所述方法包括:从已重构亮度样本和已重构色度样本中提取参考样本;以及从所述参考样本中构建至少一个色度预测样本块,其中,所述色度预测样本的构建依赖于所述参考样本的空间位置。2.根据权利要求1所述的方法,其中所述参考样本包括来自所述色度预测样本块的相邻块的已重构色度样本。3.根据权利要求1或2所述的方法,其中所述参考样本包括与所述色度预测样本块并置的已重构亮度样本。4.根据权利要求1、2或3所述的方法,其中所述参考样本包括来自并置的已重构亮度样本块的相邻块的已重构亮度样本。5.根据前述权利要求中任一项所述的方法,其中所述色度预测样本的构建依赖于注意力模块的使用。6.根据权利要求5所述的方法,其中所述注意力模块被配置为深度神经网络。7.根据权利要求5或6所述的方法,其中所述色度预测样本的构建依赖于交叉分量信息的计算。8.根据权利要求5至7中任一项所述的方法,其中所述色度预测样本的构建依赖于使用至少一种卷积操作来遍及亮度数据块而提取空间图案数据。9.根据权利要求5至8中任一项所述的方法,包括:利用所述注意力模块来控制每个参考相邻样本对计算针对样本位置的预测值的贡献。10.根据前述权利要求中任一项所述的方法,进一步实现构建至少一个色度数据块的一个或多个其它模式,并且其中,基于接收到的信号来确定构建至少一个色度数据块的所述模式。11.一种用于对视频数据进行解码的解码器,包括:参考样本提取器,用于从已重构亮度样本和已重构色度样本中提取参考样本;以及色度预测样本构建器,用于从所述参考样本中构建至少一个色度预测样本块,其中,所述色度预测样本构建器能操作以依据所述参考样本的空间位置来构建色度预测样本。12.根据权利要求11所述的解码器,其中所述参考样本包括来自所述色度预测样本块的相邻块的已重构色度样本。13.根据权利要求11或12所述的解码器,其中所述参考样本包括与所述色度预测样本块并置的已重构亮度样本。14.根据权...

【专利技术属性】
技术研发人员:马克
申请(专利权)人:英国广播公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1