基于特征交叉的屏幕内容视频帧内模式快速决策制造技术

技术编号:38582603 阅读:16 留言:0更新日期:2023-08-26 23:26
本发明专利技术公开了一种基于特征交叉的屏幕内容视频帧内模式快速决策,其包括:针对当前CU,确定当前CU的信息熵、平均灰度水平差值、背景色百分比、高梯度像素数作为与当前CU相对应的数值型特征;针对当前CU,确定当前CU的相邻CU属性、当前CU的深度属性作为与当前CU相对应的类别型特征;将与当前CU相对应的数值型特征和类别型特征输入到自适应因子分解网络(AFN)中以便由AFN网络判断当前CU是屏幕内容CU还是自然内容CU,其中,所述AFN中的对数变换层之上进一步包括注意力网络层和尺度变换层。本发明专利技术通过引入特征交叉思想,利用特征间的交叉作用来构造出新的具有更强判别力的特征,提升算法对编码单元的分类能力,在减少帧内模式决策时间的同时保持较低的编码损失。的同时保持较低的编码损失。

【技术实现步骤摘要】
基于特征交叉的屏幕内容视频帧内模式快速决策


[0001]本专利技术涉及图像与视频处理领域,更具体而言,涉及在屏幕内容编码(SCC)中基于特征交叉的屏幕内容视频帧内模式快速决策的方法、装置和计算机程序产品。

技术介绍

[0002]数字视频功能可以结合到各种设备中,包括数字电视、数字直接广播系统、无线广播系统、个人数字助理(PDA)、膝上型电脑或台式计算机、平板电脑、电子书阅读器、数码相机、数字记录设备、数字媒体播放器、视频游戏设备、视频游戏机、蜂窝或卫星无线电电话、所谓的“智能电话”、视频电话会议设备、视频流设备等。
[0003]数字视频设备实施视频编码(coding)技术,诸如由MPEG

2、MPEG

4、ITU

T H.263、ITU

TH.264/MPEG

4,第10部分,高级视频编码(AVC)、高效视频编码(HEVC)标准、ITU

T H.265/高效视频编码(HEVC)、多功能视频编码(Versatile Video Coding)VVC(H.266)、以及此类标准的扩展定义的标准中描述的那些技术。通过实施这样的视频编码技术,视频设备可以更有效地发送、接收、编码、解码和/或存储数字视频信息。
[0004]2010年4月,两大国际视频编码标准组织VCEG和MPEG成立视频压缩联合小组JCT

VC(Joint collaborative Team on Video Coding),一同开发高效视频编码标准。
[0005]在2013年,JCT

VC完成了对HEVC(High efficiency video coding)标准(也称为H.265)开发,并且随后陆续发布了多个版本。
[0006]HEVC提出了全新的语法单元:编码单元(CU)是进行预测、变换、量化和熵编码的基本单元,预测单元(PU)是进行帧内帧间预测的基本单元,变换单元(TU)是进行变换和量化的基本单元。另外,每个CU定义了共享相同预测模式(帧内或帧间)的区域。
[0007]如图1所示,在HEVC中,可以进行帧内预测模式和帧间预测模式的切换。在帧内预测模式和帧间预测模式中,HEVC都采用编码树单元(CTU)的编码结构,CTU是HEVC编解码的基本处理单元。CTU由1个亮度CTB(编码树块,Coding Tree Block)、2个色度CTB和相应的语法元素组成。图2显示了在一个LCU(最大编码单元)编码后的CTU结构。在HEVC中,LCU可以只包含一个编码单元(CU),也可以使用CTU四叉树结构划分出为不同大小的CU。
[0008]HEVC中有四种大小CU,大小分别为:64x64、32x32、16x16和8x8。CU块越小,其在CTU树中位置越深。当CU为64x64、32x32和16x16时称为2Nx2N模式(表示可以划分为更小的CU),当CU为8x8时称为NxN模式(表示不可以进行进一步划分)。对于帧内预测,CU被分成两个PartMode(2Nx2N和NxN),这取决于它是否可以被分成更小的CU。尺寸为64x64、32x32和16x16的CU属于2N
×
2N,尺寸为8
×
8的CU属于N
×
N。
[0009]在HEVC中,PU进行帧内帧间预测的基本单元,PU的划分是以CU为基础的,具有五种规则大小64x64、32x32、16x16、8x8和4x4。更具体地,PU尺寸基于PartMode:对于2N
×
2N的PartMode PU尺寸与CU相同,对于N
×
N的PartMode CU可以被划分为四个4
×
4子PU。对于2N*2N的CU模式,帧内预测PU的可选模式包括2N*2N和N*N,帧间预测PU的可选模式有8种,包括4种对称模式(2N*2N,N*2N,2N*N,N*N)和4种非对称模式(2N*nU,2N*nD,nL*2N,nR*2N),其中,
2N*nU和2N*nD分别以上下1:3、3:1的比例划分,nL*2N和nR*2N分别以左右1:3、3:1的比例划分。
[0010]在HEVC中,仍然继续使用H.264/AVC的拉格朗日率失真优化(RDO)进行模式选择,为每一个帧内模式计算其RDO:
[0011]J=D+λR (1)
[0012]其中,J为拉格朗日代价(亦即RD

cost),D表示当前帧内模式的失真,R表示编码当前预测模式下所有信息所需的比特数,λ为拉格朗日因子。其中D通常使用绝对哈达玛变换差之和(SATD)来实现。
[0013]处理一帧视频图像需要首先将其划分成多个LCU(64x64),然后依次编码每个LCU。每个LCU依次递归划分,其通过计算当前深度的RD

cost判定是否继续划分。一个LCU最小可划分至8x8大小的单元,如图2所示。编码器通过比较深度的RD

cost值判定是否继续划分,如果当前深度内的4个子CU的编码代价总和大于当前CU,则不继续划分;反之则继续划分,直至划分结束。
[0014]本领域技术人员容易理解,由于CTU是对LCU进行CU划分的树状编码结构,CTU中的CU划分方式是以LCU开始的,因此在本领域中这两个名词经常可交换地使用。
[0015]在帧内预测中,每个PU使用总共35种预测模式。使用粗略模式决策(RMD),我们可以获得64x64、32x32和16x16块的三种候选模式以及8x8和4x4块的八种候选模式。通过合并来自相邻块的最可能模式(MPM)来获得每个PU大小的最佳候选列表。然后,通过RDO来选择当前PU的最佳帧内预测模式。当完成当前CU中包括的所有PU的帧内预测时,完成当前CU的帧内预测。通过当前CU的RD

cost与当前CU及其4个子CU的四个子CU的总RD

cost之间的比较来选择具有较小RD

cost的次优CU内部预测完成。当完成所有CU分区时,完成当前CTU帧内预测。对于HEVC,当对LCU进行编码时,应当执行85个CU(一个64
×
64CU,四个32
×
32CU,十六个16
×
16CU和六十四个8
×
8CU)的帧内预测。当CU被编码时,应当执行一个PU或四个子PU的帧内预测。大量CU和PU导致帧内预测的高复杂性。
[0016]为了开发超越HEVC的新技术,2015年成立的一个新的组织,联合视频探索组(Joint Video Exploration Term),并在2018年更名为联合视频专家组(JointVideo Experts Term,JVET)。在HEVC的基础上,多功能视频编码(Versatile Video Coding)VVC(H.266)的研究由JVET组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在屏幕内容编码(SCC)中基于特征交叉的屏幕内容视频帧内模式快速决策的方法,包括:针对当前CU,确定当前CU的信息熵、平均灰度水平差值、背景色百分比、高梯度像素数作为与当前CU相对应的数值型特征;针对当前CU,确定当前CU的相邻CU属性、当前CU的深度属性作为与当前CU相对应的类别型特征;将与当前CU相对应的数值型特征和类别型特征输入到自适应因子分解网络(AFN)中以便由AFN网络判断当前CU是屏幕内容CU还是自然内容CU,其中,所述AFN中的对数变换层之上进一步包括注意力网络层和尺度变换层。2.如权利要求1所述的方法,其中,所述注意力网络层用于对所述对数变换层输出的交叉特征进行评价。3.如权利要求1

2中任一项所述的方法,其中,所述注意力网络由多层感知机构成。4.如权利要求1

3中任一项所述的方法,其中,在对所述AFN进行训练过程中,所述注意力网络层根据所述对数变换层中的指数变换的输出对网络性能影响程度的不同,从而对不同的指数变换输出分配不同的权重值。5.如权利要求1

4中任一项所述的方法,其中,所述尺度变换层用于对所述注意力网络层的输出进行尺度变换,以减少隐藏层的参数数量。6.如权利要求1

5中任一项所述的方法,其中,所述与当前CU相对应的数值型特征与所述尺度变换层的输出一起作为隐藏层的输入。7.如权利要求1

【专利技术属性】
技术研发人员:张萌萌景竑元唐少虎刘志
申请(专利权)人:北京联合大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1