System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于神经网络的VVC多层次快速帧间编码系统及方法技术方案_技高网

一种基于神经网络的VVC多层次快速帧间编码系统及方法技术方案

技术编号:41066279 阅读:2 留言:0更新日期:2024-04-24 11:20
本发明专利技术公开了一种基于神经网络的VVC多层次快速帧间编码系统及方法。本发明专利技术包括基于运动场与编码信息的CU划分终止模块;基于轻量级全连接网络的CTU深度预测模块;基于编码信息的TT划分终止模块;基于CNN的CU划分模式选择模块;通过四个模块之间多层次的组合,避免冗余的划分方式,降低帧间编码复杂度。本发明专利技术针对帧间编码的特性,利用编码上下文信息和神经网络的特征提取能力,从多个层次出发,各层次相互结合,兼顾复杂度与准确性,有效的降低了VVC帧间编码复杂度。

【技术实现步骤摘要】

本专利技术属于通用视频编码(vvc),尤其涉及一种基于神经网络的vvc多层次快速帧间编码系统及方法。


技术介绍

1、随着互联网多媒体技术的高速发展,智能手机、平板电脑和智能电视等设备快速普及,用户对高质量视频的需求也在不断增加。高清晰度、高帧率和高动态范围等特性的视频成为用户期望的标准。vvc编码标准应运而生,以适应这一数字时代的挑战。

2、此外,云计算、大数据和人工智能等先进技术的快速发展,为视频编码带来了新的机遇和挑战。vvc标准的制定考虑了这些技术的融合应用,致力于提供更高效、更智能的视频编码解决方案。同时,vvc还注重了对网络带宽的利用效率,尤其在移动网络环境下,通过优化视频压缩算法,实现了更低的比特率和更好的网络适应性。

3、vvc相对于上一代视频编码标准(high efficiency video coding)引入了多类型树划分mtt(multi-type tree)的划分方式,同时在帧间编码模式上引入了仿射运动估计模型,双向光流(bi-directional optical flow,bdof),自适应运动矢量精度(adaptivemotion vector resolution,amvr),解码端运动矢量修正(decoder side motion vectorrefinement,dmvr)等技术,极具增加了编码复杂度,难以做到实时编码,所以降低h.266/vvc的复杂度是一个非常重要的问题。

4、在当前技术背景下,传统的vvc帧间编码算法面临着计算复杂度高、速度慢的挑战。因此,提出一种基于神经网络的vvc多层次快速帧间编码方法,能够显著提高vvc帧间编码的效率。

5、传统的vvc帧间编码算法通常依赖于图像纹理信息以及复杂的运动估计和运动补偿技术,这些技术在处理高分辨率视频时需要大量的计算资源,同时存在分析不全面的问题。然而,深度学习技术通过训练神经网络模型,能够学习到视频帧间的复杂关系,从而在编码过程中选择合适的划分模式,既提高了编码速度,还能够保持编码视频质量。


技术实现思路

1、本专利技术的目的针对vvc帧间编码复杂度高的问题,提出了一种基于神经网络的vvc多层次快速帧间编码系统及方法,针对帧间编码的特性,利用编码上下文信息和神经网络的特征提取能力,从多个层次出发,各层次相互结合,兼顾复杂度与准确性,有效的降低了vvc帧间编码复杂度。

2、本专利技术解决的技术问题所采用的技术方案如下:

3、一种基于神经网络的vvc多层次快速帧间编码系统,包括基于运动场与编码信息的cu划分终止模块;基于轻量级全连接网络的ctu深度预测模块;基于编码信息的tt划分终止模块;基于cnn的cu划分模式选择模块;通过四个模块之间多层次的组合,避免冗余的划分方式,降低帧间编码复杂度。

4、所述的基于运动场与编码信息的cu划分终止模块,具体实现包括:

5、步骤1-1:在编码帧间帧之前,在当前帧最近的前向参考帧上进行粗运动估计;

6、步骤1-2:将粗运动估计的搜索范围限制在ctu大小内,对4×4小块进行粗运动估计获得当前cu的运动场,同时运动补偿技术获得当前帧的残差图像,为后续的模块做出准备;

7、步骤1-3:若当前skip标志位的数值为true,且当前运动场中的运动矢量全为0,即运动场静止时,终止cu的继续划分,否则进入ctu深度预测模块。

8、所述的基于轻量级全连接网络的ctu深度预测模块,具体实现包括:

9、2-1:根据vvc中帧间ctu的深度范围为0-6,兼顾编码块的特性与预测准确率,根据深度(0,1)、(2,3)、(4,5,6)分为3类,分别对应简单块、中等块、复杂块;

10、2-2:在当前ctu进行merge编码模式后,提取轻量级全连接网络的输入信息,具体包括量化参数qp、残差像素最大值respixmax、skip标志位、编码的比特数bits、时域同位块最大划分深度maxcoldepth、时域同位块最小划分深度mincoldepth和参考区域划分最大深度maxrefdepth;

11、2-3:构建轻量级全连接神经网络,预测ctu深度的轻量级全连接网络包括输入层、隐藏层和输出层,其中输入层节点有7个;隐藏层有两层,第一个隐藏层节点有16个,第二个隐藏层节点有16个,隐藏层的激活函数为relu;输出层节点为3个;

12、2-4:训练轻量级全连接网络并保存最佳的预测模型;根据预测的结果结合时域同位块最大深度,若当前划分深度大于预测划分深度和同位块最大深度,则终止划分;若预测的结果是复杂块,则在深度0-3范围内终止tt划分。

13、所述的基于编码信息的tt划分终止模块,具体实现包括:

14、3-1:按照vtm原始编码流程进行编码,若满足宽高尺寸比要求,进入步骤3-2;

15、3-2:若当前cu在帧间模式遍历过程中,merge模式判定为最优的编码模式,且当前的宽高比大于2,则终止tt划分,具体地,若宽/高大于2,终止tt垂直划分;若高/宽大于2,终止tt水平划分。

16、所述的基于cnn的cu划分模式选择模块,具体实现包括:

17、cnn网络模型针对的是128×128、64×64、32×32亮度块;

18、cnn网络模型由多尺度非对称特征提取模块(msac)、ca注意力机制模块(ca)、残差模块(resblock)、稠密连接模块(dense block)以及全连接层构成;

19、4-1:数据准备,数据集包括当前编码单元的亮度块、经过粗运动估计和运动补偿得到的残差亮度块、量化参数qp以及时域层编号tid;将数据集中输入网络的数据进行标准化预处理;

20、4-2:构建cnn网络模型,将两张图像数据拼接后输入到多尺度非对称特征提取模块(msac)进行浅层特征的提取,之后经过最大池化层(maxpool)进行池化操作,接着进入ca注意力模块进行处理得到浅层特征;

21、4-3:将浅层特征分别进入两个分支进行处理,第一个分支经过四个残差模块(resblock)进行深层特征提取;第二个分支进入稠密连接模块充分融合特征,后经过池化层处理;将两个分支得到的深层特征进行通道拼接,得到深层融合特征;

22、4-4:对得到的深层融合特征进行自适应平均池化(abgpool)以及扁平化处理,后送入到全连接层融入量化参数qp和时域层编号tid,得到输出的预测值,再经过softmax函数处理;

23、4-5:根据softmax函数处理后的预测值和数据集自带的真实标签计算cnn网络模型的损失函数,cnn模型的训练过程中损失函数为:

24、

25、其中,pi为该划分类别i的比例,n表示预测类别数量;ym表示cu的真实划分标签;表示cu的预测标签;

26、4-6:用adam优化器优模型化参数,最终将优化好的cnn网络模型本文档来自技高网...

【技术保护点】

1.一种基于神经网络的VVC多层次快速帧间编码系统,其特征在于,包括

2.根据权利要求1所述的一种基于神经网络的VVC多层次快速帧间编码系统,其特征在于基于运动场与编码信息的CU划分终止模块,具体实现包括:

3.根据权利要求1所述的一种基于神经网络的VVC多层次快速帧间编码系统,其特征在于基于轻量级全连接网络的CTU深度预测模块,具体实现包括:

4.根据权利要求1所述的一种基于神经网络的VVC多层次快速帧间编码系统,其特征在于基于编码信息的TT划分终止模块,具体实现包括:

5.根据权利要求1所述的一种基于神经网络的VVC多层次快速帧间编码系统,其特征在于,基于CNN的CU划分模式选择模块,具体实现包括:

6.根据权利要求5所述的一种基于神经网络的VVC多层次快速帧间编码系统,其特征在于,所述的多尺度非对称特征提取模块(MSAC)包括三个分支,将当前特征经过三个分支用不同的卷积核进行处理:对于128x128大小的数据,卷积核大小分别是9×5、7×7、5×9,卷积核的个数分别是8、16、8;对于64x64大小的数据,卷积核大小分别是7×3、5×5、3×7,卷积核的个数分别是8、16、8;对于32x32大小的数据,卷积核大小分别是5×1、3×3、1×5,卷积核的个数分别是8、16、8;进行多分支后将不同尺度卷积的输出用LeakyRelu激活后进行通道拼接后输出。

7.根据权利要求5所述的一种基于神经网络的VVC多层次快速帧间编码系统,其特征在于,所述的残差模块,输入的数据Xin经过残差模块的输出如下:

8.根据权利要求5所述的一种基于神经网络的VVC多层次快速帧间编码系统,其特征在于,所述的稠密连接模块包含6个稠密层,每个稠密层对于输入的Xin得到的输出Xout为:

9.一种基于神经网络的VVC多层次快速帧间编码方法,其特征在于包括如下步骤:

10.根据权利要求9所述的一种基于神经网络的VVC多层次快速帧间编码方法,其特征在于,搭建轻量级全连接神经网络和CNN网络模型的训练数据集的制作具体包括:

...

【技术特征摘要】

1.一种基于神经网络的vvc多层次快速帧间编码系统,其特征在于,包括

2.根据权利要求1所述的一种基于神经网络的vvc多层次快速帧间编码系统,其特征在于基于运动场与编码信息的cu划分终止模块,具体实现包括:

3.根据权利要求1所述的一种基于神经网络的vvc多层次快速帧间编码系统,其特征在于基于轻量级全连接网络的ctu深度预测模块,具体实现包括:

4.根据权利要求1所述的一种基于神经网络的vvc多层次快速帧间编码系统,其特征在于基于编码信息的tt划分终止模块,具体实现包括:

5.根据权利要求1所述的一种基于神经网络的vvc多层次快速帧间编码系统,其特征在于,基于cnn的cu划分模式选择模块,具体实现包括:

6.根据权利要求5所述的一种基于神经网络的vvc多层次快速帧间编码系统,其特征在于,所述的多尺度非对称特征提取模块(msac)包括三个分支,将当前特征经过三个分支用不同的卷积核进行处理:对于128x128大小的数据,卷积核大小分别是9×5、7...

【专利技术属性】
技术研发人员:陆宇陈曦殷海兵黄晓峰周洋王鸿奎
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1