一种基于多信息融合的深度神经网络的环路滤波方法技术

技术编号:37176631 阅读:14 留言:0更新日期:2023-04-20 22:45
本发明专利技术属于视频编解码技术领域,具体涉及一种利用编码过程中多种信息融合的神经网络MIIN(Multi

【技术实现步骤摘要】
一种基于多信息融合的深度神经网络的环路滤波方法


[0001]本专利技术涉及视频编码技术相关领域,具体涉及一种基于多信息融合的深度神经网络环路滤波器设计及其构建方法。

技术介绍

[0002]随着硬件性能的不断提升和网络技术的迭代发展,加之人们对于视频内容的需求不断改善,视频现在正向超高清、广色域、全景等方向发展,其海量的视频存储和稳定的视频传输对视频编码相关技术提出了新的挑战。最新一代的视频编码标准VVC相较于上一代的视频编码标准HEVC,在相同感知质量的前提下,约降低了50%的比特率。特别的,视频编码标准中的环路滤波技术既提高了当前编码图像的质量,也为后续帧的编码提供了更高质量的参考图像。
[0003]具有色度缩放的亮度映射(LMCS)是VVC视频编解码标准中新增的技术,在SDR和HDR视频中均取得较好的重建效果,其方式是自适应地修改编码样本的分布以提高编码效率,主要包括两个功能组件:亮度映射和色度缩放。亮度映射是基于自适应分段线性模型的环内映射方式,其基本思想是在给定比特深度下,通过调整输入信号的动态范围来提高压缩效率。色度缩放是一种基于亮度信息的色度残差缩放,其目的在于通过对色度编码块内的色度残差信息值进行调整以补偿因亮度调整而带来的问题。
[0004]去方块滤波器(DBF)主要用于去除编码过程中出现的块效应。块效应的出现是由于视频编码处理都是基于分块进行的。块作为处理单位,相互之间是独立的,其结果使得重建图像块边界的两侧纹理较为平滑,但两侧像素值出现不连续的情况。当编码块的边界两侧的图像有着较强的相关性,且图像纹理较为平滑时,这种像素上的不连续就形成了人眼中的“方块效应”。去块效应滤波器DBF首先判断图像的边界类型,然后对于块效应形成的伪边界附近的像素值进行“修正”,此过程是通过设置滤波参数进行的,而滤波参数则取决于编码块的边界强度信息。
[0005]样点自适应滤波器(SAO)被放置在DBF之后,这是因为在有损压缩编码过程中,跳变信号经过压缩后会出现一定程度的振铃效应。为了消除这种伪影,SAO对重建样点中的一些特殊位置,如峰值、拐点和谷点等位置进行补偿,以减小重建样点和原始样点之间的差值,达到滤波的目的。在VVC中,按照其重建图像特点的不同,SAO可以被分为两种类型,边缘补偿EO和边带补偿BO,通过CTU中的控制参数,来选用不同的滤波类型。
[0006]在VVC中,集成了基于几何变换的ALF(Geometry transformation

based ALF,GALF),以降低其复杂度,用于去除编码阶段产生的伪影和失真,传统的ALF和GALF被统称为ALF。ALF是通过维纳滤波的方式使重建图像和原始图像间的MSE最小,它作用于样点自适应滤波器SAO之后,具体过程是首先对块分类,然后采用不同系数的滤波器进行滤波操作。
[0007]环路滤波模块能够有效提高视频的主客观质量。滤波后的重建帧压缩失真越小,和原始帧越接近,对于后续帧的编码就越有利。具体来说,滤波后的图像帧可能用于后续图像帧的编码过程中。现有视频编解码标准VVC中的环路滤波技术在一定程度上能够降低重
建帧的压缩失真,但是计算过程繁琐,且滤波后的重建帧质量并不理想。
[0008]人工智能利用深度神经网络对数据的特征进行提取和分析,在计算机视觉领域取得了显著的效果,在诸如图像超分、降噪等低层视觉任务中表现优异。目前,视频编解码中的滤波模块与深度学习结合的研究和应用可以分为两类,一类是环路滤波,具体是指在VVC编码中,使用神经网络对原有的滤波模块进行替换,以提升编码性能。另外一类是环外滤波,具体是指在常规编解码后对解码完成后的视频进行神经网络处理,以实现滤波效果。现有的基于神经网络的环路滤波虽然对重建帧的质量有一定的提升,但是对于编码过程中产生的中间信息利用并不充分,如编码过程中的预测信息、残差信息和分区信息等,导致基于神经网络的环路滤波模块效果有限,恢复的重建帧质量并不理想。
[0009]鉴于现有技术的缺陷和不足,本专利技术提出了一种多信息融合的环路滤波方法,该方法充分考虑到LMCS工具影响和不同分量间的数据特性,对于不同分量采取了不同的信息作为网络输入,使得编码过程中的信息利用更加充分;此外,该方法将编码过程中产生的分区信息作为输入,考虑了视频压缩过程中按块进行编码处理的特性。基于以上分析,该方法能够对编码过程中多种信息进行高效利用和融合,以实现中间产生的多种信息充分利用的目标。在增益大致相同的前提下,本专利技术由于采用了更丰富的编码信息和更高效的融合方式使得复杂度较其他深度学习方法方法有所降低。

技术实现思路

[0010]本专利技术为了解决上述问题,提出了一种适用于VVC编码标准中环路滤波模块的方法与系统,涉及图像处理
该方法是通过将编码过程中的多种信息进行融合作为网络的输入,并搭建网络模型,再利用训练集对网络进行训练。待网络模型收敛后,将其嵌入VVC标准中的环路滤波模块中。具体地,一种可以适用于视频编解码标准VVC的环路滤波方案包括以下步骤:
[0011]S1、构造训练数据集和验证数据集:训练数据集和验证数据集的生成借助于DIV2K图像数据集。首先将DIV2K数据集中的图片从RGB颜色空间转换到YUV颜色空间,然后使用视频编解码标准VVC的参考软件VTM 14.0的All Intra编码配置对每张图片在QP为22、27、32、37、42的条件下分别进行压缩,然后将经过LMCS模块但未经过DBF滤波模块的重建信息和分区信息进行保存,将未经过LMCS模块的残差信息和预测信息进行保存,并按照预设的划分方式,得到无重叠的128
×
128大小的信息块,此时再将信息块的YUV三个通道分量进行分离。为了保证网络对于特征学习的有效性,计算各个重建区块的PSNR,并将PSNR大于50和PSNR小于15的信息块组进行剔除。经过上述操作,对于亮度分量而言,得到对应QP为22、27、32、37、42情况下的训练集和验证集,每一组数据包含亮度分量的原始信息区块、重建信息区块、分区信息区块、预测信息区块;对于色度分量而言,得到对应QP为22、27、32、37、42情况下的训练集和验证集,每一组数据包含色度分量的原始信息区块、重建信息区块、分区信息区块、残差信息区块。
[0012]S2、搭建MIIN(Multi

Information Integration Network)网络,利用步骤S1得到的不同QP情况下的5类训练集分别对亮度分量和色度分量所对应的网络进行训练,分别生成亮度分量和色度分量的5个QP的模型,然后根据各个模型在对应验证集上的表现来确定最优超参数,并选择出各自的最优模型,最终得到亮度分量和色度分量对应的5个QP的模
型。
[0013]S3、使用LibTorch库将步骤S2中得到的模型转换为C++可用类型,并利用其中的C++API将转换后的网络模型嵌入视频编解码标准VVC提供的参考软件VTM 14.0中。在对JVET提供的标准视频序列进行编本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多信息融合的深度神经网络的环路滤波方法,该方法基于视频编解码标准VVC的环路滤波部分进行,所提出的多信息融合网络MIIN(Multi

Information Integration Network)对VVC标准中的去块滤波器DBF、样值自适应补偿滤波器SAO进行替换;具体的滤波方法包括以下步骤:步骤1、构造训练数据集和验证数据集:将DIV2K数据集中的1000张图片转换到YUV后使用VTM14.0对每张图片在QP为22、27、32、37、42的条件下分别进行压缩,并将训练集中所需的数据进行保存;为了便于训练,将所生成的帧全部裁剪为128
×
128的信息块,至此得到了训练集和验证集的样本;步骤2、所设计的MIIN包括三个部分,第一部分是输入信息融合模块,三种输入信息均通过一个卷积核大小为3
×
3的卷积层,重建信息再额外通过一个Inception Block后,三个分支通过Concat进行连接;第二部分是残差特征汇聚模块,首先通过一个卷积层,然后通过残差特征汇聚模块RFAB,再通过一个卷积层,其中RFAB模块是由4个残差特征汇聚块RFA有序连接而成;第三部分是输出重建模块,使用3
×
3尺寸的卷积核对图像的残差进行重建,并和原始的重...

【专利技术属性】
技术研发人员:向劲松王鹏陈贤龙曹维俊黄胜
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1