一种混合卷积神经网络视频编码环路滤波方法技术

技术编号:26226793 阅读:55 留言:0更新日期:2020-11-04 11:05
本发明专利技术公开了一种混合卷积神经网络视频编码环路滤波方法,包括以下步骤:步骤1:构建全局表征的卷积神经网络;步骤2:构建局部编码失真的卷积神经网络;步骤3:局部编码失真与全局表征的融合;步骤4:采用构建的混合卷积神经网络产生滤波输出。本发明专利技术构建的全局表征的卷积神经网络,用于提取全局特征信息,引导像素级特征从而对失真的视频重建图像进行滤波;构建的局部编码失真的卷积神经网络,提取局部特征,学习和恢复由于视频编码中的固定流程而造成的具有某中相似特征的噪声,有效将以上两种构建的神经网络融合在一起,提升整体滤波效果。

【技术实现步骤摘要】
一种混合卷积神经网络视频编码环路滤波方法
本专利技术涉及图像和视频处理领域,特别是一种混合卷积神经网络视频编码环路滤波方法。
技术介绍
从720p、1080p到4K高清视频,人们对视频质量,视频分辨率要求越来越高。视频的数据流量呈指数级增长,这也为视频编码带来了新的机遇与挑战。HEVC在AVC的基础上以及提升了很多的编码效率。但是业界仍然一直渴望可以进一步提升编码效率的新编码技术的出现。在当前基于块的混合视频编码框架中,例如HEVC,环路滤波技术被引入,去消除由于相邻块之间的编码参数不连续而引起的块效应,以及由于高频分量的丢失而引起的振铃效应。当前,HEVC利用去块滤波器和样点自适应补偿作为环路滤波器。由于深度学习的快速发展,基于深度学习的方法在图像和视频处理的许多邻域当中取得了当今最好的结果。随后,基于深度学习的视频编码方法也相继被提出,包括基于深度学习的帧内,帧间预测,快速运动估计和快速块划分方式等等。考虑到深度学习在图像去噪和增强方面的巨大成功,基于深度学习的视频编码环路滤波也被广泛研究。现存的许多基于深度学习的环路滤波器直接利用卷积神经网络模型对重建图像去噪和增强。但是现存的这些方法没能很好的分析这些模型的效果。经过视频编码后的重建帧会引入失真和噪声,含有噪声的视频重建帧可以用基于卷积神经网络的去噪方法来消除噪声。通常,这些卷积神经网络会利用全局表征去提取高层特征,并用这些高层特征来指导低层的像素级滤波。类似与VGG的卷积神经网络都包含池化层和步长大于一的卷积层,这些方法可以在初步提取特征时扩大特征的感受野,然后再利用上采样和反卷积来得到像素级的局部信息,但这些方法重建的视频大多数带有噪声的失真视频。带着噪声的重建视频是被视频编码中固定的,相似的操作步骤所处理。包括块划分,帧内帧间预测,变换,量化,熵编码,反变换,反量化,预测补偿。因为这些处理步骤是固定的,那么这些步骤也会带来固定的、有规律的失真和噪声。现有技术中提到的特征压缩与提取卷积神经网络(SEFCNN),SEFCNN包括两个子网络,特征提取网络(FEX)和通道加权融合网络(FEN)。在上面的模型当中,它们使用卷积层的堆叠作为主要的结构。虽然感受野的范围会随着卷积层的堆叠而增加,但是由于没有池化层和步长大于1的卷积层,感受野的范围相对依然太小,因此这些方法难以得到全局信息。也有多帧引导的注意力机制神经网络(MGANet),MGANet包括时域编码器,多尺度编码解码子网。时域编码器可以得到帧间的联系,多尺度编码解码子网可以提取和混合全局信息。在这些卷积神经网络当中,虽然使用了卷积层去提取全局信息,但是这些方法没有充分利用与融合全局信息和局部信息。采用混合的基于块的视频编码框架,以及在编码量化过程中高频分量的丢失会引起重建图像产生块效应和振铃效应。块效应和振铃效应会影响视频的主观质量,也会为后续的视频编码带来更多的预测误差,影响视频编码效果。相关技术术语全局表征:图像中物体的整体信息,比如轮廓形状,物体类别。编码失真:在视频编码当中由于分块处理编码图像和在量化过程中的误差引起的图像失真,比如块效应,振铃效应,图像模糊。卷积神经网络:一种包含多层卷积运算,以及多层非线性激活单元的前馈神经网络。视频编码:在视频传输,存储过程中为了减少传输带宽和存储空间而采用的一种系统的视频压缩方法。HEVC:HighEfficiencyVideoCoding,高效率视频编码。环路滤波器:在视频编码的视频重建环节为了减少视频图像的编码失真而采用的图像滤波方法,常见的有去块滤波器,样点自适应滤波器等。BD-rate:视频编码中对比算法优劣的常用方法,通过对比多个采样点的PSNR与码率,对多个采样点进行曲线拟合。得到两个算法的编码效率差异。
技术实现思路
本专利技术所要解决的技术问题是提供一种混合卷积神经网络视频编码环路滤波方法,采用混合全局表征与编码失真的卷积神经网络来消除块效应和振铃效应,提升视频主观质量和编码效率。为解决上述技术问题,本专利技术采用的技术方案是:一种混合卷积神经网络视频编码环路滤波方法,包括以下步骤:步骤1:构建全局表征的卷积神经网络在需构建的混合卷积神经网络的左分支构建一个UNET类型的卷积神经网络;左分支包括若干层尺度下降操作,若干层尺度上升操作;每层尺度下降包括一个池化层,池化层采用长宽为2的最大值池化,每一次池化操作将特征的尺寸下降一半,并把特征的通道数目扩展到原来的一倍;每层尺度上升包括一个上采样层,每个上采样层将特征的尺寸扩张一倍,通道数目下降一半;再将尺度相同的上采样层与下采样层串联在一起,通过卷积融合两个层的信息;在上采样操作和下采样操作中,每个最大值池化或者上采样后面都添加两层卷积层,所述两层卷积层用于提取池化或者上采样之后的特征;卷积层采用尺寸为3x3的卷积核,第一个卷积层的通道数是64,之后在尺度下降时,通道扩张为原来的一倍,尺度上升时,通道下降为原来的一半;使用ReLU作为激活函数,在每一层中使用了批量归一化操作;步骤2:构建局部编码失真的卷积神经网络在需构建的混合卷积神经网络的右分支构建局部编码失真的卷积神经网络;使用20层卷积层,每个卷积层的卷积核的尺寸是3x3,卷积核的个数是64;使用ReLU作为激活函数,且在激活函数之前加入批量归一化操作;步骤3:局部编码失真与全局表征的融合整个混合卷积神经网络由左分支的全局表征的卷积神经网络和右分支的局部编码失真的卷积神经网络构成,左分支与右分支的前两个卷积层是是相同的,两个分支共享这两个卷积层的特征参数;局部编码失真的卷积神经网络共享最后两层卷积;步骤4:采用构建的混合卷积神经网络产生滤波输出1)将没有经过滤波的重建帧作为输入,记为X;X首先被两层两个支路共享的卷积层f1(.)处理,初步提取特征X1;X1=f1(X)(1)2)随后,初步提取的特征X1被左分支L(.)与右分支R(.)分别处理;Xl=L(X1)(2)Xr=R(X1)(3)3)经过两个分支处理产生的特征Xl、Xr被拼接Cat(.)在一起,被最后两个卷积层f2(.)处理,融合两个支路的特征,得到残差Re;其中,Cat为拼接操作,将两个相同尺度的张量在通道维度上拼接为一个张量;Re=f2(Cat(Xl,Xr))(4)4)最后将输入的重建图像图像与残差Re相加,产生滤波输出。进一步地,在步骤1中,所述尺度下降操作的层数为3~10之间。与现有技术相比,本专利技术的有益效果是:基于全局表征的卷积神经网络支路将视频重建图像视为一般噪声图像对图像去噪,它更加关注于全局表征的提取,恢复失真的全局信息,它的网络结构类似于UNET,使用池化层来扩大感受野,得到更多的全局信息。另一个基于编码失真的卷积神经网络支路更关注对由于视频编码引起的失真,通过堆叠多个卷积层来提取局部信息,恢复本文档来自技高网
...

【技术保护点】
1.一种混合卷积神经网络视频编码环路滤波方法,其特征在于,包括以下步骤:/n步骤1:构建全局表征的卷积神经网络/n在需构建的混合卷积神经网络的左分支构建一个UNET类型的卷积神经网络;左分支包括若干层尺度下降操作,若干层尺度上升操作;/n每层尺度下降包括一个池化层,池化层采用长宽为2的最大值池化,每一次池化操作将特征的尺寸下降一半,并把特征的通道数目扩展到原来的一倍;每层尺度上升包括一个上采样层,每个上采样层将特征的尺寸扩张一倍,通道数目下降一半;再将尺度相同的上采样层与下采样层串联在一起,通过卷积融合两个层的信息;/n在上采样操作和下采样操作中,每个最大值池化或者上采样后面都添加两层卷积层,所述两层卷积层用于提取池化或者上采样之后的特征;卷积层采用尺寸为3x3的卷积核,第一个卷积层的通道数是64,之后在尺度下降时,通道扩张为原来的一倍,尺度上升时,通道下降为原来的一半;/n使用ReLU作为激活函数,在每一层中使用了批量归一化操作;/n步骤2:构建局部编码失真的卷积神经网络/n在需构建的混合卷积神经网络的右分支构建局部编码失真的卷积神经网络;使用20层卷积层,每个卷积层的卷积核的尺寸是3x3,卷积核的个数是64;使用ReLU作为激活函数,且在激活函数之前加入批量归一化操作;/n步骤3:局部编码失真与全局表征的融合/n整个混合卷积神经网络由左分支的全局表征的卷积神经网络和右分支的局部编码失真的卷积神经网络构成,左分支与右分支的前两个卷积层是是相同的,两个分支共享这两个卷积层的特征参数;局部编码失真的卷积神经网络共享最后两层卷积;/n步骤4:采用构建的混合卷积神经网络产生滤波输出/n1)将没有经过滤波的重建帧作为输入,记为X;X首先被两层两个支路共享的卷积层f1(.)处理,初步提取特征X1;/nX1=f1(X) (1)/n2)随后,初步提取的特征X1被左分支L(.)与右分支R(.)分别处理;/nX...

【技术特征摘要】
1.一种混合卷积神经网络视频编码环路滤波方法,其特征在于,包括以下步骤:
步骤1:构建全局表征的卷积神经网络
在需构建的混合卷积神经网络的左分支构建一个UNET类型的卷积神经网络;左分支包括若干层尺度下降操作,若干层尺度上升操作;
每层尺度下降包括一个池化层,池化层采用长宽为2的最大值池化,每一次池化操作将特征的尺寸下降一半,并把特征的通道数目扩展到原来的一倍;每层尺度上升包括一个上采样层,每个上采样层将特征的尺寸扩张一倍,通道数目下降一半;再将尺度相同的上采样层与下采样层串联在一起,通过卷积融合两个层的信息;
在上采样操作和下采样操作中,每个最大值池化或者上采样后面都添加两层卷积层,所述两层卷积层用于提取池化或者上采样之后的特征;卷积层采用尺寸为3x3的卷积核,第一个卷积层的通道数是64,之后在尺度下降时,通道扩张为原来的一倍,尺度上升时,通道下降为原来的一半;
使用ReLU作为激活函数,在每一层中使用了批量归一化操作;
步骤2:构建局部编码失真的卷积神经网络
在需构建的混合卷积神经网络的右分支构建局部编码失真的卷积神经网络;使用20层卷积层,每个卷积层的卷积核的尺寸是3x3,卷积核的个数是64;使用ReLU作为激活函数,且在激活函数之前加...

【专利技术属性】
技术研发人员:高艳博岳建李帅贾梦虎
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1