当前位置: 首页 > 专利查询>华侨大学专利>正文

基于多模态融合的压缩视频质量增强方法及装置制造方法及图纸

技术编号:39804525 阅读:24 留言:0更新日期:2023-12-22 02:35
本发明专利技术公开了一种基于多模态融合的压缩视频质量增强方法及装置,涉及图像处理领域,该方法包括:获取图像帧及其对应的光流图和纹理图并分别进行特征提取,得到图像特征

【技术实现步骤摘要】
基于多模态融合的压缩视频质量增强方法及装置


[0001]本专利技术涉及图像处理领域,具体涉及一种基于多模态融合的压缩视频质量增强方法及装置


技术介绍

[0002]当今,视频内容已经占据了数字网络流量的主要份额,并且持续不断增长

为了在有限的带宽下传输视频,必须对视频进行压缩,以显著减少比特率

然而,目前主流的压缩方法,如
H.264/AVC

H.265/HEVC
,在视频压缩过程中常常引入各种伪影,特别是在低比特率情况下,这些伪影对人们的视觉体验以及一些图像处理任务产生了极大的负面影响,如图像识别和目标检测等

因此,迫切需要对压缩后的视频内容进行进一步的优化和增强

[0003]视频编解码标准中,处理编解码过程中信息丢失的主要方法是环路滤波处理

然而,传统的环路滤波处理受到计算复杂度的限制,无法有效改善最终重建视频的质量

近年来,人们在不修改编解码框架的前提下,采用基于深度学习的后处理技术来提升解压后的低质量视频的质量

现有的基于深度学习的增强方法都依赖于单一的模态,通常是图像

然而,在充分捕捉视频信息方面,基于图像的单一模态增强方法面临挑战,尤其是在视频中存在复杂的运动和视角变化的情况下

具体来说,在高速体育赛事中,图像可能会出现模糊,而摄像机的旋转或变焦会导致帧之间的视角变化,这给单一图像模态方法的处理带来了极大挑战

因此,如何用多模态之间的互补优势来设计压缩视频增强网络具有重要意义和应用价值


技术实现思路

[0004]针对上述提到的技术问题

本申请的实施例的目的在于提出了一种基于多模态融合的压缩视频质量增强方法及装置,来解决以上
技术介绍
部分提到的技术问题

[0005]第一方面,本专利技术提供了一种基于多模态融合的压缩视频质量增强方法,包括以下步骤:
[0006]获取待重建视频的图像帧及其对应的光流图和纹理图,对图像帧

光流图和纹理图分别进行特征提取,得到图像特征

光流特征和纹理特征;
[0007]构建压缩视频质量增强模型并训练,得到经训练的压缩视频质量增强模型,压缩视频质量增强模型包括依次连接的多模态一致性单元

多模态融合单元

多模态重构单元;
[0008]将图像特征

光流特征和纹理特征输入经训练的压缩视频质量增强模型,图像特征

光流特征和纹理特征输入多模态一致性单元,自适应调整三种模态信息的分布,得到第一特征

第二特征和第三特征,第一特征

第二特征和第三特征输入多模态融合单元以进行特征融合,得到融合特征,融合特征输入多模态重构单元,得到重构信息,将重构信息与图像帧相加,得到增强的视频帧

[0009]作为优选,特征提取采用预训练的
Resnet34
网络,具体过程如下:
[0010];
[0011];
[0012];
[0013]其中,表示
Resnet
操作,

和分别为图像帧

光流图和纹理图,

和分别为图像特征

光流特征和纹理特征

[0014]作为优选,多模态一致性单元包括归一化模块和注意力模块,归一化模块为1层均值归一化层,均值归一化层采用下式计算:
[0015];
[0016];
[0017];
[0018]其中,为均值,为标准差,是一个很小的值,

和分别为归一化后的图像特征

归一化后的光流特征和归一化后的纹理特征;
[0019]注意力模块包括依次连接的第一卷积层

第一
Relu
激活层

第二卷积层

第二
Relu
激活层和
Sigmoid
激活层,第一卷积层和第二卷积层的卷积核大小为3×
3。
[0020]作为优选,光流特征和纹理特征分别输入注意力模块,分别输出得到第一矩阵和第二矩阵,根据第一矩阵

第二矩阵

归一化后的图像特征

归一化后的光流特征和归一化后的纹理特征自适应调整三个模态信息的分布,得到第一特征

第二特征和第三特征,公式如下:
[0021];
[0022];
[0023];
[0024]其中,为第一矩阵,为第二矩阵,

和分别为第一特征

第二特征和第三特征,为矩阵乘法操作

[0025]作为优选,多模态融合单元包括依次连接的第三卷积层

第三
Relu
激活层

第四卷积层

第四
Relu
激活层

第五卷积层和第五
Relu
激活层,第三卷积层的卷积核大小为5×5,第四卷积层和第五卷积层的卷积核大小均为3×
3。
[0026]作为优选,多模态重构单元包括依次连接的第六卷积层

第一稠密残差层

第七卷积层

第二稠密残差层

第三稠密残差层

第八卷积层和第九卷积层,第六卷积层的输出与第七卷积层的输出进行差分连接后输入第二稠密残差层,第二稠密残差层的输出与第六卷积层的输出残差连接后输入第三稠密残差层,第六卷积层的输出

第一稠密残差层的输出

第七卷积层的输出

第二稠密残差层的输出

第三稠密残差层的输出进行拼接后输入第八卷积层,第八卷积层的输出与第六卷积层的输出残差连接后输入第九卷积层,通过第九卷积层输出得到重构信息,其中,第六卷积层

第七卷积层

第八卷积层和第九卷积层的卷积核大小均为3×3,第一稠密残差层

第二稠密残差层

第三稠密残差层均包括依次连接的第十卷积层

第一
Leaky Relu
激活函数层

第十一卷积层

第二
Leaky Relu
激活函数层

第十二卷积层

第三
Leaky Relu
激活函数层

第十三卷积层和第四
Leaky Re本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多模态融合的压缩视频质量增强方法,其特征在于,包括以下步骤:获取待重建视频的图像帧及其对应的光流图和纹理图,对所述图像帧

光流图和纹理图分别进行特征提取,得到图像特征

光流特征和纹理特征;构建压缩视频质量增强模型并训练,得到经训练的压缩视频质量增强模型,所述压缩视频质量增强模型包括依次连接的多模态一致性单元

多模态融合单元

多模态重构单元;将所述图像特征

光流特征和纹理特征输入所述经训练的压缩视频质量增强模型,所述图像特征

光流特征和纹理特征输入所述多模态一致性单元,自适应调整三种模态信息的分布,得到第一特征

第二特征和第三特征,所述第一特征

第二特征和第三特征输入所述多模态融合单元以进行特征融合,得到融合特征,所述融合特征输入所述多模态重构单元,得到重构信息,将所述重构信息与所述图像帧相加,得到增强的视频帧
。2.
根据权利要求1所述的基于多模态融合的压缩视频质量增强方法,其特征在于,所述特征提取采用预训练的
Resnet34
网络,具体过程如下:;;;其中,表示
Resnet
操作,

和分别为图像帧

光流图和纹理图,

和分别为图像特征

光流特征和纹理特征
。3.
根据权利要求2所述的基于多模态融合的压缩视频质量增强方法,其特征在于,所述多模态一致性单元包括归一化模块和注意力模块,所述归一化模块为1层均值归一化层,所述均值归一化层采用下式计算:;;
;其中,为均值,为标准差,是一个很小的值,

和分别为归一化后的图像特征

归一化后的光流特征和归一化后的纹理特征;所述注意力模块包括依次连接的第一卷积层

第一
Relu
激活层

第二卷积层

第二
Relu
激活层和
Sigmoid
激活层,所述第一卷积层和第二卷积层的卷积核大小为3×
3。4.
根据权利要求3所述的基于多模态融合的压缩视频质量增强方法,其特征在于,所述光流特征和纹理特征分别输入所述注意力模块,分别输出得到第一矩阵和第二矩阵,根据所述第一矩阵

第二矩阵

归一化后的图像特征

归一化后的光流特征和归一化后的纹理特征自适应调整三个模态信息的分布,得到所述第一特征

第二特征和第三特征,公式如下:;;;其中,为第一矩阵,为第二矩阵,

和分别为所述第一特征

第二特征和第三特征,为矩阵乘法操作
。5.
根据权利要求1所述的基于多模态融合的压缩视频质量增强方法,其特征在于,所述多模态融合单元包括依次连接的第三卷积层

第三
Relu
激活层

第四卷积层

第四
Relu
激活层

第五卷积层和第五
Relu
激活层,所述第三卷积层的卷积核大小为5×5,所述第四卷积层和第五卷积层的卷积核大小均为3×
3。6.
根据权利要求1所述的基于多模态融合的压缩视频质量增强方法,其特征在于,所述多模态重构单元包括依次连接的第六卷积层

第一稠密残差层

第七卷积层

第二稠密残差层
...

【专利技术属性】
技术研发人员:陈婧陈柯米曾焕强朱建清施一帆林琦
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1