【技术实现步骤摘要】
基于多模态融合的压缩视频质量增强方法及装置
[0001]本专利技术涉及图像处理领域,具体涉及一种基于多模态融合的压缩视频质量增强方法及装置
。
技术介绍
[0002]当今,视频内容已经占据了数字网络流量的主要份额,并且持续不断增长
。
为了在有限的带宽下传输视频,必须对视频进行压缩,以显著减少比特率
。
然而,目前主流的压缩方法,如
H.264/AVC
和
H.265/HEVC
,在视频压缩过程中常常引入各种伪影,特别是在低比特率情况下,这些伪影对人们的视觉体验以及一些图像处理任务产生了极大的负面影响,如图像识别和目标检测等
。
因此,迫切需要对压缩后的视频内容进行进一步的优化和增强
。
[0003]视频编解码标准中,处理编解码过程中信息丢失的主要方法是环路滤波处理
。
然而,传统的环路滤波处理受到计算复杂度的限制,无法有效改善最终重建视频的质量
。
近年来,人们在不修改编解码框架的前提下,采用基于深度学习的后处理技术来提升解压后的低质量视频的质量
。
现有的基于深度学习的增强方法都依赖于单一的模态,通常是图像
。
然而,在充分捕捉视频信息方面,基于图像的单一模态增强方法面临挑战,尤其是在视频中存在复杂的运动和视角变化的情况下
。
具体来说,在高速体育赛事中,图像可能会出现模糊,而摄像机的旋转或变焦会导致帧之间的视角变化,这给单一图像模 ...
【技术保护点】
【技术特征摘要】
1.
一种基于多模态融合的压缩视频质量增强方法,其特征在于,包括以下步骤:获取待重建视频的图像帧及其对应的光流图和纹理图,对所述图像帧
、
光流图和纹理图分别进行特征提取,得到图像特征
、
光流特征和纹理特征;构建压缩视频质量增强模型并训练,得到经训练的压缩视频质量增强模型,所述压缩视频质量增强模型包括依次连接的多模态一致性单元
、
多模态融合单元
、
多模态重构单元;将所述图像特征
、
光流特征和纹理特征输入所述经训练的压缩视频质量增强模型,所述图像特征
、
光流特征和纹理特征输入所述多模态一致性单元,自适应调整三种模态信息的分布,得到第一特征
、
第二特征和第三特征,所述第一特征
、
第二特征和第三特征输入所述多模态融合单元以进行特征融合,得到融合特征,所述融合特征输入所述多模态重构单元,得到重构信息,将所述重构信息与所述图像帧相加,得到增强的视频帧
。2.
根据权利要求1所述的基于多模态融合的压缩视频质量增强方法,其特征在于,所述特征提取采用预训练的
Resnet34
网络,具体过程如下:;;;其中,表示
Resnet
操作,
、
和分别为图像帧
、
光流图和纹理图,
、
和分别为图像特征
、
光流特征和纹理特征
。3.
根据权利要求2所述的基于多模态融合的压缩视频质量增强方法,其特征在于,所述多模态一致性单元包括归一化模块和注意力模块,所述归一化模块为1层均值归一化层,所述均值归一化层采用下式计算:;;
;其中,为均值,为标准差,是一个很小的值,
、
和分别为归一化后的图像特征
、
归一化后的光流特征和归一化后的纹理特征;所述注意力模块包括依次连接的第一卷积层
、
第一
Relu
激活层
、
第二卷积层
、
第二
Relu
激活层和
Sigmoid
激活层,所述第一卷积层和第二卷积层的卷积核大小为3×
3。4.
根据权利要求3所述的基于多模态融合的压缩视频质量增强方法,其特征在于,所述光流特征和纹理特征分别输入所述注意力模块,分别输出得到第一矩阵和第二矩阵,根据所述第一矩阵
、
第二矩阵
、
归一化后的图像特征
、
归一化后的光流特征和归一化后的纹理特征自适应调整三个模态信息的分布,得到所述第一特征
、
第二特征和第三特征,公式如下:;;;其中,为第一矩阵,为第二矩阵,
、
和分别为所述第一特征
、
第二特征和第三特征,为矩阵乘法操作
。5.
根据权利要求1所述的基于多模态融合的压缩视频质量增强方法,其特征在于,所述多模态融合单元包括依次连接的第三卷积层
、
第三
Relu
激活层
、
第四卷积层
、
第四
Relu
激活层
、
第五卷积层和第五
Relu
激活层,所述第三卷积层的卷积核大小为5×5,所述第四卷积层和第五卷积层的卷积核大小均为3×
3。6.
根据权利要求1所述的基于多模态融合的压缩视频质量增强方法,其特征在于,所述多模态重构单元包括依次连接的第六卷积层
、
第一稠密残差层
、
第七卷积层
、
第二稠密残差层
...
【专利技术属性】
技术研发人员:陈婧,陈柯米,曾焕强,朱建清,施一帆,林琦,
申请(专利权)人:华侨大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。