一种基于自监督学习和Transformer的无参考图像质量评价方法技术

技术编号:37401877 阅读:12 留言:0更新日期:2023-04-30 09:29
本发明专利技术公开了一种基于自监督学习和Transformer的无参考图像质量评价方法,使用有监督对比学习方法在大规模未标记图像质量评价数据集KADIS上进行自监督训练,从而学习到不同失真类型和级别失真图像的退化特征;结合CNN和Transformer特性设计多流主干网络结构,用以提取图像对应的失真特征;设计了分块注意力模块,将退化特征和失真特征进行融合,得到最终的失真图像质量特征,用以图像客观得分的回归预测。本发明专利技术结合自监督学习和Transformer提出了一种新型图像质量评价方法,能够有效提升模型在小样本数据集和真实数据集上的质量得分预测性能,在图像压缩和图像超分等一系列需要评判图像质量的领域都有着广泛的应用前景。广泛的应用前景。广泛的应用前景。

【技术实现步骤摘要】
一种基于自监督学习和Transformer的无参考图像质量评价方法


[0001]本专利技术属于数字图像处理领域,具体涉及一种基于自监督学习和Transformer的无参考图像质量评价方法。

技术介绍

[0002]随着社交网络和数字多媒体技术的日渐壮大,图像数据呈现爆炸式增长,与人们的生活越来越紧密。然而,在数字图像的采集、传输到应用过程中,图像数据均有可能收到外界各种因素的干扰,导致图像的质量受到不同程度的破坏,常见的引起图像的失真包括模糊、压缩和噪声。此外,生成符合人类视觉的高质量图像一直是计算机视觉应用技术追求的目标,如图像超分辨率重建、图像修复和图像去噪声等。因此,针对不同失真类型和失真程度的图像质量好坏情况进行评估显得尤其重要。
[0003]图像质量评价是指对图像的内容进行定量分析,从而量化失真图像的在视觉上的失真程度。相关的评价方法一般分为主观质量评价和客观质量评价两种。主观质量评价指的是通过人眼视觉系统对失真图像的观察来获取图像的质量情况。客观质量评价一般指通过相应的客观评价算法对失真图像进行计算获得图像的质量信息。其中,根据评价算法在计算过程中是否需要参考图像信息将客观质量评价分为三类:全参考图像质量评价,半参考图像质量评价和无参考图质量评价。其中全参考图像质量评价和半参考图像质量评价方法主要通过对比参考图像和失真图像之间的差异从而计算出图像的质量。无参考图像质量评价方法则在完全没有参考信息情况下,仅根据失真图像自身来对图像质量进行评估,因此成为图像质量评价领域中最难和最具挑战的任务,在实际应用中也更具广泛的应用前景。
[0004]由于深度神经网络的性能的好坏在很大程度上取决于训练数据集的大小,然而当前的图像质量评价数据集较小,如LIVE Challenge数据库仅仅包含1162张失真图像,与其它视觉任务的百万数据集相比明显不值一提,因此基于卷积神经网络的无参考图像质量评价方法在这些小样本数据集上的表现普遍较差。此外,由于获得大规模标注的人类主观图像质量评分非常困难,这更给无参考图像质量评价方法的设计带来困难。通常解决数据集较少情形可以使用数据增强(例如翻转、裁剪、旋转等),不幸的是,这些操作都会或多或少影响图像的真实质量。值得注意的是,虽然基于卷积神经网络的无参考图像质量评价方法确实能在一定程度上提取图像的失真信息,但由于其感受野较小,无法对图像进行全局建模,因此在进行质量评价时难免会丢失一些全局信息。

技术实现思路

[0005]专利技术目的:本专利技术提供一种基于自监督学习和Transformer的无参考图像质量评价方法,能够有效提升模型在小样本数据集和真实数据集上的质量得分预测性能。
[0006]技术方案:本专利技术提供一种基于自监督学习和Transformer的无参考图像质量评
价方法,包括如下步骤:
[0007](1)构建基于自监督学习和Transformer的无参考图像质量评价网络;所述评价网络包括特征提取模块、多流主干网络、编码器网络、分块注意力模块和得分预测模块;
[0008](2)根据有监督对比学习方法,构建编码器网络,并在大规模未标记图像质量评价数据集上进行自监督训练,用以学习到不同失真类型和级别图像对应的退化特征;
[0009](3)结合CNN和Transformer特性设计多流主干网络结构,用以提取图像对应的失真特征;
[0010](4)通过分块注意力模块,将步骤(2)中的退化特征和步骤(3)中的失真特征进行融合,得到最终的失真图像质量特征;通过得分预测模块获得图像客观得分的回归预测。
[0011]进一步地,步骤(1)所述多流主干网络包含三个阶段的多流模块和块下采样的组合,第三阶段仅包含一个多流模块。
[0012]进一步地,所述步骤(2)实现过程如下:
[0013]定义I表示失真图像,其中u∈{1,...,U}表示不同的失真类型,u∈{1,

,V}表示每个u的不同失真级别;使用编码器f(
·
)和投影层g(
·
)组成的网络结构结合对比损失函数学习图像的退化特征,损失函数定义如下:
[0014][0015]其中,N表示每个批次中图像数量,Ⅱ表示指示函数,τ表示温度系数,P(i)表示属于同一类i的集合,|P(i)|是其基数,φ(m,n)=m
T
n/||m||2||n||2。
[0016]进一步地,所述步骤(3)实现过程如下:
[0017]将经过特征提取模块提取后的特征图按照通道分成三部分和三部分;X1通过可变卷积和线性层得到X1′
,X2通过深度可分离卷积、最大池化和上采样得到X2′
,X3通过多头注意力和线性层得到X3′

[0018]χ1′
=FC(Deform(Conv(χ1))
[0019]χ2′
=UpSample(MaxPool(DwConv(χ2)))
[0020]χ3′
=FC(MHSA(χ3))
[0021]之后按照通道维度进行合并,并通过残差连接CBAM模块。
[0022]进一步地,所述步骤(4)实现过程如下,
[0023]在进行特征融合前,将由图像失真特征信息映射成K和V,将图像退化特征映射成Q,然后通过注意力机制计算它们,获得图像质量特征S;最后通过特征S即可回归到客观图像得分。
[0024]进一步地,对于获得Q、K和V,S的计算过程如下:
[0025][0026]其中,D表示特征维度;得到S后,通过全局平均池化操作和线性层就可以回归到最终的质量分数;将评价网络视为一个映射函数F,并通过最小化网络预测块F(X;θ)和相对应
的真实标签Y之间的损失L(θ)来学习网络参数θ,使用绝对误差MAE作为损失函数:
[0027][0028]其中,N为每批图像中训练样本的个数。
[0029]有益效果:与现有技术相比,本专利技术的有益效果:本专利技术从提升模型在小样本数据集和真实数据集上的质量得分预测性能出发,提出了一种基于自监督学习和Transformer的无参考图像质量评价方法;为了利用大规模未标记数据并提升模型在小样本数据集上的预测性能,提出使用自监督学习方法获取失真图像对应的退化特征;为了更加有效提取失真图像全局和局部的失真信息,本专利技术结合CNN和Transformer特性提出了特征提取主干网络;为了将失真图像对应的退化特征和失真信息进行有效融合,本专利技术还提出了块注意力模块获取用以得分预测的质量特征。
附图说明
[0030]图1为本专利技术构建的基于自监督学习和Transformer的无参考图像质量评价网络结构意图;
[0031]图2为本专利技术提出的自监督训练流程的示意图;
[0032]图3为本专利技术提出的自监督训练模型框架示意图;
[0033]图4为本专利技术提出的多流模块示意图;
[0034]图5为本专利技术所提出的方法和MANIQA的DMOS预测结果对比本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督学习和Transformer的无参考图像质量评价方法,其特征在于,包括以下步骤:(1)构建基于自监督学习和Transformer的无参考图像质量评价网络;所述评价网络包括特征提取模块、多流主干网络、编码器网络、分块注意力模块和得分预测模块;(2)根据有监督对比学习方法,构建编码器网络,并在大规模未标记图像质量评价数据集上进行自监督训练,用以学习到不同失真类型和级别图像对应的退化特征;(3)结合CNN和Transformer特性设计多流主干网络结构,用以提取图像对应的失真特征;(4)通过分块注意力模块,将步骤(2)中的退化特征和步骤(3)中的失真特征进行融合,得到最终的失真图像质量特征;通过得分预测模块获得图像客观得分的回归预测。2.根据权利要求1所述的一种基于自监督学习和Transformer的无参考图像质量评价方法,其特征在于,步骤(1)所述多流主干网络包含三个阶段的多流模块和块下采样的组合,第三阶段仅包含一个多流模块。3.根据权利要求1所述的基于一种基于自监督学习和Transformer的无参考图像质量评价方法,其特征在于,所述步骤(2)实现过程如下:定义I表示失真图像,其中u∈{1,...,U}表示不同的失真类型,v∈{1,...,V}表示每个u的不同失真级别;使用编码器f(
·
)和投影层g(
·
)组成的网络结构结合对比损失函数学习图像的退化特征,损失函数定义如下:其中,N表示每个批次中图像数量,表示指示函数,τ表示温度系数,P(i)表示属于同一类i的集合,|P(i)|是其基数,φ(m,n)=m

【专利技术属性】
技术研发人员:高攀时劲松谭晓阳
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1