System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于图像多属性建模的美学评估方法技术_技高网

一种基于图像多属性建模的美学评估方法技术

技术编号:40170295 阅读:6 留言:0更新日期:2024-01-26 23:40
本发明专利技术公开了一种基于图像多属性建模的美学评估方法,其特点是该方法具体包括:将图像美学属性分为图像绝对属性和图像相对属性、利用卷积神经网络提取常规美学特征、利用相应的数据集上预训练完成的图像绝对属性提取器学习图像中对应的绝对属性、利用通道注意力机制自适应调整图像绝对属性特征的权重、利用特征选择机制从多个图像绝对属性角度交互特征并得到总图像绝对属性特征、利用双线性融合机制融合总图像绝对属性特征和常规美学特征,得到最终美学预测、提出相对关系损失函数建模图像相对属性,进一步提升模型效果。本发明专利技术与现有技术相比,更好地利用了图像绝对属性并额外建模了图像相对属性,方法简便,效果好,具有良好的应用前景。

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域,具体涉及一种基于图像多属性建模的美学评估方法


技术介绍

1、随着当前数字技术的迅猛发展,每天都有大量视觉图像数据得以产生,而这些数据的质量也参差不齐,其中高美学质量的图像往往更能受到个体的喜爱。由此,能够评估图像美学质量的技术对于相册管理、图像检索以及摄影等生活中普遍的应用有重要的价值。图像美学评估(image aesthetics assessment,iaa),是旨在寻找一种自动评价图像内容是否更符合大众的普遍审美的任务。基于其越来越大的实际应用价值,该任务也受到了更广泛的关注。

2、早期的图像美学研究主要利用手工选定的图像特征来对图像美学质量进行评估;随着神经网络和深度学习技术的迅猛发展,一系列基于神经网络的方法被提出并且取得了突出的效果;其中,基于图像属性建模图像美学特征的方法逐渐受到更多关注,也取得了优异的效果:利用神经网络提取图像内容本身所包含的、图像美学相关的属性,在此基础上根据图像属性特征来预测评估图像的美学质量,但这类方法存在以下几点问题:

3、所评估图像一般为通过拍摄手段得到的,由此一张图像的美学水平很大程度上会受摄影相关属性影响,而目前的方法对于所提取属性的选择并没有充分研究,且对于这些属性的提取也并不足够高效;在提取了图像的属性之后,目前方法未能充分利用这些属性;此外,图像之间的相对关系也被证明会对人和机器评估图像美学产生影响,而目前的图像美学评估方法中并没有对该属性进行充分考虑。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种基于图像多属性建模的美学评估方法。将美学评估任务中的图像属性分为图像绝对属性和图像相对属性。针对图像绝对属性:首先,将其确定为图像的构图属性、主题属性、颜色属性和曝光属性;接着,在对应数据集上进行预训练得到多个图像绝对属性提取模块;其次,利用通道注意力机制自适应调整不同的图像绝对属性特征的权重;然后,应用特征选择机制从多个图像绝对属性角度交互各属性特征和常规美学特征,并使用交互后得到的多个特征连接得到总图像绝对属性特征;最后,利用双线性融合机制,融合总图像绝对属性特征和常规美学特征得到最终的美学预测。针对相对属性:考虑到模型训练时每个批次内图像之间的相对位置和排名关系,提出一个相对关系损失函数来额外约束整个模型,使模型效果更加准确。

2、实现本专利技术目的的具体技术方案是:

3、一种基于图像多属性建模的美学评估方法,该方法包括以下步骤:

4、1)利用多种图像绝对属性对应数据集预训练得到多个基于卷积神经网络的图像绝对属性提取器;具体为:

5、1.1:利用inceptionresnetv2作为主干网络构建图像绝对属性感知模块;具体为:

6、1.1.1:将输入图像通过inceptionresnetv2中的每一层卷积块后的特征图取出,使用区域插值方法将所取出特征图变为相同尺寸后,再将它们沿通道维度连接;

7、1.1.2:将步骤1.1.1中得到的特征图先通过1×1卷积层降维,再依次通过5×5卷积层和3×3卷积层,期间保持特征图的长和宽尺寸不变;

8、1.1.3:将步骤1.1.1中得到的特征图通过1×1卷积层降维,再分别通过平均池化层和最大池化层,将通过两个池化层得到的两个特征图沿通道维度连接;期间保持特征图的长和宽尺寸不变;

9、1.1.4:将步骤1.1.2和步骤1.1.3中得到的两个特征图沿着通道维度连接后输出,由此完成图像绝对属性感知模块的构建;

10、1.2:利用图像绝对属性感知模块在cadb图像构图数据集上预训练得到图像构图属性提取器;

11、1.3:根据ava数据集中图像的rgb通道值计算每个图像的颜色丰富程度,并将其作为图像的颜色标签;利用图像绝对属性感知模块在图像的颜色标签上预训练得到图像颜色属性提取器;

12、1.4:利用图像绝对属性感知模块在图像曝光修复数据集上根据图像的曝光值标签预训练得到图像曝光属性提取器;

13、1.5:利用resnet18作为主干网络在图像场景识别数据集上预训练得到图像主题属性提取器;

14、1.6:将步骤1.2、1.3、1.4和1.5中得到图像构图属性,图像颜色属性,图像曝光属性和图像主题属性提取器统称为多个图像绝对属性提取器。

15、2)利用多个图像绝对属性提取器,得到多个图像绝对属性特征。

16、3)利用mobilenetv2神经网络提取常规美学特征。

17、4)利用通道注意力机制为多个图像绝对属性特征自适应分配权重;具体为:

18、4.1:将图像常规美学特征图和多个图像绝对属性特征图沿着通道维度连接;

19、4.2:对步骤4.1中连接得到的特征图使用平均池化和最大池化得到两个特征向量,使用一个共享权重的多层感知机计算得到两个通道注意力权重,将两个通道注意力权重逐元素相加得到最终通道注意力权重;

20、4.3:将步骤4.2中得到的最终通道注意力权重与连接得到的特征图沿通道维度逐元素相乘,自适应地为不同图像绝对属性特征分配权重。

21、5)利用特征选择机制交互图像绝对属性特征和常规美学特征,并生成总图像绝对属性特征;具体为:

22、5.1:将经过通道注意力机制后的特征中的各图像绝对属性特征取出,并使用平均池化将其转化为特征向量;

23、5.2:对每个图像绝对属性特征向量各使用一个多层感知机学习,得到多个图像绝对属性权重;

24、5.3:将调整完权重后的图像绝对属性特征向量和常规美学特征连接得到总特征向量,再使用得到的多个图像绝对属性权重分别和总特征向量逐元素相乘,得到多个从不同图像绝对属性角度融合的特征向量;

25、5.4:将从不同图像绝对属性角度融合的特征向量全部连接作为总图像绝对属性特征向量。

26、6)建模图像相对属性,采用相对关系损失函数来额外约束模型训练,进一步提升模型效果;具体为:

27、6.1:将图像相对属性定义为训练时每个批次中图像之间的关系,采用相对关系损失函数对图像相对属性建模,公式如下:

28、

29、其中b表示训练时一个批次的大小,i和j都表示训练时一个批次中图像的索引,ltrp表示三元损失函数;

30、6.2:将相对关系损失函数和emd损失函数相加得到最终训练时用来约束模型的损失函数,公式如下:

31、ltotal=lemd+λlrelative,

32、其中λ表示平衡系数,设置为0.05;lemd表示emd损失函数,lrelative表示步骤6.1中的相对关系损失函数。

33、7)对总图像绝对属性特征向量和常规美学特征向量应用双线性融合,得到最终的美学预测结果。

34、本专利技术采用以上技术方案与现有技术相比,具有以下有益技术效果:

35、本专利技术提出本文档来自技高网...

【技术保护点】

1.一种基于非线性无激活网络的生成对抗网络图像去模糊方法,其特征在于,该方法包括如下步骤:

2.如权利要求1所述的基于非线性无激活网络的生成对抗网络图像去模糊方法,其特征在于,所述步骤1,具体包括:

3.如权利要求1所述的基于非线性无激活网络的生成对抗网络图像去模糊方法,其特征在于,所述步骤2,具体包括:

4.如权利要求1所述的基于非线性无激活网络的生成对抗网络图像去模糊方法,其特征在于,所述步骤3,具体包括:

5.如权利要求1所述的基于非线性无激活网络的生成对抗网络图像去模糊方法,其特征在于,步骤4所述的生成器G的网络模型为NAFNet,在生成器G中设计了一种由编码器Encoder和解码器Decoder结合起来而形成的一个完整的U-Net结构,编码器的每一层都与解码器的对应层通过跳跃连接相连,使得生成器在深层次上捕获细节信息,最后,解码器的输出通过一个Sigmoid激活函数,使得输出值在[0,1]范围内;其中编码器由5个非线性块NAFBlock组成,每个非线性块的通道数都在增加,作用是逐步下采样输入图像,并提取其特征;解码器由4个非线性块NAFBlock和一个卷积层组成,作用是逐步上采样特征,最终恢复到输入图像的原始尺寸;非线性块NAFBlock的神经网络组件有深度可分离卷积层、通道注意力层、简单门控层和前馈网络层。

6.如权利要求1所述的基于非线性无激活网络的生成对抗网络图像去模糊方法,其特征在于,步骤4所述判别器D采用双尺度判别器,双尺度判别器由局部判别器PatchGAN和全局判别器FullGAN组成;局部判别器PatchGAN通过12层的神经网络结构捕获图像的局部特征,确保生成的图像在细节和纹理上与真实图像匹配;全局判别器FullGAN通过神经18层的网络结构捕获图像的上下文,确保生成的图像在整体结构和布局上与真实图像相似;全局判别器FullGAN和局部判别器PatchGAN的网络层组件都是由深度可分离卷积层、层归一化层和GELU激活层组成,只是各自的层数不同;全局判别器FullGAN负责接收全部图像信息,局部判别器PatchGAN负责接收随机裁剪后的图像信息。

7.如权利要求1所述的基于非线性无激活网络的生成对抗网络图像去模糊方法,其特征在于,步骤4所述对抗训练的模型优化方法,采用基于Adam优化器的梯度下降算法来迭代优化判别器D、生成器G的参数,具体包括如下步骤:

...

【技术特征摘要】

1.一种基于非线性无激活网络的生成对抗网络图像去模糊方法,其特征在于,该方法包括如下步骤:

2.如权利要求1所述的基于非线性无激活网络的生成对抗网络图像去模糊方法,其特征在于,所述步骤1,具体包括:

3.如权利要求1所述的基于非线性无激活网络的生成对抗网络图像去模糊方法,其特征在于,所述步骤2,具体包括:

4.如权利要求1所述的基于非线性无激活网络的生成对抗网络图像去模糊方法,其特征在于,所述步骤3,具体包括:

5.如权利要求1所述的基于非线性无激活网络的生成对抗网络图像去模糊方法,其特征在于,步骤4所述的生成器g的网络模型为nafnet,在生成器g中设计了一种由编码器encoder和解码器decoder结合起来而形成的一个完整的u-net结构,编码器的每一层都与解码器的对应层通过跳跃连接相连,使得生成器在深层次上捕获细节信息,最后,解码器的输出通过一个sigmoid激活函数,使得输出值在[0,1]范围内;其中编码器由5个非线性块nafblock组成,每个非线性块的通道数都在增加,作用是逐步下采样输入图像,并提取其特征;解码器由4个非线性块nafblock和一个卷积层组成,作用是...

【专利技术属性】
技术研发人员:贺樑李伟杰吴兴蛟许俊杰马天龙
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1