一种基于多模态学习的美学质量评价模型和方法技术

技术编号:36359473 阅读:14 留言:0更新日期:2023-01-14 18:16
本发明专利技术属于图像处理技术领域,公开了一种基于多模态学习的美学质量评价模型和方法,其根据文本信息和图像信息,在图像特征和文本特征提取后,基于跨越注意力机制,动态融合图像与文本之间的信息;在多模态学习的基础上使用Transformer作为骨干网络,不考虑传统的CNN方法,通过视觉和文本Transformer分别提取图像特征和高级语义,从而实现基于多模态学习的纯Transformer美学质量评价模型和方法。本发明专利技术有效提高了美学质量评价的准确率和其他评价指标;有利于促进美学应用,加快深度学习在未来美学领域的发展。来美学领域的发展。来美学领域的发展。

【技术实现步骤摘要】
一种基于多模态学习的美学质量评价模型和方法


[0001]本专利技术属于图像处理
,具体是涉及一种基于多模态学习的美学质量评价模型和方法。

技术介绍

[0002]美学是研究人与世界审美关系、人类审美意识等审美范畴的一门重要学科。视觉美学质量是视觉感知美的一种度量。图像的视觉美学质量衡量了在人类眼中一幅图像的视觉吸引力。由于视觉美学是一个主观的属性,往往涉及到情感和思想等抽象物质,这使得自动评估图像美学质量是一项非常主观的任务。然而,人们往往会达成一种共识,即一些图像在视觉上比其他图像更有吸引力,这是新兴研究领域——可计算美学的原理之一。
[0003]在信息爆炸的时代,纯Transformer美学研究如何用可计算技术来预测人类对视觉刺激产生的情绪反应,使计算机模仿人类的审美过程,从而用可计算方法来自动预测图像的美学质量。审美是人们与生俱来的能力,研究利用人工智能技术让计算机感知“美”、发现“美”并且生成“美”的技术可以让计算机了解并学习专业摄影师的思维过程,为人们拍摄照片提供专业的美学建议,这是一个非常具有挑战性的任务。以人工智能为核心的图像美学质量评价和美学质量提升技术为人们获得高美学质量的照片提供了经济可行的解决方案,同时推进了人工智能技术模拟人审美和思维过程的发展。
[0004]基于美学的图像质量评价方法的研究除了有上述的科学价值,还有广泛的应用价值。比如美学辅助搜索引擎,搜索引擎根据用户的查询检索大量的相关结果,然而,排在检索结果最前面的搜索结果通常不具有视觉吸引力。在这种情况下,用户需要浏览更多结果以找到既与查询相关又令人感到视觉满意的结果。此时,图像美学质量评价方法可以作为后续处理步骤,根据美学质量重新排列检索到的图像。这样使位于检索结果顶部的检索图像都是高美学质量的图像。未来,基于美学的排名还可以与其他标准相结合,以便在图像搜索引擎中提供更好的用户体验。再比如,自动图像增强,照片编辑工具通常用来根据用户的意图修改照片的某些特性。像Adobe Photoshop这样的商业软件就提供了这样的工具,但这通常需要用户对设计概念和摄影理论有很好的了解。对普通用户来说,他们不清楚图像的哪些元素需要编辑,以及如何编辑它们以使图像更具吸引力。在这种情况下,自动增强图像美学质量的自动照片编辑工具是非常有用的。这些尝试证明了美学评估技术的巨大潜力,它使计算机不仅可以告诉用户照片是否美观,还可以帮助用户自动增强照片的视觉吸引力。
[0005]传统的美学质量评价方法,一方面采用基于图像的评价方式,即在特征提取步骤中只使用了美学图像作为原始数据,通过神经网络从原始图像中学习到美学特征,根据损失函数训练出美学模型中,并选择合适的评价指标,预测出美学质量分数。然而,基于图像的评价方法忽略了美学评论的高级语义,只使用图像作为原始数据不能很好地体现人类主观视觉的想法,从而让纯Transformer美学的原理更偏向于一个黑盒,不容易被理解,而这些主观情绪往往隐藏于评论的信息之中。另一方面传统的方法大多采用基于CNN的评价方
法,即以卷积神经网络为骨干网络,完成特征提取的操作;而基于CNN的评价方法在全局建模和长距离建模能力上具有局限性,并且在多模态领域上不适合进行模态信息之间的交互。如专利申请CN111507941A公开了一种用于美学质量评价的构图表征学习方法,其通过双线性CNN提取了两种特征并融合,但未考虑到多模态信息的融合,缺少美学评论的高级语义,忽略了文本给美学质量评价带来的有效信息;再如专利申请CN113657380A公开了一种融合多模态注意力机制的图像美学质量评价方法,同样使用CNN作为骨干网络,并使用注意力机制融合模态信息。然而该方法使用CNN作为骨干网络在长距离建模和多模态融合中具有局限性,造成全局信息缺失等问题,不利于美学质量评价模型的建模。并且该方法的融合方式属于前期融合,不能很好地体现多模态之间的复杂关系,而注意力机制是Transformer的内在优势,通过注意力机制中期融合的方式更具有多模态融合和建模能力。因此,美学质量评价方法还有待提升。

技术实现思路

[0006]为解决上述技术问题,本专利技术提供了一种基于多模态学习的美学质量评价模型和方法,其通过数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块构建评价模型;根据文本信息和图像信息,在图像特征和文本特征提取后,基于跨越注意力机制,动态融合图像与文本之间的信息;考虑到传统的CNN方法在多模态领域具有局限性,所以在多模态学习的基础上使用多模态融合能力强的Transformer作为骨干网络,不考虑传统的CNN方法,通过视觉和文本Transformer分别提取图像特征和高级语义,并使用更能体现多模态复杂关系的中期融合方式融合特征,从而实现基于多模态学习的纯Transformer美学质量评价方法。
[0007]本专利技术所述的一种基于多模态学习的美学质量评价模型,其采用的技术方案是,包括数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块;所述数据处理模块用于处理模型训练所需要的数据,并构建输入集分别传送给视觉Transformer模块和文本Transformer模块;所述视觉Transformer模块作为视觉特征提取器,用于提取视觉特征;所述文本Transformer模块作为文本特征提取器,用于提取高级语义;所述多模态融合模块用于融合视觉特征和文本特征,交互两者之间的信息以产生最终输出送入统一美学预测任务模块;所述统一美学预测任务模块多模态融合模块融合的特征,用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务。
[0008]进一步的,在数据处理模块中,所有图像数据通过深度学习的函数进行数据增强,并附加划分后的文本数据,形成一个输入集;将输入集进行划分训练集、验证集和测试集,作为后续模块的前置条件。
[0009]进一步的,所述视觉Transformer模块基于输入集,提取出图像特征;如果是视觉单模态流,将图像特征映射成美学预测分布;如果作为多模态融合模块的前置部分,则仅提取特征。
[0010]进一步的,所述文本Transformer模块基于输入集,使用BERT和RoBERTa预训练模
型,针对每句评论,通过分词器将其拆分并标记,增加[CLS]用来标记头部,增加[SEP]用来标记尾部;如果是文本单模态流,最后将CLS Token经过的分类器输出预测美学分数分布;如果作为多模态融合模块的前置部分,则仅提取特征。
[0011]进一步的,多模态融合模块包含M层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。
[0012]进一步的,统一美学预测任务模块将多模态融合模块提取的多模态融合特征,经过映射分类后得到1到10分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态学习的美学质量评价模型,其特征在于,包括数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块;所述数据处理模块用于处理模型训练所需要的数据,并构建输入集分别传送给视觉Transformer模块和文本Transformer模块;所述视觉Transformer模块作为视觉特征提取器,用于提取视觉特征;所述文本Transformer模块作为文本特征提取器,用于提取高级语义;所述多模态融合模块用于融合视觉特征和文本特征,交互两者之间的信息以产生最终输出送入统一美学预测任务模块;所述统一美学预测任务模块多模态融合模块融合的特征,用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务。2.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,在数据处理模块中,所有图像数据通过深度学习的函数进行数据增强,并附加划分后的文本数据,形成一个输入集;将输入集进行划分训练集、验证集和测试集,作为后续模块的前置条件。3.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,所述视觉Transformer模块基于输入集,提取出图像特征;如果是视觉单模态流,将图像特征映射成美学预测分布;如果作为多模态融合模块的前置部分,则仅提取特征。4.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,所述文本Transformer模块基于输入集,使用BERT和RoBERTa预训练模型,针对每句评论,通过分词器将其拆分并标记,增加[CLS]用来标记头部,增加[SEP]用来标记尾部;如果是文本单模态流,最后将CLS Token经过的分类器输出预测美学分数分布;如果作为多模态融合模块的前置部分,则仅提取特征。5.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,多模态融合模块包含M层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。6.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,统一美学预测任务模块将多模态融合模块提取的多模态融合特征,经过映射分类后得到1到10分的预测分数分布;然后通过numpy函数生成从1到10的等差数列分布将两个分布分别相乘求和得到美学回归分数;根据真实得分占比得到真实分数分布;将预测分数分布和真实分数分布比较,计算其斯皮尔曼等级相关系数SRCC和皮尔逊线性相关系数PLCC;将预测分数大于5且实际分数也大于5或者预测分数小于5且实际分数也小于5视为分类正确,并计算分类准确率。7.一种基于多模态学习的美学质量评价方法,其特征在于,基于权利要求1

6任一项所述的模型,所述方法的步骤为:步骤1、根据AVA数据集及其评论数据集,按照标准数据集的划分方法,随机选取90%图像作为训练集,其余10%作为测试集;步骤2、利用数据处理模块,对图像数据进行预处理,得到数据增强后的图像;
步骤3、利用数据处理模块,对评论数据进行预处理,将图像和对应的评论构建成一个输入集;步骤4、利用视觉Transformer模块提取美学图像特征F
vision
;如果是视觉单模态流,...

【专利技术属性】
技术研发人员:亓晋苏灿胡筱旋孙莹孙雁飞董振江许斌
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1