一种基于多模态学习的美学质量评价模型和方法技术

技术编号：36359473 阅读：14 留言：0更新日期：2023-01-14 18:16

本发明专利技术属于图像处理技术领域，公开了一种基于多模态学习的美学质量评价模型和方法，其根据文本信息和图像信息，在图像特征和文本特征提取后，基于跨越注意力机制，动态融合图像与文本之间的信息；在多模态学习的基础上使用Transformer作为骨干网络，不考虑传统的CNN方法，通过视觉和文本Transformer分别提取图像特征和高级语义，从而实现基于多模态学习的纯Transformer美学质量评价模型和方法。本发明专利技术有效提高了美学质量评价的准确率和其他评价指标；有利于促进美学应用，加快深度学习在未来美学领域的发展。来美学领域的发展。来美学领域的发展。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态学习的美学质量评价模型和方法

[0001]本专利技术属于图像处理
，具体是涉及一种基于多模态学习的美学质量评价模型和方法。

技术介绍

[0002]美学是研究人与世界审美关系、人类审美意识等审美范畴的一门重要学科。视觉美学质量是视觉感知美的一种度量。图像的视觉美学质量衡量了在人类眼中一幅图像的视觉吸引力。由于视觉美学是一个主观的属性，往往涉及到情感和思想等抽象物质，这使得自动评估图像美学质量是一项非常主观的任务。然而，人们往往会达成一种共识，即一些图像在视觉上比其他图像更有吸引力，这是新兴研究领域——可计算美学的原理之一。
[0003]在信息爆炸的时代，纯Transformer美学研究如何用可计算技术来预测人类对视觉刺激产生的情绪反应，使计算机模仿人类的审美过程，从而用可计算方法来自动预测图像的美学质量。审美是人们与生俱来的能力，研究利用人工智能技术让计算机感知“美”、发现“美”并且生成“美”的技术可以让计算机了解并学习专业摄影师的思维过程，为人们拍摄照片提供专业的美学建议，这是一个非常具有挑战性的任务。以人工智能为核心的图像美学质量评价和美学质量提升技术为人们获得高美学质量的照片提供了经济可行的解决方案，同时推进了人工智能技术模拟人审美和思维过程的发展。
[0004]基于美学的图像质量评价方法的研究除了有上述的科学价值，还有广泛的应用价值。比如美学辅助搜索引擎，搜索引擎根据用户的查询检索大量的相关结果，然而，排在检索结果最前面的搜索结果通常不具有视觉吸引力。在这种情况下，用户需要浏...

【技术保护点】

【技术特征摘要】
1.一种基于多模态学习的美学质量评价模型，其特征在于，包括数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块；所述数据处理模块用于处理模型训练所需要的数据，并构建输入集分别传送给视觉Transformer模块和文本Transformer模块；所述视觉Transformer模块作为视觉特征提取器，用于提取视觉特征；所述文本Transformer模块作为文本特征提取器，用于提取高级语义；所述多模态融合模块用于融合视觉特征和文本特征，交互两者之间的信息以产生最终输出送入统一美学预测任务模块；所述统一美学预测任务模块多模态融合模块融合的特征，用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务。2.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，在数据处理模块中，所有图像数据通过深度学习的函数进行数据增强，并附加划分后的文本数据，形成一个输入集；将输入集进行划分训练集、验证集和测试集，作为后续模块的前置条件。3.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，所述视觉Transformer模块基于输入集，提取出图像特征；如果是视觉单模态流，将图像特征映射成美学预测分布；如果作为多模态融合模块的前置部分，则仅提取特征。4.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，所述文本Transformer模块基于输入集，使用BERT和RoBERTa预训练模型，针对每句评论，通过分词器将其拆分并标记，增加[CLS]用来标记头部，增加[SEP]用来标记尾部；如果是文本单模态流，最后将CLS Token经过的分类器输出预测美学分数分布；如果作为多模态融合模块的前置部分，则仅提取特征。5.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，多模态融合模块包含M层多模态融合层，每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络；得到视觉特征和文本特征之后，送入自注意力层后再经过交叉注意力层；最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。6.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，统一美学预测任务模块将多模态融合模块提取的多模态融合特征，经过映射分类后得到1到10分的预测分数分布；然后通过numpy函数生成从1到10的等差数列分布将两个分布分别相乘求和得到美学回归分数；根据真实得分占比得到真实分数分布；将预测分数分布和真实分数分布比较，计算其斯皮尔曼等级相关系数SRCC和皮尔逊线性相关系数PLCC；将预测分数大于5且实际分数也大于5或者预测分数小于5且实际分数也小于5视为分类正确，并计算分类准确率。7.一种基于多模态学习的美学质量评价方法，其特征在于，基于权利要求1
‑
6任一项所述的模型，所述方法的步骤为：步骤1、根据AVA数据集及其评论数据集，按照标准数据集的划分方法，随机选取90%图像作为训练集，其余10%作为测试集；步骤2、利用数据处理模块，对图像数据进行预处理，得到数据增强后的图像；
步骤3、利用数据处理模块，对评论数据进行预处理，将图像和对应的评论构建成一个输入集；步骤4、利用视觉Transformer模块提取美学图像特征F
vision
；如果是视觉单模态流，...

【专利技术属性】
技术研发人员：亓晋，苏灿，胡筱旋，孙莹，孙雁飞，董振江，许斌，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人