一种基于脑启发多模态交互网络的图像美学质量评价方法技术

技术编号:37669432 阅读:13 留言:0更新日期:2023-05-26 04:30
本发明专利技术属于数字图像处理与模式识别领域,具体涉及一种基于脑启发多模态交互网络的图像美学质量评价方法,包括:建立脑启发多模态交互网络模型;将图像数据输入图像感知模块获取图像感知特征;将文本数据输入文本感知模块提取文本感知特征;通过识别模块学习图像感知特征和文本感知特征之间的交互关系,得到图像与文本之间的关联表示;评估模块融合图像感知特征、文本感知特征和图像与文本之间的关联表示,融合后进行幂归一化和L2正则化得到美学分布。本发明专利技术通过KI

【技术实现步骤摘要】
一种基于脑启发多模态交互网络的图像美学质量评价方法


[0001]本专利技术属于数字图像处理与模式识别领域,具体涉及一种基于脑启发多模态交互网络的图像美学质量评价方法。

技术介绍

[0002]数码设备的广泛使用使我们能够拍摄一组照片来捕捉瞬间的记忆,保存最珍贵的时刻。随着社交媒体的迅速发展,现在有很多照片通过互联网分享,如Facebook和Flickr等。在艺术和摄影领域,图像美学是通过图像传达美。图像美学评价(IAA)任务旨在让计算机从审美的角度自动预测图像美的水平,就像它们在模仿人类感知和理解美的能力。IAA具有广泛的应用,如图像增强、自动裁剪、文本生成和照片检索等。以及一些实际的应用需求,如广告智能设计(阿里巴巴“鲁班”AI设计师)、智能手机指导摄影(三星)等。因此,近年来IAA在计算机视觉和多媒体领域受到越来越多的关注,吸引了许多研究者对该领域进行探索。
[0003]现有的图像美学质量评价方法大致可以分为两类:大众化的美学质量评价(GIAA)和个性化美学质量评价(PIAA)。GIAA更倾向于大众的审美共性,需要一个大型数据集来抵消个性的不一致性。而PIAA偏向于有效地描述不同人对图像的审美感知结果,主要利用GIAA获得的先验知识进行个性化审美迁移学习,实现针对特定用户的PIAA模型。审美体验是一种评价和诱导情绪的感知体验,并加入理解的过程。这种体验是指接触到事物所引起的一种主观感受(如愉悦或美感),以及对其所产生的喜欢或者吸引力的判断。用户在互联网中上传的评论是用户观测图像整合自己的记忆信息而给出的主观感受信息,因此触发了加入文本输入的多模态IAA方法的出现。多模态IAA方法较以单一图像作为输入的单模态IAA而言融合了文本模态,增加了知识进而提高了模型性能。然而现有多模态IAA往往忽视了模态特征间的关联关系信息和特征的高阶信息,导致融合过程语义解释性不强。

技术实现思路

[0004]为解决上述技术问题,本专利技术提出一种基于脑启发多模态交互网络的图像美学质量评价方法,包括:
[0005]S1、建立脑启发多模态交互网络模型;
[0006]所述脑启发多模态交互网络模型,包括:图像和文本感知模块、识别模块和评估模块;
[0007]S2、将图像数据输入图像感知模块,通过在ImageNet上进行预训练的改进VGG16基干网络和3个层次卷积网络结构获取图像感知特征;
[0008]所述改进VGG16基干网络为删除原VGG16网络中的分类层后得到的VGG16基干网络;
[0009]S3、将文本数据输入文本感知模块提取文本感知特征;
[0010]所述文本数据为对图像数据的主观评论文本;
[0011]S4、通过识别模块学习图像感知特征和文本感知特征之间的交互关系,得到图像与文本之间的关联表示;
[0012]S5、评估模块利用可低秩分解的SMF去融合图像感知特征、文本感知特征和图像与文本之间的关联表示,融合后进行幂归一化和L2正则化得到美学分布。
[0013]优选的,获取图像数据的视觉特征,包括:
[0014]图像数据通过改进VGG16基干网络提取512维视觉上下文特征,根据提取的512维视觉上下文特征利用3层1
×
1卷积网络提取分层特征,在每个层次特征在宽和高的维度上做均值处理,获取图像的全局上下文信息,融合图像的全局上下文信息得到最终的图像感知特征。
[0015]优选的,获取文本数据的文本感知特征,包括:
[0016]文本数据通过300维的词嵌入工具GloVe进行编码,每个单词编码成捕获了单词之间语义特性的实值向量,根据文本数据的实值向量利用Bi

LSTM提取文本特征,采用残差连接把实值向量和提取的文本特征相加,并进行层归一化操作得到的抽象文本上下文特征,采用3种高度的滤波窗口(r∈{2,3,4}),提取抽象到具体的上下文语义信息,得到3个尺度的特征,拼接3个尺度的特征得到最终的文本感知特征。
[0017]优选的,学习图像感知特征和文本感知特征之间的交互关系,得到图像与文本之间的关联表示,包括:
[0018]将图像感知特征和文本感知特征输入识别模块,通过强化图像记忆的KI

LSTM模型学习感知特征间的交互关系,在KI

LSTM模型中关注图像的残差网络结构去避免图像特征被遗忘,之后完成对图像相关的主观评价文本知识的整合,输出图像与文本之间的关联表示。
[0019]优选的,利用可低秩分解的SMF去融合图像感知特征、文本感知特征和图像与文本之间的关联表示,包括:
[0020][0021]其中,表示SMF融合图像感知特征、文本感知特征和图像与文本之间的关联表示后的输出,R表示R个分解因子,f
text
表示文本感知特征,f
cogn
表示图像与文本之间的关联表示,f
img
表示图像感知特征,w
text,r
、w
cogn,r
、w
img,r
分别表示f
text
、f
cogn
、f
img
的权重系数,表示输入向量,表示外积,表示元素积。
[0022]本专利技术的有益效果:
[0023]本专利技术提出了KI

LSTM整合用户隐式记忆,去学习图像和文本之间的关联关系表示,建模特征的高阶信息,同时提升美学模型的非线性表达能力;
[0024]本专利技术提出的通用的SMF去融合多模态特征,以利用异质数据的互补性,提供更有力的美学预测,SMF利用低秩矩阵分解方式减少参数,且参数量增加仅与模态数呈线性关系;
[0025]本专利技术可以用于下游任务情感分类,在该任务的评价指标上验证本专利技术具有很好的泛化能力。
附图说明
[0026]图1为本专利技术的一种基于脑启发多模态交互网络的图像美学质量评价方法的流程图;
[0027]图2为本专利技术的KI

LSTM学习图像和文本之间的关联关系表示流程示意图;
[0028]图3为本专利技术的SMF融合多模态特征的流程示意图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]一种基于脑启发多模态交互网络的图像美学质量评价方法,如图1所示,包括:
[0031]S1、建立脑启发多模态交互网络模型;
[0032]所述脑启发多模态交互网络模型,包括:图像和文本感知模块、识别模块和评估模块;
[0033]S2、将图像数据输入图像感知模块,通过在ImageNet上进行预训练的改进VGG16基干网络和3个层次卷积网络结构获取图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于脑启发多模态交互网络的图像美学质量评价方法,其特征在于,包括:S1、建立脑启发多模态交互网络模型;所述脑启发多模态交互网络模型,包括:图像和文本感知模块、识别模块和评估模块;S2、将图像数据输入图像感知模块,通过在ImageNet上进行预训练的改进VGG16基干网络和3个层次卷积网络结构获取图像感知特征;所述改进VGG16基干网络为删除原VGG16网络中的分类层后得到的VGG16基干网络;S3、将文本数据输入文本感知模块提取文本感知特征;所述文本数据为对图像数据的主观评论文本;S4、通过识别模块学习图像感知特征和文本感知特征之间的交互关系,得到图像与文本之间的关联表示;S5、评估模块利用可低秩分解的SMF去融合图像感知特征、文本感知特征和图像与文本之间的关联表示,融合后进行幂归一化和L2正则化得到美学分布。2.根据权利要求1所述的一种基于脑启发多模态交互网络的图像美学质量评价方法,其特征在于,获取图像数据的视觉特征,包括:图像数据通过改进VGG16基干网络提取512维视觉上下文特征,根据提取的512维视觉上下文特征利用3层1
×
1卷积网络提取分层特征,在每个层次特征在宽和高的维度上做均值处理,获取图像的全局上下文信息,融合图像的全局上下文信息得到最终的图像感知特征。3.根据权利要求1所述的一种基于脑启发多模态交互网络的图像美学质量评价方法,其特征在于,获取文本数据的文本感知特征,包括:文本数据通过300维的词嵌入工具GloVe进行编码,每个单词编码成捕获了单词之间语义特性的实值向量,根据文本数据的实值向量利用Bi

LSTM提取文本特征,采用残差连接把实值向量和提取...

【专利技术属性】
技术研发人员:高新波聂茜茜胡波肖斌李伟生田一雯
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1