一种基于脑启发多模态交互网络的图像美学质量评价方法技术

技术编号：37669432 阅读：13 留言：0更新日期：2023-05-26 04:30

本发明专利技术属于数字图像处理与模式识别领域，具体涉及一种基于脑启发多模态交互网络的图像美学质量评价方法，包括：建立脑启发多模态交互网络模型；将图像数据输入图像感知模块获取图像感知特征；将文本数据输入文本感知模块提取文本感知特征；通过识别模块学习图像感知特征和文本感知特征之间的交互关系，得到图像与文本之间的关联表示；评估模块融合图像感知特征、文本感知特征和图像与文本之间的关联表示，融合后进行幂归一化和L2正则化得到美学分布。本发明专利技术通过KI

全部详细技术资料下载

【技术实现步骤摘要】
一种基于脑启发多模态交互网络的图像美学质量评价方法

[0001]本专利技术属于数字图像处理与模式识别领域，具体涉及一种基于脑启发多模态交互网络的图像美学质量评价方法。

技术介绍

[0002]数码设备的广泛使用使我们能够拍摄一组照片来捕捉瞬间的记忆，保存最珍贵的时刻。随着社交媒体的迅速发展，现在有很多照片通过互联网分享，如Facebook和Flickr等。在艺术和摄影领域，图像美学是通过图像传达美。图像美学评价(IAA)任务旨在让计算机从审美的角度自动预测图像美的水平，就像它们在模仿人类感知和理解美的能力。IAA具有广泛的应用，如图像增强、自动裁剪、文本生成和照片检索等。以及一些实际的应用需求，如广告智能设计(阿里巴巴“鲁班”AI设计师)、智能手机指导摄影(三星)等。因此，近年来IAA在计算机视觉和多媒体领域受到越来越多的关注，吸引了许多研究者对该领域进行探索。
[0003]现有的图像美学质量评价方法大致可以分为两类：大众化的美学质量评价(GIAA)和个性化美学质量评价(PIAA)。GIAA更倾向于大众的审美共性，需要一个大型数据集来抵消个性的不一致性。而PIAA偏向于有效地描述不同人对图像的审美感知结果，主要利用GIAA获得的先验知识进行个性化审美迁移学习，实现针对特定用户的PIAA模型。审美体验是一种评价和诱导情绪的感知体验，并加入理解的过程。这种体验是指接触到事物所引起的一种主观感受(如愉悦或美感)，以及对其所产生的喜欢或者吸引力的判断。用户在互联网中上传的评论是用户观测图像整合自己的记忆信息而给出的主观...

【技术保护点】

【技术特征摘要】
1.一种基于脑启发多模态交互网络的图像美学质量评价方法，其特征在于，包括：S1、建立脑启发多模态交互网络模型；所述脑启发多模态交互网络模型，包括：图像和文本感知模块、识别模块和评估模块；S2、将图像数据输入图像感知模块，通过在ImageNet上进行预训练的改进VGG16基干网络和3个层次卷积网络结构获取图像感知特征；所述改进VGG16基干网络为删除原VGG16网络中的分类层后得到的VGG16基干网络；S3、将文本数据输入文本感知模块提取文本感知特征；所述文本数据为对图像数据的主观评论文本；S4、通过识别模块学习图像感知特征和文本感知特征之间的交互关系，得到图像与文本之间的关联表示；S5、评估模块利用可低秩分解的SMF去融合图像感知特征、文本感知特征和图像与文本之间的关联表示，融合后进行幂归一化和L2正则化得到美学分布。2.根据权利要求1所述的一种基于脑启发多模态交互网络的图像美学质量评价方法，其特征在于，获取图像数据的视觉特征，包括：图像数据通过改进VGG16基干网络提取512维视觉上下文特征，根据提取的512维视觉上下文特征利用3层1
×
1卷积网络提取分层特征，在每个层次特征在宽和高的维度上做均值处理，获取图像的全局上下文信息，融合图像的全局上下文信息得到最终的图像感知特征。3.根据权利要求1所述的一种基于脑启发多模态交互网络的图像美学质量评价方法，其特征在于，获取文本数据的文本感知特征，包括：文本数据通过300维的词嵌入工具GloVe进行编码，每个单词编码成捕获了单词之间语义特性的实值向量，根据文本数据的实值向量利用Bi
‑
LSTM提取文本特征，采用残差连接把实值向量和提取...

【专利技术属性】
技术研发人员：高新波，聂茜茜，胡波，肖斌，李伟生，田一雯，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人