【技术实现步骤摘要】
一种基于脑启发多模态交互网络的图像美学质量评价方法
[0001]本专利技术属于数字图像处理与模式识别领域,具体涉及一种基于脑启发多模态交互网络的图像美学质量评价方法。
技术介绍
[0002]数码设备的广泛使用使我们能够拍摄一组照片来捕捉瞬间的记忆,保存最珍贵的时刻。随着社交媒体的迅速发展,现在有很多照片通过互联网分享,如Facebook和Flickr等。在艺术和摄影领域,图像美学是通过图像传达美。图像美学评价(IAA)任务旨在让计算机从审美的角度自动预测图像美的水平,就像它们在模仿人类感知和理解美的能力。IAA具有广泛的应用,如图像增强、自动裁剪、文本生成和照片检索等。以及一些实际的应用需求,如广告智能设计(阿里巴巴“鲁班”AI设计师)、智能手机指导摄影(三星)等。因此,近年来IAA在计算机视觉和多媒体领域受到越来越多的关注,吸引了许多研究者对该领域进行探索。
[0003]现有的图像美学质量评价方法大致可以分为两类:大众化的美学质量评价(GIAA)和个性化美学质量评价(PIAA)。GIAA更倾向于大众的审美共性,需要 ...
【技术保护点】
【技术特征摘要】
1.一种基于脑启发多模态交互网络的图像美学质量评价方法,其特征在于,包括:S1、建立脑启发多模态交互网络模型;所述脑启发多模态交互网络模型,包括:图像和文本感知模块、识别模块和评估模块;S2、将图像数据输入图像感知模块,通过在ImageNet上进行预训练的改进VGG16基干网络和3个层次卷积网络结构获取图像感知特征;所述改进VGG16基干网络为删除原VGG16网络中的分类层后得到的VGG16基干网络;S3、将文本数据输入文本感知模块提取文本感知特征;所述文本数据为对图像数据的主观评论文本;S4、通过识别模块学习图像感知特征和文本感知特征之间的交互关系,得到图像与文本之间的关联表示;S5、评估模块利用可低秩分解的SMF去融合图像感知特征、文本感知特征和图像与文本之间的关联表示,融合后进行幂归一化和L2正则化得到美学分布。2.根据权利要求1所述的一种基于脑启发多模态交互网络的图像美学质量评价方法,其特征在于,获取图像数据的视觉特征,包括:图像数据通过改进VGG16基干网络提取512维视觉上下文特征,根据提取的512维视觉上下文特征利用3层1
×
1卷积网络提取分层特征,在每个层次特征在宽和高的维度上做均值处理,获取图像的全局上下文信息,融合图像的全局上下文信息得到最终的图像感知特征。3.根据权利要求1所述的一种基于脑启发多模态交互网络的图像美学质量评价方法,其特征在于,获取文本数据的文本感知特征,包括:文本数据通过300维的词嵌入工具GloVe进行编码,每个单词编码成捕获了单词之间语义特性的实值向量,根据文本数据的实值向量利用Bi
‑
LSTM提取文本特征,采用残差连接把实值向量和提取...
【专利技术属性】
技术研发人员:高新波,聂茜茜,胡波,肖斌,李伟生,田一雯,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。