一种基于注意力机制的多属性图像美学评价系统技术方案

技术编号:20727226 阅读:48 留言:0更新日期:2019-03-30 18:13
本发明专利技术提出了一种基于注意力机制的多属性图像美学评价系统。利用机器学习的方法,使用大规模照片数据集和对应评论信息训练出一个复合神经网络模型,此模型能够利用卷积操作有效的提取出图像的多属性美学特征,在模型的多属性特征提取网络中对图像特征进行提取,在通道和空间注意力网络中对特征进行进一步处理,最后在语言生成网络中把这些不同属性的特征通过长短记忆网络单元生成最后的评论,此模型能够自动的根据图像特征模拟输出图像不同属性的评论。当输入一个图像的时候,此生成模型从不同属性考虑图像的特征,对图像的美学质量做出自然语言评价结果。该方法很容易通过软件实现,本发明专利技术可广泛应用推广到计算机视觉、图像评价等中。

【技术实现步骤摘要】
一种基于注意力机制的多属性图像美学评价系统
本专利技术属于图像分析、计算机视觉领域,特别是图像美学质量评价,具体地说是基于注意力机制的多属性图像美学评价系统。
技术介绍
随着图像数据、视频数据等多媒体数据在大数据时代的普遍流行和日益频繁的处理传输,如何处理多媒体数据成为了学术与应用研究的热点和重点。图像美学质量评价就是计算机视觉,图像处理,图像美学等学科交叉形成的领域。图像美学质量评价(ImageAestheticQualityAssessment)旨在利用计算机模拟人类对美的感知与理解,自动评价图像的“美感”,即图像美学质量的客观化评价,主要针对拍摄或绘画的图像在构图、颜色、光影、景深、虚实等美学因素方面的效果形成的美感刺激。图像美学质量评价是一个最近十几年才开始引起研究人员关注的一个方向,从一开始就没有走基于规则的路线,而是直接遵循了据驱动的路线,因此图像美学质量评价基准数据集构建就成为了该方向研究的关键前提条件。在图像美学质量人工主观评价得分获取方面,目前主要分为实验室内的人工打分实验、在线图像分享、打分网站下载收、众包(crowdsourcing)评价方法。目前在图像、图形、视频3种主要的可视媒体中,图像美学评价的研究较多,可以将上述研究现状总结为几个任务:美感分类是指给定一幅图像,输出“好”和“不好”或者美学质量“高”或“低”2个类别;美感评分是给出图像的美学质量评分,表现为一个连续数值;美感分布是给出图像的美学质量分数分布直方图;美学因素是给出图像的光影、配色、构图、模糊、运动、趣味等多个方面的评价;美学描述给出图像美学方面的语言评论。传统的图像质量评价旨在利用计算机模拟人类视觉系统自动评价图像的失真程度,主要是针对图像在采集、压缩、处理、传输及显示等过程中产生图像质量下降情况,通常包括成像条件差而引起的失真、有损压缩引起的失真、噪声、图像传输过程中受信道衰减影响引起的失真等。虽然目的都是获得与主观评价结果相一致的客观评价值,但图像美学质量评价旨在利用计算机模拟人类对美的感知与理解,让这种美感思维体现在计算机中,使计算机能够分别出高质量图像或者低质量图像。2017年,台湾信息科学研究所发布了一个新的图像美学数据集照片语言评论数据集(photocritiquecaptioningdataset,PCCD),首次在图像美学数据集中加入了多美学因素的语言评论信息,并结合卷积神经网络(convolutionalneuralnetworks,CNN)与长短记忆单元(long-shorttermmemory,LSTM)进行了图像美学语言评论的预测。该数据集的标注较为全面,包含了1个总体和6个美学因素的评价分数、分布以及多人语言评论。然而其方法具有如下缺点和不足:其数据量太少(4307幅),难以满足大型深度神经网络对于训练样本的规模需求;只能输出一种类型的评价信息,不能实现多属性评价,内容不够全面客观;没有使用注意力机制强化任务目标,产生评价的针对性不强。
技术实现思路
本专利技术的技术解决问题:克服现有技术中大部分只关注单纯的好坏分类以及简单分数,很少预测图片的语言评价,提供一种基于注意力机制的多属性图像美学评价系统,利用语言信息描述美学评价,采用卷积神经网络以其局部权值共享的特殊结构在图像特征提取方面有着独特的优越性,加之注意力网络对美学关注的不同影响,其框架更接近于人的评价认知过程,从而能够有效的模拟出人类对美学的语言感知。本专利技术采用的技术方案为:一种基于注意力机制的多属性图像美学评价系统,构建符合人类对美学的感知表示模型,利用机器学习的方法自动完成对图像的美学语言质量评价,其特征在于,包括:数据集采集和图像预处理模块、评论分类模块、多属性特征神经网络模块、通道和空间注意力模块、语言生成模块;数据集采集模块:从摄影网站获取图像数据、图像打分和评论文本信息数据,并对获取的文本评论信息进行分类,构建出带属性信息的数据集;图像预处理模块:对于采集数据按9:1的比例划分训练集和测试集,对训练集中的样本图像进行预处理,所述预处理包括图像大小变换和图像归一化,得到一个图像像素大小一致的输入数据,送入多属性特征提取网络模块提取多属性特征;多属性特征神经网络模块:通过多任务分支结构对图像打分进行回归计算,得到图像的多属性特征向量,此模块得到的特征向量是对输入的特征提取,是对下一模块的初始处理;通道和空间注意力模块:对图像的多属性特征中不同的属性特征分别在通道和空间维度上,进行注意力权重动态分配操作,得到最后的多属性注意力特征;语言生成模块:将分类好的文本评论信息按类别送入长短时记忆单元LSTM中生成最后的对应文本评论分类属性的评价,长短时记忆单元LSTM同时调用多属性注意力特征,将这些特征和对应文本处理的向量进行编码,送入长短时记忆单元LSTM中产生最后的不同属性的评论结果。所述数据采集模块具体实现如下:(11)从www.dpchallenge.com网站获取到编号靠前的33万张图像,此部分图像质量较高,并且保存每个图像评论者的评论信息;(12)搜集专业的美学数据集,参考其中的分类标准,将评论分类为5个属性,分别为用色和用光评价,构图评价,景深和聚焦评价,印象和主题评价,相机技巧评价;(13)通过对专业数据集的词频排序,取前5的名词对文本评论进行筛选,如果评论中包含排名前5名词中的任意一个,就将该评论归为该类别,从而构建出带属性信息的数据集。所述图像预处理模块具体实现如下:(21)将整理后的训练集中的图像按照不同的属性根据预训练网络的结果制作标签数据;(22)标签对应图像也需要进行处理,将训练集中原始图像进行大小变换,将原始图像的像素大小变换到一个固定尺寸,这个尺寸和设计的深度卷积神经网络所要求的输入大小一致;(23)接下来将训练集中原始图像归一化,首先统计出训练集中的样本图像的均值,然后对每一个样本图像做去均值操作,得到处理好准备训练的数据。所述多属性特征神经网络模块具体实现如下:(31)预处理操作后,将处理好准备训练的图像送入多属性特征神经网络中进行预测,预测网络权重参数来自于预训练网络,预训练网络与多属性回归网络结构相同;(32)多属性特征提取网络共包含全局分数回归和5种部分属性的分数回归,5种部分属性分别对应图像的用色和用光分数,构图分数,景深和聚焦分数,印象和主题分数,相机使用技巧分数,代表图像的用色和用光评价,构图评价,景深和聚焦评价,印象和主题评价,相机技巧评价;(33)网络训练采用随机梯度下降法(SGD)进行参数优化,损失函数公式如下所示。下式中attribute代表属性,global代表全局,N代表网络训练一个批次的图片数,代表预测出的分数,yi代表真实分数,m代表属性的数量,这里设置N为32,m为5。所述通道和空间注意力模块具体实现如下:(41)通道和空间注意力模块分为两个部分,前一部分接受不同属性的特征图,计算通道注意力向量,计算方法是对每个通道设置权重系数,通过反向传播进行学习,得到通道上权重向量,通过这个权重向量调整网络通道对网络的影响;(42)第二部分处理空间上权重矩阵,通过反向传播进行学习,得到空间上的权重矩阵,通过这个矩阵与每通道的权重点乘,最终影响网络在空间上的输出;(43)网本文档来自技高网
...

【技术保护点】
1.一种基于注意力机制的多属性图像美学评价系统,其特征在于,包括:数据集采集和图像预处理模块、多属性特征神经网络模块、通道和空间注意力模块、语言生成模块;数据集采集模块:从摄影网站获取图像数据、图像打分和评论文本信息数据,并对获取的文本评论信息进行分类,构建出带属性信息的数据集;图像预处理模块:对于采集数据按9:1的比例划分训练集和测试集,对训练集中的样本图像进行预处理,所述预处理包括图像大小变换和图像归一化,得到一个图像像素大小一致的输入数据,送入多属性特征提取网络模块提取多属性特征;多属性特征神经网络模块:通过多任务分支结构对图像打分进行回归计算,得到图像的多属性特征向量,此模块得到的特征向量是对输入的特征提取,是对下一模块的初始处理;通道和空间注意力模块:对图像的多属性特征中不同的属性特征分别在通道和空间维度上,进行注意力权重动态分配操作,得到最后的多属性注意力特征;语言生成模块:将分类好的文本评论信息按类别送入长短时记忆单元LSTM中生成最后的对应文本评论分类属性的评价,长短时记忆单元LSTM同时调用多属性注意力特征,将这些特征和对应文本处理的向量进行编码,送入长短时记忆单元LSTM中产生最后的不同属性的评论结果。...

【技术特征摘要】
1.一种基于注意力机制的多属性图像美学评价系统,其特征在于,包括:数据集采集和图像预处理模块、多属性特征神经网络模块、通道和空间注意力模块、语言生成模块;数据集采集模块:从摄影网站获取图像数据、图像打分和评论文本信息数据,并对获取的文本评论信息进行分类,构建出带属性信息的数据集;图像预处理模块:对于采集数据按9:1的比例划分训练集和测试集,对训练集中的样本图像进行预处理,所述预处理包括图像大小变换和图像归一化,得到一个图像像素大小一致的输入数据,送入多属性特征提取网络模块提取多属性特征;多属性特征神经网络模块:通过多任务分支结构对图像打分进行回归计算,得到图像的多属性特征向量,此模块得到的特征向量是对输入的特征提取,是对下一模块的初始处理;通道和空间注意力模块:对图像的多属性特征中不同的属性特征分别在通道和空间维度上,进行注意力权重动态分配操作,得到最后的多属性注意力特征;语言生成模块:将分类好的文本评论信息按类别送入长短时记忆单元LSTM中生成最后的对应文本评论分类属性的评价,长短时记忆单元LSTM同时调用多属性注意力特征,将这些特征和对应文本处理的向量进行编码,送入长短时记忆单元LSTM中产生最后的不同属性的评论结果。2.根据权利要求1所述的一种基于注意力机制的多属性图像美学评价系统,其特征在于:所述数据采集模块具体实现如下:(11)从网站获取到编号靠前的33万张图像,并且保存每个图像评论者的评论信息;(12)搜集专业的美学数据集,参考其中的分类标准,将评论分类为5个属性,分别为用色和用光评价,构图评价,景深和聚焦评价,印象和主题评价,相机技巧评价;(13)通过对专业数据集的词频排序,取前5的名词对文本评论进行筛选,如果评论中包含排名前5名词中的任意一个,则将该评论归为该类别,构建出带属性信息的数据集。3.根据权利要求1所述的一种基于注意力机制的多属性图像美学评价系统,其特征在于:所述图像预处理模块具体实现如下:(21)将整理后的训练集中的图像按照不同的属性根据预训练网络的结果制作标签数据;(22)标签对应图像也需要进行处理,将训练集中原始图像进行大小变换,将原始图像的像素大小变换到一个固定尺寸,这个固定尺寸和设计的深度卷积神经网络所...

【专利技术属性】
技术研发人员:金鑫吴乐章乐赵耿李晓东周兴晖孙红波
申请(专利权)人:中共中央办公厅电子科技学院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1