一种基于深层网络的多特征融合的图像高级语义识别方法技术

技术编号:19746352 阅读:37 留言:0更新日期:2018-12-12 04:55
本发明专利技术提供了一种基于深层网络的多特征融合的图像高级语义识别方法,通过将全局颜色直方图提取到图像的颜色特征、LBP算法提取到图像的纹理特征、深层对象网络提取到图像的对象特征和深层情感网络提取图像深层情感特征融合起来识别图像的复合情感以及包含的主体对象,最终对于输入的图像,该网络模型可以生成具有高级语义信息的描述性短语,高级语义包括情感语义和对象语义。本发明专利技术从针对小数据集的深度学习方面出发,采用一种数据分别扩充的方式,结合了预先提取出的具有诸如颜色和纹理统计低级特征,并提出一种通过多特征融合的方法识别图像情感和对象的高级语义信息的模型,提高了实验结果的准确性,使实验图像选取更科学。

【技术实现步骤摘要】
一种基于深层网络的多特征融合的图像高级语义识别方法
本专利技术涉及计算机图像情感语义识别
,更具体而言,涉及一种基于深层网络的多特征融合的图像高级语义识别方法。
技术介绍
图像是一种可以用来传达情感的重要工具,不同形式的图像会带给人不同的直观情感体验。心理学研究表明,人类的情绪会因不同的视觉刺激而异。随着深度学习技术的发展,计算机在处理许多视觉识别任务如图像分类,图像分割,物体检测和场景识别等方面都取得了突破性进展。但是对于图像激发的情感呢?是否也能通过深度学习的方法形成与人类类似的判断。事实上由于情感的主观性以及复杂性,从图像中识别诱发情绪是一项艰巨的任务。而对于情感图像的研究也依旧处于早期阶段。图像的情感与多种因素有关。为了找出与情绪识别问题相关的重要特征,许多研究人员已经考虑了从颜色统计到艺术以及心理逻辑特征等的各种类型的特征。王伟凝等人在2007年提出了抽取图像的客观底层特征(如颜色、纹理、形状等)来识别图像的情感。赵等人通过探索艺术原则,定义了更稳健和不变的视觉特征,如平衡,变化和渐变。通过手动提取的视觉特征在几个广泛使用的小数据集上得到较好的识别效果,但这很难将所有与图像情感有关的重要因素(即图像语义,图像美学和低级视觉特征等)全部考虑在内。随着卷积神经网络(CNN)的迅速普及,特别是在许多视觉识别任务都取得了重要突破后,一些研究人员还将CNN应用于图像情感分类。CNN的优势在于,它不是手动设计视觉特征,而是提供了一个端到端的特征学习框架,它可以自动学习图像的特征。近几年,You等人开始利用大数量级的图像情感数据库,使用微调(fine-tune)的方法,在图像物体分类ImageNet数据集上训练好的AlexNet模型,并采用支持向量机(SVM)进行图像情感分类,取得了良好的效果。Rao等人设计了MldrNet,组合了3个AlexNet网络,最终进行情感的预测。Borth等引入了形容词-名词对(ANP),作为代表图像情感的高级概念,为后续工作提供了大量的数据样本参考。但是目前的研究并没有充分地体现出图像包含的高级语义信息,再加上目前高质量的情感数据集数量还较少,不能够完全满足深度学习对于训练量的要求。
技术实现思路
为了克服现有技术中所存在的不足,本专利技术提供一种基于深层网络的多特征融合的图像高级语义识别方法,针对小数据集的深度学习方面出发,采用数据分别扩充的方式,并提出一种通过多特征融合的方法识别图像情感和对象的高级语义信息的模型。为了解决上述技术问题,本专利技术所采用的技术方案为:一种基于深层网络的多特征融合的图像高级语义识别方法,包括以下步骤:S1、准备用于训练网络的数据集,将数据集中图像尺寸更改为224*224*3;S2、对S1中图像中进行特征的提取,并行提取颜色特征x1,纹理特征x2,深层情感特征x3,对象特征x4,提取特征后维度分别变换为3维、128维、128维和40维,使不同的特征分别为单独的一个分支,有利于不同特征的组合,以便选取出来特征组合使得网络的表现性能最佳;S3、将x1,x2,x3,x4连接在一起,用向量X表示。然后将X连接在BN层(BatchNormalization)上,将BN层的输出连接在两层隐含层和一个输出层的神经网络中,通过计算转换为情感概率分布,作为情感语义信息;S4、运用迁移网络模型的方法,将识别结果中概率最大的对象类别作为该图像的对象语义信息;S5、整合S3中提取出的情感语义信息和S4中提取出的的对象语义信息,最终得到图像的高级语义信息的描述性短语。所述S1中数据集的准备步骤具体为:选取国际情感图片系统(IAPS)和日内瓦情感图片数据库(GAPED)作为数据集,根据数据集中图像已有的愉悦度和激活度的标注信息,选用情感维度模型,将数据集中图像在Valence-Arousal二维空间(VA空间)按情感分为9类;对不同的类别图像分别进行不同倍数的扩充,使不同的类别的图像在数量上达到一个均衡的状态。所述S2中颜色特征采用全局颜色直方图中最大值所对应的基础颜色即主色调作为颜色特征,所述在一幅图主色调颜色通过下式获得:其中,式中,整幅图图像颜色由N个级别组成,每一种颜色值用qi,i=1,2,...,N表示;H(qi)为每级颜色出现的频率,H(q1)...H(qN)组成该图像的颜色直方图,num(qi)为颜色qi的像素值个数,num(total)为图像的像素总数。所述纹理特征采用环形局部二值模式(LBP,LocalBinaryPattern)特征,所述局部二值模式特征通过下式获得:其中,式中(xc,yc)为中心像素的坐标,P为邻域的第P个像素,ip为邻域像素的灰度值,ic为中心像素的灰度值,s(x)为符号函数;将得到的局部二值模式特征连接在有两个卷积层和两个激活层、一个池化层和一个全连接层的网络中,其中卷积层kernel_size=(3,3),filters=32,激活层激活函数为“ReLu”,池化层采用MaxPooling,全连接层的神经元个数为128个,最终将得到的128维向量作为图像的纹理特征。所述深层情感特征采用迁移学习的方法,在ImageNet数据集上预先训练好的VGG19模型中,通过S1中数据集图像输入继续优化网络的训练,截取VGG19网络从输入层到”flatten”层的网络部分,添加神经元随机失活为Dropout=0.25,然后添加两个全连接层,最后添加”ReLu”激活层,最终训练网络后提取到的特征作为深层情感特征。所述对象特征在训练阶段采用原数据集中标注好的对象标签作为对象特征;在测试阶段采用图像的对象语义信息转换为独热编码(one-hot)编码,作为图像的对象特征。所述S3中情感概率分布通过以下计算获得:F(X,θ)=f3οg2οf2οg1οf1(X)式中,X是输入的特征向量;θ为一个参数的集合,包括权重w和偏移量b;f3为网络的最终输出;gn代表激活函数,其中g2为softmax,g1为ReLu;对于一个在l层的向量代表在该层的神经元,代表在l+1层的神经元j的值,可以通过fl+1(xl)来计算:式中的值就是连接l层的神经元xi和l+1层的神经元j的权重,n则代表在l层的神经元数量;代表在l+1层神经元j的偏移量,然后神经元j的值还要输入到一个非线性的激活函数σ中:在神经网络的隐含层使用非线性激活函数ReLu。σReLu(x)=max(0,x)最后一层输出层使用softmax激活函数,这样最后一个全连接层的输出就可以转换为一个八类的概率分布P∈Rm,图像的情感分类概率为:式中,hi为最后的完全连接层的输出;将图像的情感分类概率转换为图像的情感概率分布图,这样使结果不仅仅包含了单一的情感,而且可以得到不同的情感的概率分布,能够反映更加全面的情感蕴含信息。通过使用SGD优化器来优化网络的权重来实现优化图像情感分类概率损失,所述图像情感分类概率的损失通过下式获得:式中,yi为该i张图像的真实标签。所述情感概率超过20%就将该类情感作为最终结果的一部分。与现有技术相比,本专利技术所具有的有益效果为:本专利技术提供了一种基于深层网络的多特征融合的图像高级语义识别方法,通过将全局颜色直方图提取到图像的颜色特征、LBP算法提取到图像的纹理特征、深层对象网络提取到本文档来自技高网
...

【技术保护点】
1.一种基于深层网络的多特征融合的图像高级语义识别方法,其特征在于,包括以下步骤:S1、准备用于训练网络的数据集,将数据集中图像尺寸更改为224*224*3;S2、对S1中图像中进行特征的提取,并行提取颜色特征x1,纹理特征x2,深层情感特征x3,对象特征x4;S3、将x1,x2,x3,x4连接在一起,用向量X表示,将X连接在BN层上,将BN层的输出连接在两层隐含层和一个输出层的神经网络中,通过计算转换为情感概率分布,作为图像情感语义信息;S4、运用迁移网络模型的方法,将识别结果中概率最大的对象类别作为图像对象语义信息;S5、整合S3中提取出的情感语义信息和S4中提取出的的对象语义信息,最终得到图像的高级语义信息的描述性短语。

【技术特征摘要】
1.一种基于深层网络的多特征融合的图像高级语义识别方法,其特征在于,包括以下步骤:S1、准备用于训练网络的数据集,将数据集中图像尺寸更改为224*224*3;S2、对S1中图像中进行特征的提取,并行提取颜色特征x1,纹理特征x2,深层情感特征x3,对象特征x4;S3、将x1,x2,x3,x4连接在一起,用向量X表示,将X连接在BN层上,将BN层的输出连接在两层隐含层和一个输出层的神经网络中,通过计算转换为情感概率分布,作为图像情感语义信息;S4、运用迁移网络模型的方法,将识别结果中概率最大的对象类别作为图像对象语义信息;S5、整合S3中提取出的情感语义信息和S4中提取出的的对象语义信息,最终得到图像的高级语义信息的描述性短语。2.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法,其特征在于,所述S1中数据集的准备步骤具体为:选取国际情感图片系统和日内瓦情感图片数据库作为数据集,根据数据集中图像已有的愉悦度和激活度的标注信息,选用情感维度模型,将数据集中图像在VA二维空间模型中按情感分为9类;对不同的类别图像分别进行不同倍数的扩充,使不同的类别的图像在数量上达到一个均衡的状态。3.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法,其特征在于:所述S2中颜色特征采用全局颜色直方图中最大值所对应的基础颜色即主色调作为颜色特征,一幅图的主色调颜色通过下式获得:其中,式中,整幅图图像颜色由N个级别组成,每一种颜色值用qi,i=1,2,...,N表示;H(qi)为每级颜色出现的频率,num(qi)为颜色qi的像素值个数,num(total)为图像的像素总数;取颜色统计值最大一组作为整幅图的主色调,然后将三维向量作为图像的颜色特征,记为x1。4.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法,其特征在于:所述纹理特征采用环形局部二值模式特征,所述局部二值模式特征通过下式获得:其中,式中(xc,yc)为中心像素的坐标,P为邻域的第P个像素,ip为邻域像素的灰度值,ic为中心像素的灰度值,s(x)为符号函数;将得到的局部二值模式特征连接在有两个卷积层和两个激活层、一个池化层和一个全连接层的网络中,其中卷积层kernel_size=(3,3),filters=32,激活层激活函数为“ReLu”,池化层采用MaxPooling,全...

【专利技术属性】
技术研发人员:李海芳王哲邓红霞杨晓峰姚蓉阴桂梅
申请(专利权)人:太原理工大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1