一种基于深层网络的多特征融合的图像高级语义识别方法技术

技术编号：19746352 阅读：37 留言：0更新日期：2018-12-12 04:55

本发明专利技术提供了一种基于深层网络的多特征融合的图像高级语义识别方法，通过将全局颜色直方图提取到图像的颜色特征、LBP算法提取到图像的纹理特征、深层对象网络提取到图像的对象特征和深层情感网络提取图像深层情感特征融合起来识别图像的复合情感以及包含的主体对象，最终对于输入的图像，该网络模型可以生成具有高级语义信息的描述性短语，高级语义包括情感语义和对象语义。本发明专利技术从针对小数据集的深度学习方面出发，采用一种数据分别扩充的方式，结合了预先提取出的具有诸如颜色和纹理统计低级特征，并提出一种通过多特征融合的方法识别图像情感和对象的高级语义信息的模型，提高了实验结果的准确性，使实验图像选取更科学。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深层网络的多特征融合的图像高级语义识别方法
本专利技术涉及计算机图像情感语义识别
，更具体而言，涉及一种基于深层网络的多特征融合的图像高级语义识别方法。
技术介绍
图像是一种可以用来传达情感的重要工具，不同形式的图像会带给人不同的直观情感体验。心理学研究表明，人类的情绪会因不同的视觉刺激而异。随着深度学习技术的发展，计算机在处理许多视觉识别任务如图像分类，图像分割，物体检测和场景识别等方面都取得了突破性进展。但是对于图像激发的情感呢？是否也能通过深度学习的方法形成与人类类似的判断。事实上由于情感的主观性以及复杂性，从图像中识别诱发情绪是一项艰巨的任务。而对于情感图像的研究也依旧处于早期阶段。图像的情感与多种因素有关。为了找出与情绪识别问题相关的重要特征，许多研究人员已经考虑了从颜色统计到艺术以及心理逻辑特征等的各种类型的特征。王伟凝等人在2007年提出了抽取图像的客观底层特征(如颜色、纹理、形状等)来识别图像的情感。赵等人通过探索艺术原则，定义了更稳健和不变的视觉特征，如平衡，变化和渐变。通过手动提取的视觉特征在几个广泛使用的小数据集上得到较好的识别效果，但这很难将所有与图像情感有关的重要因素(即图像语义，图像美学和低级视觉特征等)全部考虑在内。随着卷积神经网络(CNN)的迅速普及，特别是在许多视觉识别任务都取得了重要突破后，一些研究人员还将CNN应用于图像情感分类。CNN的优势在于，它不是手动设计视觉特征，而是提供了一个端到端的特征学习框架，它可以自动学习图像的特征。近几年，You等人开始利用大数量级的图像情感数据库,使用微调(fine-t...

【技术保护点】
1.一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于，包括以下步骤：S1、准备用于训练网络的数据集，将数据集中图像尺寸更改为224*224*3；S2、对S1中图像中进行特征的提取，并行提取颜色特征x1，纹理特征x2，深层情感特征x3，对象特征x4；S3、将x1,x2,x3,x4连接在一起，用向量X表示，将X连接在BN层上，将BN层的输出连接在两层隐含层和一个输出层的神经网络中，通过计算转换为情感概率分布，作为图像情感语义信息；S4、运用迁移网络模型的方法，将识别结果中概率最大的对象类别作为图像对象语义信息；S5、整合S3中提取出的情感语义信息和S4中提取出的的对象语义信息，最终得到图像的高级语义信息的描述性短语。

【技术特征摘要】
1.一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于，包括以下步骤：S1、准备用于训练网络的数据集，将数据集中图像尺寸更改为224*224*3；S2、对S1中图像中进行特征的提取，并行提取颜色特征x1，纹理特征x2，深层情感特征x3，对象特征x4；S3、将x1,x2,x3,x4连接在一起，用向量X表示，将X连接在BN层上，将BN层的输出连接在两层隐含层和一个输出层的神经网络中，通过计算转换为情感概率分布，作为图像情感语义信息；S4、运用迁移网络模型的方法，将识别结果中概率最大的对象类别作为图像对象语义信息；S5、整合S3中提取出的情感语义信息和S4中提取出的的对象语义信息，最终得到图像的高级语义信息的描述性短语。2.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于，所述S1中数据集的准备步骤具体为：选取国际情感图片系统和日内瓦情感图片数据库作为数据集，根据数据集中图像已有的愉悦度和激活度的标注信息，选用情感维度模型，将数据集中图像在VA二维空间模型中按情感分为9类；对不同的类别图像分别进行不同倍数的扩充，使不同的类别的图像在数量上达到一个均衡的状态。3.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于：所述S2中颜色特征采用全局颜色直方图中最大值所对应的基础颜色即主色调作为颜色特征，一幅图的主色调颜色通过下式获得：其中，式中，整幅图图像颜色由N个级别组成，每一种颜色值用qi，i＝1,2，...，N表示；H(qi)为每级颜色出现的频率，num(qi)为颜色qi的像素值个数，num(total)为图像的像素总数；取颜色统计值最大一组作为整幅图的主色调，然后将三维向量作为图像的颜色特征，记为x1。4.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于：所述纹理特征采用环形局部二值模式特征，所述局部二值模式特征通过下式获得：其中，式中(xc,yc)为中心像素的坐标，P为邻域的第P个像素，ip为邻域像素的灰度值，ic为中心像素的灰度值，s(x)为符号函数；将得到的局部二值模式特征连接在有两个卷积层和两个激活层、一个池化层和一个全连接层的网络中，其中卷积层kernel_size＝(3,3)，filters＝32，激活层激活函数为“ReLu”，池化层采用MaxPooling，全...

【专利技术属性】
技术研发人员：李海芳，王哲，邓红霞，杨晓峰，姚蓉，阴桂梅，
申请(专利权)人：太原理工大学，
类型：发明
国别省市：山西,14

全部详细技术资料下载我是这个专利的主人