基于卷积特征和空间视觉词袋模型的场景识别方法技术

技术编号:15763763 阅读:561 留言:0更新日期:2017-07-06 02:22
本发明专利技术公开了一种基于卷积特征和空间视觉词袋模型的场景识别方法。该方法包括:对原始数据库中的数据进行扩增技术,产生大量的、与原数据相似、标签不变的训练数据;对数据库中的图像进行预处理,得到符合的场景图像;利用构建的卷积神经网络模型及其训练后得到的参数设置,训练得到数据库图像的卷积特征;将得到的图像卷积特征用空间视觉词袋模型进行词典生成特征编码并形成直方图矢量;引入并联的思想融合多种特征,发挥其优势并结合SVM分类器实现场景分类性能的提高。

Scene recognition method based on convolution feature and spatial visual word bag model

The invention discloses a scene recognition method based on convolution feature and space vision bag model. The method includes: the original data in the database of amplification technology, produced a large amount of training data, similar with the original data, the same label; the image database preprocessing, obtain the scene images meet; using parameters obtained by convolution neural network model and its training construction after the training by convolution feature database the image of the image; convolution characteristics obtained by space model generation features of bag of visual word dictionary encoding and form histogram vector; feature fusion into parallel ideas, play the advantage of combined SVM classifier to achieve the classification performance of the improved scene.

【技术实现步骤摘要】
基于卷积特征和空间视觉词袋模型的场景识别方法
本专利技术涉及深度学习及场景分类识别,尤其涉及一种基于卷积特征和空间视觉词袋模型的场景识别方法及装置。
技术介绍
在信息存储与传输技术的快速发展的今天,人们日常生活中所能接触数字图像信息的方式更加便捷,所能接触到的图像数据呈现爆炸性的增长。图像数量的与日俱增,使得利用计算机来更好的完成日益增多的视觉信息处理任务,成为一项重要的课题。在早期的研究中,是采用人工采集和分类的方式,来获得场景图像中更多的信息,但是这种方法耗时耗力,太过繁琐。因此如何高效合理地处理图像数据,如何实现自动有效地对场景图像进行分类标注,实现图像场景信息的自动提取,己经成为迫切需要解决的难题。中国互联网络信息中心(CNNIC)第39次调查报告显示,截止至2016年12月,中国网络视频用户规模达5.45亿,而用户对多媒体的搜索需求日益旺盛,则搜索引擎用户规模达6.02亿,且网络新闻用户规模为6.14亿,这给大数据的图像检索提出了更高的要求。面对大量的图像数据,人类对图像理解包含多个语义内容,其中场景场景语义主要侧重于对图像整体的认知和分析,而不仅仅是图像内部包含的具体地物目标,还对图像中各种对象,以及区域之间的上下文信息进行了分析,使得对图像的内容有了更深层次的认识。因此,如何对这些数字图像所包含的信息进行识别和处理,使计算机能够快速地、准确地图像的类别,已经成为计算机视觉领域一个亟待解决的问题,图像场景分类技术就是在这个背景下产生的。场景分类,即基于图像的场景特征来完成场景类别(如高山、森林、卧室、客厅等)的自动识别。场景分类是图像理解领域的一个重要分支,已成为多媒体信息管理,计算机视觉领域的一个热点问题。场景分类对多媒体信息检索的发展具有重要意义,在许多领域有着广泛的应用前景和理论意义。早在2004年,一些学者首次正式将词包模型用于图像场景分类的研究中,并且提出一个视觉词包模型算法的图像场景分类。即通过对图像中颜色,纹理等低层特征的提取,进而统计图像中各个图像中各种不同特征的分部信息,即把图像中的图像块对应为文本中的单词,实现了图像的视觉词包模型表示。之后,不同的学者从图像块的划分,局部特征提取和视觉单词的构造等多个阶段进行了进一步的广泛研究。然而,当场景种类达到千类以上且数据库容量突破百万张时,传统的基于底层特征和高层语义的方法通常难以处理这些海量数据,而基于深度学习的方法则在这种大数据上有着很好的表现,尤其是深度卷积神经网络在场景分类任务中已经取得了全新的突破。采用卷积特性,模型可以在事实上卷积特征空间的优势视角的场景更完整的表示能够适应变化。卷积神经网络的问题在于需要大量数据来训练,同时训练过程中需要精巧的参数调整。将卷积神经网络提取的特征与传统的局部特征加以组合,可以进一步提高场景分类的效果。因此本专利的研究目标是针对传统场景分类中特征表达能力不足的问题,提出一种基于图像中层特征的场景分类方法,用深度学习的方法使其特征表达具有一定的缩放,位移等变换的不变性,并结合空间视觉词袋模型探索空间场景图像整体的特征信息和结构,并能较好的应用于复杂的场景图像分类。
技术实现思路
本专利技术的目的针对上述技术中存在的问题,提供一种基于卷积特征和空间视觉词袋模型的场景识别方法,利用深度学习的思想,结合了空间视觉词袋模型,更进一步提高了场景图像分类的效果。为实现上述目的,本专利技术采用的技术方案是:对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据;根据所述第一场景图像构建卷积神经网络模型;将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征;根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典;根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息;根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。进一步地,根据所述第一场景图像构建卷积神经网络模型之前,还包括:对第一场景图像预处理;所述预处理包括降噪和增强对比度。进一步地,所述对第一场景图像预处理,包括对第一场景图像采用拉普拉斯滤波算法来降低光照影响,降低光照情况下拍摄图像噪声,以及对第一场景图像采用直方图均衡化增加灰度值的动态范围,增强图像整体对比度。对图像预处理是在保证所构建得到的新的卷积神经网络模型架构对原尺寸图片可训练的情况下,还明显降低光照对卷积神经网络模型架构识别精度的影响,增加了灰度值的动态范围,从而达到增强图像整体对比度的效果。进一步地,所述对原始数据库中的数据进行扩增,生成第一场景图像包括:对原始数据库中的数据使用仿射变换、水平翻转和弹性裁切的随机组合来进行扩增,生成多个与原数据相似、标签不变的训练数据作为第一场景图像。所述对原始数据库中的数据进行扩增技术,是为了实时地产生大量的、与原数据相似、标签不变的训练数据,减轻模型训练过拟合,使模型获得更好的泛化性能。本方法是使用仿射变换(平移、旋转、缩放、错切)、水平翻转和弹性裁切的随机组合扩增训练数据。进一步地,所述根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息,包括:将得到的图像卷积特征图像当做提取的局部特征并利用空间视觉词袋模型,计算所述特征点与码书中视觉单词之间的距离集合,采取软分配编码进行特征编码,形成第一场景图像和待分类图像的直方图矢量。进一步地,根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类,包括:提取待分类图像的SIFT特征;根据待分类图像的SIFT特征和图像卷积特征采用预设的分类器对待分类图像进行分类。本专利技术还提供了一种基于卷积特征和空间视觉词袋模型的场景识别装置,包括:扩增模块,用于对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据;卷积神经网络模型构建模块,用于根据所述第一场景图像构建卷积神经网络模型;卷积特征获取模块,用于将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征;词典生成模块,用于根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典;直方图信息获取模块,用于根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息;分类模块,用于根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。进一步地,装置还包括:第一预处理模块,用于对第一场景图像预处理;所述预处理包括降噪和增强对比度。还包括:第二预处理模块,用于对待分类图像预处理;所述预处理包括降噪和增强对比度。进一步地,所述分类模块包括:SIFT特征提取单元,用于提取待分类图像的SIFT特征;分类单元,用于根据待分类图像的SIFT特征和图像卷积特征采用预设的分类器对待分类图像进行分类。进一步地,所述进行图像的卷积特征,是构建卷积神经网络模型,使用多层卷积以增强模型的表达能力,以获得了某种程度的位移、尺度、形变不变性。更本文档来自技高网
...
基于卷积特征和空间视觉词袋模型的场景识别方法

【技术保护点】
一种基于卷积特征和空间视觉词袋模型的场景识别方法,其特征在于,包括:对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据;根据所述第一场景图像构建卷积神经网络模型;将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征;根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典;根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息;根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。

【技术特征摘要】
1.一种基于卷积特征和空间视觉词袋模型的场景识别方法,其特征在于,包括:对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据;根据所述第一场景图像构建卷积神经网络模型;将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征;根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典;根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息;根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。2.根据权利要求1所述的基于卷积特征和空间视觉词袋模型的场景识别方法,其特征在于:根据所述第一场景图像构建卷积神经网络模型之前,还包括:对第一场景图像预处理;所述预处理包括降噪和增强对比度。3.根据权利要求2所述的基于卷积特征和空间视觉词袋模型的场景识别方法,其特征在于:所述对第一场景图像预处理,包括对第一场景图像采用拉普拉斯滤波算法来降低光照影响,降低光照情况下拍摄图像噪声,以及对第一场景图像采用直方图均衡化增加灰度值的动态范围,增强图像整体对比度。4.根据权利要求1所述的基于卷积特征和空间视觉词袋模型的场景识别方法,其特征在于:所述对原始数据库中的数据进行扩增,生成第一场景图像包括:对原始数据库中的数据使用仿射变换、水平翻转和弹性裁切的随机组合来进行扩增,生成多个与原数据相似、标签不变的训练数据作为第一场景图像。5.根据权利要求1所述基于卷积特征和空间视觉词袋模型的场景识别方法,其特征在于:所述根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息,包括:将得到的图像卷积特征图像当做提取的局部特征并利用空间视觉词袋模型,计算所述特征点与码书中视觉单词之间的距离集合,采取软分配编码进行特...

【专利技术属性】
技术研发人员:丰江帆刘媛媛刘光军夏英
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1