一种修正误判的图像内容识别方法技术

技术编号:15502303 阅读:231 留言:0更新日期:2017-06-03 23:15
本发明专利技术公开一种修正误判的图像内容识别方法。该方法包括:1)对训练样本的数据集进行扩展,保证能够提取出足够识别物体的特征;2)利用扩展后的数据集,采用Faster R‑CNN框架进行数据训练,在训练过程中引入易误判负类,将其与正样本一同进行训练,最终得到Faster R‑CNN网络;3)利用训练得到的Faster R‑CNN网络,识别待检测图像中的特定物体。其中步骤1)通过对样本进行拉伸、加噪扩展数据集,也可采用其它方式;步骤2)通过深入分析数据自身特点和测试过程中的误判图像规律,将易与正样本混淆的图像细分为多类,形成所述易误判负类。本发明专利技术能显著减少模型误判,提高图像内容识别的精度。

An image content recognition method based on correction of misjudgment

The invention discloses an image content identification method for correcting misjudgment. The method includes: 1) to expand the training sample data set, which can extract enough object recognition; 2) with the extended data set, using Faster R CNN framework for training data, introducing the industry in the process of training class and the negative, positive samples to train finally, Faster R CNN network; 3) using Faster R CNN network training, recognition to specific object detection in image processing. Step 1) the samples for tensile and noise adding extended data set, can also be used in other ways; step 2) through the false image data characteristic and deep analysis of the regularity in the process of testing, and will be easy to confuse the positive sample image is segmented into many types, forming the false negative class. The invention can significantly reduce the model miscarriage of justice and improve the accuracy of image content recognition.

【技术实现步骤摘要】
一种修正误判的图像内容识别方法
本专利技术属于计算机视觉
,具体涉及一种能够降低误判的图像内容识别方法。
技术介绍
随着互联网的飞速发展,网络中的信息分享和传播日益广泛。在给人们生活带来极大便利和新鲜资讯的同时,网络也被用于各种不良和敏感信息的传播,安全性问题日益突出。其中,多媒体数据因其生动、直观的特点收到大众推崇,尤其即拍即得的图像数据,成为网络数据中最主要的组成成分之一。调查显示,目前不少不良群体活跃于网络平台,利用其传播不良思想,散播相关图像和音、视频,网络已成为这些组织煽动、招募、资助或策划活动的便利工具。当今时代的网络数据量极其巨大,传统网管的人工审查方式需耗费大量的人力物力,且常常力不从心,难以达到监管需求。因此,高效准确的实现图像内容自动识别,十分重要且很有必要。总体来看,视觉特征的研究经历了三个阶段:一是基本的特征提取,即通过图像的颜色、亮度、纹理、形状及像素的空间分布等属性对图像进行描述,如颜色特征、纹理特征、局部特征等;二是特征的表达,即在基本特征提取的基础上进行统计、编码或核描述等操作,以形成更为有效的特征表示,如基于无监督学习的“词袋”模型;三是特征的学习,即对大量的输入图像通过特定的网络结构以及训练方法学习出有意义的特征表示,用于后续的分类或其它视觉任务。深度学习(DeepLearning)近几年来活跃于计算机视觉领域,成为当下人工智能领域最受追捧的方法。其基本思想是通过有监督或无监督的学习方式,组合低层特征形成更加抽象的高层表示,即堆叠多个层,每一层的输出作为下一层的输入,从而实现输入信息的分级表达和抽象。深度学习在图像识别方面主要有两类应用:图像分类和物体识别。(1)图像分类将整张图像作为输入,通过多级卷积网络抽象出其高级特征,然后通过分类器判别其所属的类别。(2)物体识别不将整张图像作为对象,而是首先定位图像中可能是物体的区域,然后识别其为何种物体。然而,现有方法还存在一定的缺陷。一方面,传统的图像识别算法需针对不同类别设计不同的特征,普适性较差,且通常难以满足实时性要求;另一方面,深度学习在图像分类与物体识别方面各有利弊,提升精度还需深入分析场景特征,优化网络结构的同时也对训练方法进一步优化,以最大限度的发挥数据应有的作用。
技术实现思路
本专利技术针对互联网中的海量图像,提出一种修正误判的图像内容识别方法,能够快速实现特定物体的定位与识别。本专利技术采用的技术方案如下:一种修正误判的图像内容识别方法,包括以下步骤:1)对训练样本的数据集进行扩展,保证能够提取出足够识别物体的特征;2)利用扩展后的数据集,采用FasterR-CNN框架进行数据训练,在训练过程中引入易误判负类,将其与正样本一同进行训练,最终得到FasterR-CNN网络;3)利用训练得到的FasterR-CNN网络,识别待检测图像中的特定物体。进一步地,步骤1)对数据集进行扩展的方法是:首先,采用插值法对样本图像在尺度上进行微小的缩放,分别保持宽度不变将长度拉伸到原来的一定倍数、保持长度不变将宽度拉伸到原来的一定倍数;然后,对样本进行加噪处理以增强其鲁棒性,分别添加高斯噪声和椒盐噪声,以进一步增大样本总量。此外,步骤1)还可以采用镜像化处理、模糊锐化处理、背景变换处理、亮度对比度调节等方式进行扩展。进一步地,步骤2)通过深入分析数据自身特点和测试过程中的误判图像规律,将易与正样本混淆的图像细分为多类,形成所述易误判负类。进一步地,步骤2)采用迁移学习方法,使用海量图像数据集预先训练一个模型,在其基础上训练新模型,训练过程采用交替训练法。进一步地,步骤2)通过RPN网络生成候选区域,再通过FastR-CNN网络识别出其中的物体对应的类,RPN网络与FastRCNN物体检测网络共享相同的卷积层。本专利技术的有益效果如下:本专利技术基于深度学习技术,采用FasterR-CNN框架,能够处理多种格式下的图像文件(jpg、jpeg、jpe、bmp、eps、pgm、png等),快速实现特定物体的定位与识别。本次专利技术基于FasterR-CNN源码,可以在普通台式机、工作站、服务器上正常应用。采用本专利技术的方法进行图像识别,可大幅度减少误判,提高检测精度。附图说明图1:基于FasterR-CNN的图像识别网络架构图;图2:基于多负类的误判修正方法;图3:不同方法蒙面人识别的PR对比图。具体实施方式下面通过具体实施例和附图,对本专利技术做进一步说明。本专利技术的修正误判的图像内容识别方法,基于深度学习技术,采用FasterR-CNN框架,能够处理多种格式下的图像文件(jpg、jpeg、jpe、bmp、eps、pgm、png等),快速实现特定物体的定位与识别。本专利技术方法主要包括下面三部分内容:(1)深入分析数据自身特点和测试过程中的误判图像规律,将易与正样本混淆的图像细分为多类,改变简单的二分类方法,引入易误判负类(HardNegativeExample),训练过程中将其与正样本一同训练;(2)由于数据量过小会导致系统无法提取出足够识别物体的特征,故首先进行数据集扩展。首先,采用插值法对样本图像在尺度上进行微小的缩放,分别保持宽度不变将长度拉伸到原来的一定倍数、保持长度不变将宽度拉伸到原来的一定倍数。然后,对样本进行加噪处理以增强其鲁棒性,分别添加高斯噪声和椒盐噪声,进一步增大样本总量;(3)采用迁移学习方法,首先使用ImageNet数据集预先训练一个模型,在其基础上训练新模型,训练过程采用交替训练法。下面以蒙面人识别为例进行说明。由于蒙面人场景通常较为复杂,一张图像中可能包含多种物体,且蒙面人在其中占据的空间较小,使得卷积神经网络学习出的特征图中蒙面人的响应不够,故直接对整张图像采用分类方法进行检测存在一定的局限性。例如,包含蒙面人的图像中经常出现卡车、荒地等元素,使得整张图像经过卷积神经网络得到的特征并不是单纯的蒙面人特征,因而可能出现诸如正常人站在卡车上的图像被分为正样本的情况。因此,本专利技术先框出图像中可能是蒙面人的区域,再对其进行识别。本专利技术采用FasterR-CNN框架进行蒙面人数据训练,网络架构如图1所示。图片作为整个网络的输入,首先通过RPN网络生成候选区域,再通过FastR-CNN物体检测网络识别出其中的物体对应的类。最终RPN网络与FastRCNN物体检测网络共享相同的卷积层,形成有机整体。其中,CNN是卷积神经网络(ConvolutionalNeuralNetwork),R-CNN是基于区域的卷积神经网络(RegionbasedConvolutionalNeuralNetwork),FastR-CNN在R-CNN基础上实现加速,FasterR-CNN进一步加速,RPN是候选区域生成网络(RegionProposalNetwork)。由于能够收集到的蒙面人数据量相对较小,为了防止出现过拟合,本文采用迁移学习(transferlearning)的方式训练网络。首先使用ImageNet数据集(一个公开的海量图像数据集)预先训练一个卷积神经网络模型M0,用其参数对模型中的卷积层进行初始化,全连接层参数则采用高斯分布小随机数进行初始化。由于数据量过小会导致系统无法提取出足够识别蒙面人的特征,故而需进行数据集扩展。首先,由于图本文档来自技高网
...
一种修正误判的图像内容识别方法

【技术保护点】
一种修正误判的图像内容识别方法,其特征在于,包括以下步骤:1)对训练样本的数据集进行扩展,保证能够提取出足够识别物体的特征;2)利用扩展后的数据集,采用Faster R‑CNN框架进行数据训练,在训练过程中引入易误判负类,将其与正样本一同进行训练,最终得到Faster R‑CNN网络;3)利用训练得到的Faster R‑CNN网络,识别待检测图像中的特定物体。

【技术特征摘要】
1.一种修正误判的图像内容识别方法,其特征在于,包括以下步骤:1)对训练样本的数据集进行扩展,保证能够提取出足够识别物体的特征;2)利用扩展后的数据集,采用FasterR-CNN框架进行数据训练,在训练过程中引入易误判负类,将其与正样本一同进行训练,最终得到FasterR-CNN网络;3)利用训练得到的FasterR-CNN网络,识别待检测图像中的特定物体。2.如权利要求1所述的方法,其特征在于,步骤1)对数据集进行扩展的方法是:首先,采用插值法对样本图像在尺度上进行微小的缩放,分别保持宽度不变将长度拉伸到原来的一定倍数、保持长度不变将宽度拉伸到原来的一定倍数;然后,对样本进行加噪处理以增强其鲁棒性,分别添加高斯噪声和椒盐噪声,以进一步增大样本总量。3.如权利要求1所述的方法,其特征在于,步骤1)采用下列方式中的一种或者多种对数据集进行扩展:镜像化处理、模糊锐化处理、背景变换处理、亮度对比度调节。4.如权利要求1所述的方法,其特征在于,步骤2)通过深入分析数据自身特点和测试过程中的误判图像规律,将易与正样本混淆的图像细分为多类,形成所述易误判负类。5.如权利要求1所述的方法,其特征在于,步骤2)采用迁...

【专利技术属性】
技术研发人员:操晓春荆丽桦
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1