当前位置: 首页 > 专利查询>浙江大学专利>正文

基于卷积神经网络的日常生活物体图像识别方法技术

技术编号:14182952 阅读:98 留言:0更新日期:2016-12-14 12:24
本发明专利技术公开了一种基于卷积神经网络的日常生活物体图像识别方法,其主要包括以下步骤:使用kinect相机对日常生活物体进行拍照,获取图像的颜色和深度信息,建立样本集。然后建立六层的卷积神经网络,得到训练好的模型。最后将此模型用于日常生活物体图片的识别测试。本发明专利技术的卷积网络结构用于日常生活物体识别,解决了传统图像识别方法中难以提取到优良特征的难题,同时利用了图片中的深度信息,有效提高了识别率。最终在大量图片上进行测试后的结果证明这种结构具有良好的泛化能力,可以用于家居机器人等众多家居场合的图像处理设备上。

Image recognition method based on convolution neural network for daily life

The invention discloses a daily object image recognition method based on convolutional neural network, which comprises the following steps: using the Kinect camera to take pictures of everyday objects, to obtain images of the color and depth information, establish the sample set. Then, the six layer convolution neural network is established to get the trained model. Finally, the model is applied to the recognition of daily life objects. Convolutional network structure of the invention is used in daily life to solve the traditional object recognition, image recognition method to extract the problem excellent characteristics, and the use of depth information in the image, effectively improve the recognition rate. Finally, the results show that the structure has good generalization ability and can be used in many image processing equipment such as home robot.

【技术实现步骤摘要】

本专利技术涉及图像识别领域,特别涉及一种基于卷积神经网络的日常生活物体图像识别方法
技术介绍
随着信息时代的全面发展,数字图像已经是传递信息非常重要的媒介。智能设备的发展使得我们希望电子设备具备类似于人的图像识别能力,这一点在家居机器人身上更是如此,如软银推出的Pepper,法国研制的Keecher和Buddy,这些都需要实现人与机器之间的交互,机器人具备人类视觉的识别能力就很重要了,至少能识别出日常生活中常见的物体。但是传统的图像识别技术都严重依赖于手工设计的特征提取器,一方面这些特征提取器的设计耗时耗力,如非常著名的SIFT(尺度不变特征转换)就花费了多年的时间来研制;另一方面这些特征还是比较低级的特征,如SIFT只能用于提取一些粗浅的边缘信息。要研制高级特征的提取器是特征工程中的难题。
技术实现思路
为了克服上述传统特征提取的难题,本专利技术提供了一种基于卷积神经网络的日常生活物体图像识别方法,该方法不用手工提取特征,同时不仅利用了颜色信息还可以利用图片的深度信息,解决了传统图像识别方法中难以提取到优良特征的难题,同时利用了图片中的深度信息,有效提高了识别率。最终在大量图片上进行测试后的结果证明这种结构具有良好的泛化能力,可以用于家居机器人等众多家居场合的图像处理设备上。本专利技术的目的可以通过以下的技术方法实现:一种基于卷积神经网络的日常生活物体图像识别方法,具体包括以下步骤:(1)建立数据集,并进行预处理:拍摄日常生活物体图片并建立数据集,所述图片包括颜色图像和深度图像,对得到的图片进行预处理,得到训练数据和测试数据;(2)搭建卷积神经网络模型:卷积神经网络模型包括C个卷积层、F个全连接层和一个softmax分类器,2≤C≤5,1≤F≤3;在每一个卷积层中进行卷积、池化和归一化处理;每个卷积层的卷积核大小是ci*ci,步长为sci*sci,其中1≤ci≤10,1≤sci≤5,1≤i≤C;对图像进行卷积处理得到ki种特征,1≤ki≤256;每个卷积层的池化处理使用最大池化,大小为pi*pi,步长为spi*spi,其中1≤pi≤10,1≤spi≤5,1≤i≤C;对池化处理后的图像进行归一化处理;图像经过上一个卷积层处理后得到的结果输入下一个卷积层;在第C个卷积层之后,将得到的特征展开成一维向量输入到第一个全连接层中,然后将第一个全连接层的结果输入到第二个全连接层中,以此类推,在经过第F个全连接层之后得到logits值,最后将得到的logits值输入到softmax分类器中,得到该图片属于各个类别的概率值,由此概率值与真实的label计算得到交叉熵损失函数,从而完成了卷积神经网络模型的搭建;其中,每一个全连接层中含有的神经元个数为fj,其中1≤fj≤768,1≤j≤F;(3)模型的训练:将步骤(1)得到的训练数据输入到步骤(2)得到的卷积神经网络模型中开始训练;训练使用梯度下降法,学习率使用变动学习率,训练迭代次数在5万‐10万次之间;(4)模型的测试:将步骤(1)得到的测试数据输入到步骤(3)得到的训练完成后的模型中,得到预测的label,将预测的label和真实的label进行对比,可计算出识别率;如果识别率大于85%,则步骤(3)训练得到的训练模型合格;若识别率小于85%,则返回步骤(2);(5)模型的使用:将待识别的图片进行预处理后输入到合格的训练模型的前C+F层中,得到logits值,然后在logits值中选择最大值所在的下标,即为预测的label,从而完成识别。进一步地,所述图片进行预处理具体为:对深度图像中缺失深度信息的像素进行线性和最邻近法进行插值,然后将深度图像和颜色图像的大小同时归一化为M*M像素,其中c1≤M≤256;然后对归一化后的两张图片进行随机裁剪、随机水平翻转、随机对比度和亮度的改变,最后进行白化操作,得到两张N*N像素的图片,其中1≤N<M;提取N*N像素的颜色图像中的RGB信息和深度图像中的深度信息,并将RGB信息和深度信息排列成一行,最后将label放于这一行的第一个字节,从而组成一个样本的数据。进一步地,所述神经元均是修正线性单元(ReLU);为了防止过拟合,对两个全连接层使用weight decay。与现有技术相比,本专利技术具有如下优点:(1)本专利技术基于卷积神经网络,对原始图片进行操作,不需要设计复杂的特征提取器,减少了大量的时间和人力。(2)在卷积网络的设计中相比传统的卷积网络使用了更小的卷积核,在不增加参数的情况下相比传统卷积网络增加了深度,使得提取特征的能力更强。(3)本专利技术中不仅利用了图片的颜色信息还利用了图片的深度信息。不同物体有不同形状,在传统图像处理中形状只能通过平面的外形来表现,而在本专利技术中利用了图片的深度信息,意味着可以利用物体的三维外形信息,这对于识别率的提升有很大帮助。附图说明图1为本专利技术实施例中数据预处理的流程图;图2为本专利技术实施例的卷积神经网络结构图;图3为本专利技术实施例的卷积神经网络系统图。具体实施方法结合下面的实施例子,对本专利技术进行进一步的详细说明,但是本专利技术提出的方法并不限于这一种实施方法。如图1‐3所示,本专利技术为基于卷积神经网络的日常生活物体图像识别方法,其一种实施例包括以下步骤:(1)建立数据集,并进行预处理:拍摄日常生活物体图片并建立数据集,所述图片包括颜色图像和深度图像,对得到的图片进行预处理,得到训练数据和测试数据。本专利技术中使用的数据集为华盛顿大学的RGB‐D ObjectDataset(链接:http://rgbd‐dataset.cs.washington.edu),本专利技术中使用其中的207000张图片,其中训练集180000张,测试27000张。预处理包括:对深度图像中缺失深度信息的像素进行线性和最邻近法进行插值,然后将深度图和颜色图的大小同时归一化为32*32。然后对图片进行随机裁剪、随机水平反转、随机对比度和亮度的改变,最后进行白化,得到24*24的图片,将其中的RGB信息提取出来和深度信息排列成一行,将label放于这一行的第一位,从而组成一张图片的数据。对于所有的图片均按照这种方式处理,得到训练数据和测试数据,整个流程如图1所示。(2)搭建卷积神经网络模型:实施例中卷积神经网络模型包括3个卷积层、2个全连接层和一个softmax分类器;在每一个卷积层中进行卷积、池化和归一化处理。整个网络结构示意图如图2所示。其中,第一卷积层的卷积核大小是5*5,步长为1*1,卷积完成后从图片中提取出64种特征;池化使用最大池化,大小为3*3,步长为1*1,第二和第三卷积层的设置是一样的,卷积核大小为3*3,步长为1*1,池化为最大池化,大小为3*3,步长为2*2。在卷积之后,将得到的特征展开输入到两个全连接层中,这两层的神经元分别为384、192个,最后将得到的logits值输入到softmax分类器中,与真实的label进行对比得到交叉熵损失函数。交叉熵是信息论中的常用函数,用来衡量两种分布之间的差异。在本专利技术中,每张图片真实的label存在某种分布,建立模型后对每张图片的预测label构成另一个分布,好的模型就是要使得这两个分布尽可能地接近。具体来说,交叉熵的定义如下: H p 本文档来自技高网...
基于卷积神经网络的日常生活物体图像识别方法

【技术保护点】
一种基于卷积神经网络的日常生活物体图像识别方法,其特征在于,具体包括以下步骤:(1)建立数据集,并进行预处理:拍摄日常生活物体图片并建立数据集,所述图片包括颜色图像和深度图像,对得到的图片进行预处理,得到训练数据和测试数据;(2)搭建卷积神经网络模型:卷积神经网络模型包括C个卷积层、F个全连接层和一个softmax分类器,2≤C≤5,1≤F≤3;在每一个卷积层中进行卷积、池化和归一化处理;每个卷积层的卷积核大小是ci*ci,步长为sci*sci,其中1≤ci≤10,1≤sci≤5,1≤i≤C;对图像进行卷积处理得到ki种特征,1≤ki≤256;每个卷积层的池化处理使用最大池化,大小为pi*pi,步长为spi*spi,其中1≤pi≤10,1≤spi≤5,1≤i≤C;对池化处理后的图像进行归一化处理;图像经过上一个卷积层处理后得到的结果输入下一个卷积层。在第C个卷积层之后,将得到的特征展开成一维向量输入到第一个全连接层中,然后将第一个全连接层的结果输入到第二个全连接层中,以此类推,在经过第F个全连接层之后得到logits值,最后将得到的logits值输入到softmax分类器中,得到该图片属于各个类别的概率值,由此概率值与真实的label计算得到交叉熵损失函数,从而完成了卷积神经网络模型的搭建;其中,每一个全连接层中含有的神经元个数为fj,其中1≤fj≤768,1≤j≤F;(3)模型的训练:将步骤(1)得到的训练数据输入到步骤(2)得到的卷积神经网络模型中开始训练;训练使用梯度下降法,学习率使用变动学习率,训练迭代次数在5万‐10万次之间;(4)模型的测试:将步骤(1)得到的测试数据输入到步骤(3)得到的训练完成后的模型中,得到预测的label,将预测的label和真实的label进行对比,可计算出识别率;如果识别率大于85%,则步骤(3)训练得到的训练模型合格;若识别率小于85%,则返回步骤(2);(5)模型的使用:将待识别的图片进行预处理后输入到合格的训练模型的前C+F层中,得到logits值,然后在logits值中选择最大值所在的下标,即为预测的label,从而完成识别。...

【技术特征摘要】
1.一种基于卷积神经网络的日常生活物体图像识别方法,其特征在于,具体包括以下步骤:(1)建立数据集,并进行预处理:拍摄日常生活物体图片并建立数据集,所述图片包括颜色图像和深度图像,对得到的图片进行预处理,得到训练数据和测试数据;(2)搭建卷积神经网络模型:卷积神经网络模型包括C个卷积层、F个全连接层和一个softmax分类器,2≤C≤5,1≤F≤3;在每一个卷积层中进行卷积、池化和归一化处理;每个卷积层的卷积核大小是ci*ci,步长为sci*sci,其中1≤ci≤10,1≤sci≤5,1≤i≤C;对图像进行卷积处理得到ki种特征,1≤ki≤256;每个卷积层的池化处理使用最大池化,大小为pi*pi,步长为spi*spi,其中1≤pi≤10,1≤spi≤5,1≤i≤C;对池化处理后的图像进行归一化处理;图像经过上一个卷积层处理后得到的结果输入下一个卷积层。在第C个卷积层之后,将得到的特征展开成一维向量输入到第一个全连接层中,然后将第一个全连接层的结果输入到第二个全连接层中,以此类推,在经过第F个全连接层之后得到logits值,最后将得到的logits值输入到softmax分类器中,得到该图片属于各个类别的概率值,由此概率值与真实的label计算得到交叉熵损失函数,从而完成了卷积神经网络模型的搭建;其中,每一个全连接层中含有的神经元个数为fj,其中1≤fj≤768,1≤j≤F;(3)模型的训练:将步骤(1)得到的训练数据输入到步骤(2)得到的卷积神经...

【专利技术属性】
技术研发人员:王欢王曰海
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1