一种基于深度卷积生成对抗网络的场景识别方法技术

技术编号:20177717 阅读:43 留言:0更新日期:2019-01-23 00:39
本发明专利技术涉及一种基于深度卷积生成对抗网络的场景识别方法。现有利用深度学习进行场景识别的方法,都是通过训练集图片自带的样本和标签进行训练,然后利用训练好的模型来对图片进行特征提取,但是实际中大部分的图片都没有标签,即使可以利用人工标注,也需要花费很大的时间和成本。本发明专利技术首先利用无标签的图片构建深度卷积生成对抗网络模型,然后,利用已经学习到场景数据集分布的生成器,反向训练得到一个卷积神经网络来提取图像的特征,解决了图像数据集需要标签的问题,并且提取出比传统特征更能表征图像的特征向量,从而提高场景识别任务中的识别准确性。

A Scene Recognition Method Based on Deep Convolution Generating Countermeasure Network

The present invention relates to a scene recognition method based on deep convolution generation antagonistic network. Existing methods of scene recognition based on in-depth learning are to train the samples and labels of the training set pictures, and then use the trained model to extract the features of the pictures. However, most of the pictures do not have labels in practice. Even if manual labeling can be used, it will take a lot of time and cost. Firstly, the method uses unlabeled images to construct a depth convolution generation antagonistic network model. Then, using the generators that have learned the distribution of scene data sets, a convolution neural network is trained backwards to extract image features, which solves the problem that image data sets need labels, and extracts feature vectors that are more representative of images than traditional features, thereby improving the field. Recognition accuracy in scene recognition tasks.

【技术实现步骤摘要】
一种基于深度卷积生成对抗网络的场景识别方法
本专利技术属于模式识别和机器学习领域,具体涉及一种基于深度卷积生成对抗网络的场景识别方法。
技术介绍
闭环检测在SLAM(同时定位与地图构建)中,被认为是最重要的一个环节,它主要是在给定当前帧图片下,移动机器人是否能够判别该场景是否之前见到过,这就是闭环检测要解决的问题,也就是场景识别。场景识别在计算机视觉领域是一项具有挑战性的工作,其在无人驾驶和移动机器人领域都有这个广泛的应用。近几年,随着深度学习在人工智能领域的发展,深度卷积神经网络在图像识别、图像检测和图像分割等方向都取得了巨大的成果。和传统的人工设计的特征SIFT、SURF和GIST等相比,CNN不仅能够自动提取高质量的图像特征,而且具有很好的泛化能力,因此可以使用预训练好的网络应用于其他的任务上。虽然在场景识别领域,CNN特征已经被证明要优于传统的特征,但是这些深度卷积神经网络都是通过给定的训练集和标签的有监督学习得到,然后提取图像的特征,而在实际生活中,并没有很多的带有标签的数据集,即使利用人工标注,也要花费很多的时间和精力。因此,本专利技术提出了一种新的基于深度卷积生成对抗网络的场景识别方法,采用无监督的学习方法,来训练网络。首先,我们利用场景数据集Place365作为训练集,训练集是大小为256*256的RGB图片。利用该训练集来得到深度卷积生成对抗网络。然后,利用训练好的学习场景数据分布的生成器,再反向训练一个卷积神经网络作为特征提取器,接着利用该卷积神经网络对图片进行特征提取,得到相对应的特征向量。最后,通过计算两张图片特征向量之间的余弦距离,如果其值效于设定的阈值,则认为两张图片的处于同一场景;反之,则认为是不同场景。
技术实现思路
本专利技术针对现有技术的不足,提出了一种基于深度卷积生成对抗网络的场景识别方法。本专利技术该方法的具体步骤如下:步骤1、对训练集图片数据进行预处理;将N张训练集图片像素值进行归一化,利用激励函数tanh,函数形式为f(x)=(1-e-2x)/(1+e-2x),将所有图片的像素值的归一化在[-1,1]的范围之间,x表示图片像素值;步骤2、构建深度卷积生成对抗网络模型NN1;首先,输入batch个符合高斯分布的K维随机张量到深度卷积对抗网络模型NN1的生成器G中,得到输出张量;深度卷积生成对抗网络模型NN1的生成器G的网络模型结构为输入层->反卷积层*6->输出层;其中输入节点数为K,输出节点数为256*256*3,反卷积层节点数分别为4*4*1024,8*8*512,16*16*256,32*32*128,64*64*64,128*128*32;此时,生成器G的输出张量的大小为[batch,256,256,3],即batch个样本,每一个样本的维度是[256,256,3],先令这batch个样本的每一组样本的标签为0,即作为假样本;在步骤1中随机抽取batch个预处理后的图片,令这些样本的标签为1,即作为真样本;接着训练深度卷积生成对抗网络中的判别器D,判别器D为有监督的二分类模型;深度卷积生成对抗网络模型NN1的判别器D的网络模型结构为输入层->卷积层*6->输出层;其中判别器D输入节点数为256*256*3;输出节点数为1,卷积层节点数分别为128*128*16,64*64*32,32*32*64,16*16*128,8*8*256,4*4*512;对深度卷积对抗网络模型NN1进行训练获得其判别器D的最优权值矩阵Wc1~Wc7和偏置向量bc1~bc7,其中Wc1的大小为[5,5,3,16],bc1为[16,1],Wc2的大小为[5,5,16,32],bc2为[32,1],Wc3的大小为[5,5,32,64],bc3为[64,1],Wc4的大小为[5,5,64,128],bc4为[128,1],Wc5的大小为[5,5,128,256],bc5为[256,1],Wc6的大小为[5,5,256,512],bc6为[512,1],Wc7的大小为[8192,1],b7为[1,1];其中,深度卷积对抗网络模型NN1的生成器G中的所有层都是用ReLU激活函数,函数形式为f(m)=max(0,m),其中m表示当前层的输出值;除了输出层使用Tanh激活函数,输入层不需要激活层;深度卷积生成对抗网络模型NN1的判别器D的所有层使用LeakyReLU激活函数,函数形式为f(n)=max(0,0.2n),其中n表示当前层的输出值;除了输出层采用Sigmoid作为激活函数,函数形式为其中l表示当前层的输出值;在每一层反卷积层和卷积层后面加上归一化层,每一层归一化层都对应的两个训练参数β和γ;然后训练深度卷积生成对抗网络中的生成器G,将深度卷积生成对抗网络模型NN1的生成器G和判别器D一起训练,训练过程中固定判别器D的参数Wc1~Wc7和bc1~bc7,只更新生成器G的参数Wd1~Wd7和bd1~bd7;此时,令生成的batch个符合高斯分布的K维随机张量所对应的标签为1,即所对应的标签张量大小为[batch,1];对深度卷积生成对抗网络模型NN1进行训练获得其生成器G的最优权值矩阵Wd1~Wd7、偏置向量bd1~bd7;其中,Wd1的大小为[K,4*4*1024],bd1为[4*4*1024,1],Wd2的大小为[4,4,1024,512],bd2为[512,1],Wd3的大小为[8,8,512,256],bd3为[256,1],Wd4的大小为[16,16,256,128],bd4为[128,1],Wd5的大小为[32,32,128,64],bd5为[64,1],Wd6的大小为[64,64,64,32],bd6为[32,1],Wd7的大小为[128,128,32,3],bd7为[3,1];步骤3、构建卷积神经网络模型NN2;先随机生成batch个符合高斯分布的K维随机张量输入步骤2中训练好的生成对抗网络的生成器G中,得到大小为[batch,256,256,3]的输出张量;把该输出张量作为的卷积神经网络模型NN2的输入数据,将生成器大小为[batch,K]的输入张量作为卷积神经网络模型NN2所对应的标签;卷积神经网络模型NN2网络模型结构为输入层->卷积层*6->输出层;其中输入节点数为256*256*3,输出节点数为K,中间卷积层节点数分别为128*128*8,64*64*16,32*32*32,16*16*64,8*8*128,4*4*25;因此,对模型进行训练获得其生成器的最优权值矩阵Wc1’~Wc7’和偏置向量bc1’~bc7’;其中Wc1’的大小为[256,256,3,8],bc1’为[8,1],Wc2’的大小为[64,64,8,16],bc2’为[16,1],Wc3’的大小为[32,32,16,32],bc3’为[32,1],Wc4’的大小为[16,16,32,64],bc4’为[64,1],Wc5’的大小为[8,8,64,128],bc5’为[128,1],Wc6’的大小为[4,4,128,256],bc6’为[256,1],Wc7’的大小为[4096,K],bc7’的大小为[K,1];其中本文档来自技高网
...

【技术保护点】
1.一种基于深度卷积生成对抗网络的场景识别方法,其特征在于,该方法的具体步骤如下:步骤1、对训练集图片数据进行预处理;将N张训练集图片像素值进行归一化,利用激励函数tanh,函数形式为f(x)=(1‑e‑2x)/(1+e‑2x),将所有图片的像素值的归一化在[‑1,1]的范围之间,x表示图片像素值;步骤2、构建深度卷积生成对抗网络模型NN1;首先,输入batch个符合高斯分布的K维随机张量到深度卷积对抗网络模型NN1的生成器G中,得到输出张量;深度卷积生成对抗网络模型NN1的生成器G的网络模型结构为输入层‑>反卷积层*6‑>输出层;其中输入节点数为K,输出节点数为256*256*3,反卷积层节点数分别为4*4*1024,8*8*512,16*16*256,32*32*128,64*64*64,128*128*32;此时,生成器G的输出张量的大小为[batch,256,256,3],即batch个样本,每一个样本的维度是[256,256,3],先令这batch个样本的每一组样本的标签为0,即作为假样本;在步骤1中随机抽取batch个预处理后的图片,令这些样本的标签为1,即作为真样本;接着训练深度卷积生成对抗网络中的判别器D,判别器D为有监督的二分类模型;深度卷积生成对抗网络模型NN1的判别器D的网络模型结构为输入层‑>卷积层*6‑>输出层;其中判别器D输入节点数为256*256*3;输出节点数为1,卷积层节点数分别为128*128*16,64*64*32,32*32*64,16*16*128,8*8*256,4*4*512;对深度卷积对抗网络模型NN1进行训练获得其判别器D的最优权值矩阵Wc1~Wc7和偏置向量bc1~bc7,其中Wc1的大小为[5,5,3,16],bc1为[16,1],Wc2的大小为[5,5,16,32],bc2为[32,1],Wc3的大小为[5,5,32,64],bc3为[64,1],Wc4的大小为[5,5,64,128],bc4为[128,1],Wc5的大小为[5,5,128,256],bc5为[256,1],Wc6的大小为[5,5,256,512],bc6为[512,1],Wc7的大小为[8192,1],b7为[1,1];其中,深度卷积对抗网络模型NN1的生成器G中的所有层都是用ReLU激活函数,函数形式为f(m)=max(0,m),其中m表示当前层的输出值;除了输出层使用Tanh激活函数,输入层不需要激活层;深度卷积生成对抗网络模型NN1的判别器D的所有层使用LeakyReLU激活函数,函数形式为f(n)=max(0,0.2n),其中n表示当前层的输出值;除了输出层采用Sigmoid作为激活函数,函数形式为...

【技术特征摘要】
1.一种基于深度卷积生成对抗网络的场景识别方法,其特征在于,该方法的具体步骤如下:步骤1、对训练集图片数据进行预处理;将N张训练集图片像素值进行归一化,利用激励函数tanh,函数形式为f(x)=(1-e-2x)/(1+e-2x),将所有图片的像素值的归一化在[-1,1]的范围之间,x表示图片像素值;步骤2、构建深度卷积生成对抗网络模型NN1;首先,输入batch个符合高斯分布的K维随机张量到深度卷积对抗网络模型NN1的生成器G中,得到输出张量;深度卷积生成对抗网络模型NN1的生成器G的网络模型结构为输入层->反卷积层*6->输出层;其中输入节点数为K,输出节点数为256*256*3,反卷积层节点数分别为4*4*1024,8*8*512,16*16*256,32*32*128,64*64*64,128*128*32;此时,生成器G的输出张量的大小为[batch,256,256,3],即batch个样本,每一个样本的维度是[256,256,3],先令这batch个样本的每一组样本的标签为0,即作为假样本;在步骤1中随机抽取batch个预处理后的图片,令这些样本的标签为1,即作为真样本;接着训练深度卷积生成对抗网络中的判别器D,判别器D为有监督的二分类模型;深度卷积生成对抗网络模型NN1的判别器D的网络模型结构为输入层->卷积层*6->输出层;其中判别器D输入节点数为256*256*3;输出节点数为1,卷积层节点数分别为128*128*16,64*64*32,32*32*64,16*16*128,8*8*256,4*4*512;对深度卷积对抗网络模型NN1进行训练获得其判别器D的最优权值矩阵Wc1~Wc7和偏置向量bc1~bc7,其中Wc1的大小为[5,5,3,16],bc1为[16,1],Wc2的大小为[5,5,16,32],bc2为[32,1],Wc3的大小为[5,5,32,64],bc3为[64,1],Wc4的大小为[5,5,64,128],bc4为[128,1],Wc5的大小为[5,5,128,256],bc5为[256,1],Wc6的大小为[5,5,256,512],bc6为[512,1],Wc7的大小为[8192,1],b7为[1,1];其中,深度卷积对抗网络模型NN1的生成器G中的所有层都是用ReLU激活函数,函数形式为f(m)=max(0,m),其中m表示当前层的输出值;除了输出层使用Tanh激活函数,输入层不需要激活层;深度卷积生成对抗网络模型NN1的判别器D的所有层使用LeakyReLU激活函数,函数形式为f(n)=max(0,0.2n),其中n表示当前层的输出值;除了输出层采用Sigmoid作为激活函数,函数形式为其中l表示当前层的输出值;在每一层反卷积层和卷积层后面加上归一化层,每一层归一化层都对应的两个训练参数β和γ;然后训练深度卷积生成对抗网络中的生成器G,将深度卷积生成对抗网络模型NN1的生成器G和...

【专利技术属性】
技术研发人员:杨宇翔陈德平黄继业高明煜
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1