The present invention relates to a scene recognition method based on deep convolution generation antagonistic network. Existing methods of scene recognition based on in-depth learning are to train the samples and labels of the training set pictures, and then use the trained model to extract the features of the pictures. However, most of the pictures do not have labels in practice. Even if manual labeling can be used, it will take a lot of time and cost. Firstly, the method uses unlabeled images to construct a depth convolution generation antagonistic network model. Then, using the generators that have learned the distribution of scene data sets, a convolution neural network is trained backwards to extract image features, which solves the problem that image data sets need labels, and extracts feature vectors that are more representative of images than traditional features, thereby improving the field. Recognition accuracy in scene recognition tasks.
【技术实现步骤摘要】
一种基于深度卷积生成对抗网络的场景识别方法
本专利技术属于模式识别和机器学习领域,具体涉及一种基于深度卷积生成对抗网络的场景识别方法。
技术介绍
闭环检测在SLAM(同时定位与地图构建)中,被认为是最重要的一个环节,它主要是在给定当前帧图片下,移动机器人是否能够判别该场景是否之前见到过,这就是闭环检测要解决的问题,也就是场景识别。场景识别在计算机视觉领域是一项具有挑战性的工作,其在无人驾驶和移动机器人领域都有这个广泛的应用。近几年,随着深度学习在人工智能领域的发展,深度卷积神经网络在图像识别、图像检测和图像分割等方向都取得了巨大的成果。和传统的人工设计的特征SIFT、SURF和GIST等相比,CNN不仅能够自动提取高质量的图像特征,而且具有很好的泛化能力,因此可以使用预训练好的网络应用于其他的任务上。虽然在场景识别领域,CNN特征已经被证明要优于传统的特征,但是这些深度卷积神经网络都是通过给定的训练集和标签的有监督学习得到,然后提取图像的特征,而在实际生活中,并没有很多的带有标签的数据集,即使利用人工标注,也要花费很多的时间和精力。因此,本专利技术提出了一种新的基于深度卷积生成对抗网络的场景识别方法,采用无监督的学习方法,来训练网络。首先,我们利用场景数据集Place365作为训练集,训练集是大小为256*256的RGB图片。利用该训练集来得到深度卷积生成对抗网络。然后,利用训练好的学习场景数据分布的生成器,再反向训练一个卷积神经网络作为特征提取器,接着利用该卷积神经网络对图片进行特征提取,得到相对应的特征向量。最后,通过计算两张图片特征向量之间的余弦距离 ...
【技术保护点】
1.一种基于深度卷积生成对抗网络的场景识别方法,其特征在于,该方法的具体步骤如下:步骤1、对训练集图片数据进行预处理;将N张训练集图片像素值进行归一化,利用激励函数tanh,函数形式为f(x)=(1‑e‑2x)/(1+e‑2x),将所有图片的像素值的归一化在[‑1,1]的范围之间,x表示图片像素值;步骤2、构建深度卷积生成对抗网络模型NN1;首先,输入batch个符合高斯分布的K维随机张量到深度卷积对抗网络模型NN1的生成器G中,得到输出张量;深度卷积生成对抗网络模型NN1的生成器G的网络模型结构为输入层‑>反卷积层*6‑>输出层;其中输入节点数为K,输出节点数为256*256*3,反卷积层节点数分别为4*4*1024,8*8*512,16*16*256,32*32*128,64*64*64,128*128*32;此时,生成器G的输出张量的大小为[batch,256,256,3],即batch个样本,每一个样本的维度是[256,256,3],先令这batch个样本的每一组样本的标签为0,即作为假样本;在步骤1中随机抽取batch个预处理后的图片,令这些样本的标签为1,即作为 ...
【技术特征摘要】
1.一种基于深度卷积生成对抗网络的场景识别方法,其特征在于,该方法的具体步骤如下:步骤1、对训练集图片数据进行预处理;将N张训练集图片像素值进行归一化,利用激励函数tanh,函数形式为f(x)=(1-e-2x)/(1+e-2x),将所有图片的像素值的归一化在[-1,1]的范围之间,x表示图片像素值;步骤2、构建深度卷积生成对抗网络模型NN1;首先,输入batch个符合高斯分布的K维随机张量到深度卷积对抗网络模型NN1的生成器G中,得到输出张量;深度卷积生成对抗网络模型NN1的生成器G的网络模型结构为输入层->反卷积层*6->输出层;其中输入节点数为K,输出节点数为256*256*3,反卷积层节点数分别为4*4*1024,8*8*512,16*16*256,32*32*128,64*64*64,128*128*32;此时,生成器G的输出张量的大小为[batch,256,256,3],即batch个样本,每一个样本的维度是[256,256,3],先令这batch个样本的每一组样本的标签为0,即作为假样本;在步骤1中随机抽取batch个预处理后的图片,令这些样本的标签为1,即作为真样本;接着训练深度卷积生成对抗网络中的判别器D,判别器D为有监督的二分类模型;深度卷积生成对抗网络模型NN1的判别器D的网络模型结构为输入层->卷积层*6->输出层;其中判别器D输入节点数为256*256*3;输出节点数为1,卷积层节点数分别为128*128*16,64*64*32,32*32*64,16*16*128,8*8*256,4*4*512;对深度卷积对抗网络模型NN1进行训练获得其判别器D的最优权值矩阵Wc1~Wc7和偏置向量bc1~bc7,其中Wc1的大小为[5,5,3,16],bc1为[16,1],Wc2的大小为[5,5,16,32],bc2为[32,1],Wc3的大小为[5,5,32,64],bc3为[64,1],Wc4的大小为[5,5,64,128],bc4为[128,1],Wc5的大小为[5,5,128,256],bc5为[256,1],Wc6的大小为[5,5,256,512],bc6为[512,1],Wc7的大小为[8192,1],b7为[1,1];其中,深度卷积对抗网络模型NN1的生成器G中的所有层都是用ReLU激活函数,函数形式为f(m)=max(0,m),其中m表示当前层的输出值;除了输出层使用Tanh激活函数,输入层不需要激活层;深度卷积生成对抗网络模型NN1的判别器D的所有层使用LeakyReLU激活函数,函数形式为f(n)=max(0,0.2n),其中n表示当前层的输出值;除了输出层采用Sigmoid作为激活函数,函数形式为其中l表示当前层的输出值;在每一层反卷积层和卷积层后面加上归一化层,每一层归一化层都对应的两个训练参数β和γ;然后训练深度卷积生成对抗网络中的生成器G,将深度卷积生成对抗网络模型NN1的生成器G和...
【专利技术属性】
技术研发人员:杨宇翔,陈德平,黄继业,高明煜,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。