利用训练样本及折中度量的3D卷积神经网络构建方法技术

技术编号:17346812 阅读:31 留言:0更新日期:2018-02-25 12:21
本发明专利技术涉及一种利用训练样本及折中度量的3D卷积神经网络构建方法,其技术特点是:构造孪生结构的3D卷积神经网络;设置网络的损失函数,该损失函数由正样本损失、负样本损失及正则化损失构成,并在正则化损失中结合了马氏距离和欧氏距离;使用softmax损失函数,使用视频序列形式的数据集对网络进行预训练;构造正样本对和负样本对,对图像进行预处理和分割;有选择地利用训练样本对网络进行训练。本发明专利技术设计合理,其有选择地使用训练样本来提高训练效率并抑制过拟合,同时,在对特征进行度量时对欧氏距离和马氏距离进行权衡,从而构建3D卷积神经网络模型,试验表明本发明专利技术构建的模型及训练策略使得系统整体匹配率大大提升。

Construction method of 3D convolution neural network using training samples and tradeoff measures

The invention relates to a method of constructing the training sample and compromise measure convolutional neural network 3D, which is characterized in that the 3D convolutional neural network structure twin structure; loss function to set up the network, the loss function by positive sample and negative sample loss loss and regularized loss, combined with the Mahalanobis distance and Euclidean the distance in the regularized loss; use the softmax loss function, the use of video sequence data in the form of pre training set of network structure; the positive samples and negative samples of the pre-processing and segmentation of images; selective use of training samples to train the network. The invention has reasonable design, the selective use of training samples to improve training efficiency and inhibit the over fitting, at the same time, in the characteristic measure of Euclidean distance and Mahalanobis distance trade-off, so as to construct the convolutional neural network 3D model test shows that the model and the training strategy constructed by the invention of the whole system, greatly enhance the rate of.

【技术实现步骤摘要】
利用训练样本及折中度量的3D卷积神经网络构建方法
本专利技术属于视觉行人再识别
,尤其是一种利用训练样本及折中度量的3D卷积神经网络构建方法。
技术介绍
随着监控范围的增大,监控数据呈现爆炸式增长。依靠人眼识别监控画面中的行人身份显然十分低效,行人再识别技术的任务便是依靠计算机视觉技术解决不重叠监控视野中行人身份匹配的问题。行人再识别的传统方法主要分为两个步骤,首先对图像/视频进行特征提取,然后通过度量学习得到不同样本的相似度/距离。随着卷积神经网络技术的兴起,其在行人检测、目标跟踪等视觉任务中表现出了出色的性能,因此,基于深度学习的行人再识别也成为了备受关注的研究方向。然而,现有卷积神经网络存在一定局限性,即其仅仅对单张图像进行处理,而没有对监控视频的帧间信息进行利用,因此匹配效率较低。
技术实现思路
本专利技术的目地在于克服现有技术的不足,提出一种设计合理、匹配效率高且性能稳定的利用训练样本及折中度量的3D卷积神经网络构建方法。本专利技术解决其技术问题是采取以下技术方案实现的:一种利用训练样本及折中度量的3D卷积神经网络构建方法,包括以下步骤:步骤1、构造孪生结构的3D卷积神经网络;步骤2、设置网络的损失函数,该损失函数由正样本损失、负样本损失及正则化损失构成,并在正则化损失中结合了马氏距离和欧氏距离;步骤3、使用softmax损失函数,使用视频序列形式的数据集对网络进行预训练;步骤4、构造正样本对和负样本对,对图像进行预处理和分割;步骤5、有选择地利用训练样本对网络进行训练。步骤1构建的3D卷积神经网络,包括如下两个相同的分支网络结构:3D卷积层→批量归一化层→激活层→Dropout层→3D卷积层→批量归一化层→激活层→Dropout层→最大池化层→3D卷积层→批量归一化层→激活层→Dropout层→最大池化层→3D卷积层→批量归一化层→激活层→Dropout层→3D卷积层→批量归一化层→激活层→Dropout层→最大池化层→第一全连接层→第二全连接层。所述3D卷积层的参数为3*3*3;所述激活层的参数为ReLU;所述Dropout层的参数为0.2;所述最大池化层的参数为1*2*2;所述第一全连接层的参数为4096*4096;所述第二全连接层的参数为4096*1000。所述步骤2的具体处理方法为:设孪生网络两个输出分别为Ψ(x1)和Ψ(x2),其中x1和x2为网络的原始输入数据,Ψ(x1)和Ψ(x2)为网络最后的全连接层输出的1000维特征,则这两个样本之间的距离定义为:d(x1,x2)=||Ψ(x1)-Ψ(x2)||2并根据下式标记距离的正负性质:其中I(xk)(k=1,2)是xk的行人身份;设行人身份相同的样本对为正样本对,行人身份不同的样本对为负样本对;则正样本损失定义为:其中Np是正样本对的数目,m是设定的间隔参数;负样本损失定义为:其中t是一个阈值,用于判断是否对负样本对距离进行惩罚;正则化损失定义为:其中W是最后一层全连接层的参数,λ是平衡参数,当λ较大时,度量方法以欧氏距离为主,当λ较小时,度量方法以马氏距离为主;整体损失函数如下:L=Lp+Ln+Lb。所述步骤4的具体处理方法为:首先将输入图像统一为宽度为128像素,高度为64像素尺寸,并对原始图像进行Retinex处理;然后将图像分割为上中下有重叠的三部分,三部分的尺寸均为64*64;最后将这三部分的图像序列叠加在一起,构成输入数据。所述步骤5的具体处理方法为:根据步骤2中的正样本损失和负样本损失,对于符合条件的样本对,计算损失函数并采用随机梯度下降更新模型参数。本专利技术的优点和积极效果是:本专利技术设计合理,其有选择地使用训练样本来提高训练效率并抑制过拟合,同时,在对特征进行度量时对欧氏距离和马氏距离进行权衡,从而构建3D卷积神经网络模型,试验表明本专利技术构建的模型及训练策略使得系统整体匹配率大大提升。附图说明图1是本专利技术的系统整体结构图;图2是选择训练样本的结构示意图;图3a至图3f是本专利技术试验结果给出的不同要素的性能对比分析图。具体实施方式以下结合附图对本专利技术实施例做进一步详述。一种利用训练样本及折中度量的3D卷积神经网络构建方法,包括以下步骤:步骤1、构造孪生结构的3D卷积神经网络。由于传统的2D卷积神经网络在高度和宽度两个方向对图像进行卷积计算,只能提取单张图像内的空间信息,而不能提取图像之间的时间及空间信息。而3D卷积神经网络还可以在时间维度对图像序列进行卷积计算,能够利用前后图像之间的时-空信息。考虑到行人再识别的真实数据为视频形式,3D卷积神经网络比2D卷积神经网络更适用于此场景。因此,本专利技术采用3D卷积神经网络。本步骤的具体构建方法为:构建如图1所示的3D卷积神经网络,其两个分支网络结构相同,分别为:3D卷积层(3*3*3)→批量归一化层→激活层(ReLU)→Dropout层(0.2)→3D卷积层(3*3*3)→批量归一化层→激活层(ReLU)→Dropout层(0.2)→最大池化层(1*2*2)→3D卷积层(3*3*3)→批量归一化层→激活层(ReLU)→Dropout层(0.2)→最大池化层(1*2*2)→3D卷积层(3*3*3)→批量归一化层→激活层(ReLU)→Dropout层(0.2)→3D卷积层(3*3*3)→批量归一化层→激活层(ReLU)→Dropout层(0.2)→最大池化层(1*2*2)→全连接层(4096*4096)→全连接层(4096*1000)。步骤2、设置网络的损失函数,该损失函数由3部分构成,分别为正样本损失、负样本损失及正则化损失,并在正则化损失中结合了马氏距离和欧氏距离。本步骤的具体处理方法为:假设孪生网络两个输出分别为Ψ(x1)和Ψ(x2),其中x1和x2为网络的原始输入数据,Ψ(x1)和Ψ(x2)为网络最后的全连接层输出的1000维特征。则这两个样本之间的距离定义为:d(x1,x2)=||Ψ(x1)-Ψ(x2)||2并根据下式标记距离的正负性质:其中I(xk)(k=1,2)是xk的行人身份。我们规定行人身份相同的样本对为正样本对,行人身份不同的样本对为负样本对。给定一批输入数据,首先计算两个分支所输出的所有样本之间的两两距离并找到最大正距离Dp和最小负距离Dn。则正样本损失定义为:其中Np是正样本对的数目,m是设定的间隔参数。负样本损失定义为:其中t是一个阈值,判断是否对负样本对距离进行惩罚。在此过程中考虑到的有效样本如图2所示。正则化损失定义为:其中W是最后一层全连接层的参数,λ是平衡参数,当λ较大时,本专利技术的度量方法以欧氏距离为主,当λ较小时,本专利技术的度量方法以马氏距离为主。综合考虑上述几类解释,系统的整体损失函数如下:L=Lp+Ln+Lb步骤3、使用softmax损失函数,使用视频序列形式的数据集对网络进行预训练,迭代约500次。步骤4、构造正样本对和负样本对,对图像进行预处理和分割。本步骤的具体处理方法为:输入图像首先被统一为宽度为128像素,高度为64像素尺寸,并对原始图像进行Retinex处理,降低光照等因素对图像的影响,使之更接近人眼感知效果。然后对图像进行分割,如图1所示,分为上中下有重叠的三部分,三部分的尺寸均为64*64,最后将这三部分的图像序列叠加在一起,本文档来自技高网...
利用训练样本及折中度量的3D卷积神经网络构建方法

【技术保护点】
一种利用训练样本及折中度量的3D卷积神经网络构建方法,其特征在于包括以下步骤:步骤1、构造孪生结构的3D卷积神经网络;步骤2、设置网络的损失函数,该损失函数由正样本损失、负样本损失及正则化损失构成,并在正则化损失中结合了马氏距离和欧氏距离;步骤3、使用softmax损失函数,使用视频序列形式的数据集对网络进行预训练;步骤4、构造正样本对和负样本对,对图像进行预处理和分割;步骤5、有选择地利用训练样本对网络进行训练。

【技术特征摘要】
1.一种利用训练样本及折中度量的3D卷积神经网络构建方法,其特征在于包括以下步骤:步骤1、构造孪生结构的3D卷积神经网络;步骤2、设置网络的损失函数,该损失函数由正样本损失、负样本损失及正则化损失构成,并在正则化损失中结合了马氏距离和欧氏距离;步骤3、使用softmax损失函数,使用视频序列形式的数据集对网络进行预训练;步骤4、构造正样本对和负样本对,对图像进行预处理和分割;步骤5、有选择地利用训练样本对网络进行训练。2.根据权利要求1所述的利用训练样本及折中度量的3D卷积神经网络构建方法,其特征在于:步骤1构建的3D卷积神经网络,包括如下两个相同的分支网络结构:3D卷积层→批量归一化层→激活层→Dropout层→3D卷积层→批量归一化层→激活层→Dropout层→最大池化层→3D卷积层→批量归一化层→激活层→Dropout层→最大池化层→3D卷积层→批量归一化层→激活层→Dropout层→3D卷积层→批量归一化层→激活层→Dropout层→最大池化层→第一全连接层→第二全连接层。3.根据权利要求2所述的利用训练样本及折中度量的3D卷积神经网络构建方法,其特征在于:所述3D卷积层的参数为3*3*3;所述激活层的参数为ReLU;所述Dropout层的参数为0.2;所述最大池化层的参数为1*2*2;所述第一全连接层的参数为4096*4096;所述第二全连接层的参数为4096*1000。4.根据权利要求1所述的利用训练样本及折中度量的3D卷积神经网络构建方法,其特征在于:所述步骤2的具体处理方法为:设孪生网络两个输出分别为Ψ(x1)和Ψ(x2),其中x1和x2为网络的原始输入数据,Ψ(x1)和Ψ(x2)为网络最后的全连接层输出的1000维特征,则这两个样本之间的距离定义为:d(x1,x2)=||Ψ(x1)-...

【专利技术属性】
技术研发人员:郑苏桐郭晓强李小雨王东飞周芸姜竹青门爱东
申请(专利权)人:国家新闻出版广电总局广播科学研究院北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1