当前位置: 首页 > 专利查询>北京大学专利>正文

基于深度度量学习的目标精确检索方法技术

技术编号:15724757 阅读:287 留言:0更新日期:2017-06-29 11:05
本发明专利技术公开一种基于深度度量学习的目标精确检索方法,方法包括:深度神经网络结构的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象相互靠近,不同类别的目标对象相互远离,具有不同类别标签的目标对象的特征距离大于预设距离,且属于同一类别的个体的特征分布中,具有相似属性的类内个体之间距离相互靠近,具有不同属性的类内个体之间大于预设距离,以获得训练后的深度神经网络模型;采用训练后的深度神经网络模型对待查询图片与预设的参考图片分别提取各自的特征,并获取查询图片与参考图片之间特征的欧式距离,对该距离进行从小到大的排序,获得精确检索的目标。本实施例的方法解决了垂直领域的精确检索问题。

【技术实现步骤摘要】
基于深度度量学习的目标精确检索方法
本专利技术涉及计算机视觉技术,具体涉及一种基于深度度量学习的目标精确检索方法。
技术介绍
目标精确检索一直是计算机领域中的至关重要的问题,同时也是对象跟踪、行为分析等应用分析的基础。精确检索(同时也称细粒度识别),旨在精细地区分不同种视觉上相似的物体类别。例如,细粒度车辆识别可以识别出图片内特定的汽车模型,比如“奥迪A62015款”。近年来,随着计算机大规模并行计算能力的突飞猛进以及深度卷积神经网络的成功应用,人们在大量细粒度图像分类的垂直领域投入了更多研究,比如识别不同品种的动物、植物、车辆、衣服、行人的身份等。目标精确检索的目的在于将某个特定查询目标从一系列具有相似外表的参考对象数据集中识别出来。识别的过程是一个相似度比对的过程,依据与查询图像的相似度得分从高到低排序。相似度得分的产生过程通常包含三个步骤:提取特征、做相应变换、相似度度量。对于查询目标和参考对象,常见的提取特征有颜色、纹理、以及尺度不变特征等,这些特征再经过某种数学模型进行变换或融合,再选取适当的距离度量生成特征之间的相似度得分并排序。细粒度图像识别的难点在于类间的相似性和类内的多样性。一方面,不同的细粒度类别对象本身属于某一个大类别(如:奥迪A6和奥迪A8都属于奥迪车),其具有类间相似性,使得提取出的特征也非常相似导致难以区分。另一方面,同一细粒度类别的对象由于不同的视角,姿态和光照条件会呈现出极大的差异性,称为类内多样性。为了减轻在细粒度物体识别过程中类间相似性和类内差异性带来的负作用,为此,通过基于局部部件的方法被用来捕捉细微的局部特征,区分不同类别物体,减小由于视角和姿势变化导致的特征上的差异。例如,细粒度鸟类识别中学习鸟头和身体的局部特征模型,在局部部件之间加入几何约束。但是,基于局部部件的方法依赖于精确的部件定位,当缺少大量视角变化时性能低下。最近业内人士提出了基于度量学习的方法,这种方法旨在最大化类间距离同时最小化类内距离,以降低类间相似性和类内多样性的影响。基于度量学习方法中使用的目标检索算法大多依赖手工设计的特征,如:HOG、LBP、SIFT等,然后主要研究两幅图像之间的距离度量方法。
技术实现思路
鉴于上述问题,本专利技术提出了克服上述问题或者至少部分地解决上述问题的一种基于深度度量学习的目标精确检索方法。为此目的,第一方面,本专利技术提出一种基于深度度量学习的目标精确检索方法,包括:深度神经网络结构的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象的特征距离减小,不同类别的目标对象的特征距离增加,具有不同类别标签的目标对象的特征距离大于预设距离,且属于同一类别的个体的特征分布中,具有相似属性的类内个体之间的特征距离减小,具有不同属性的类内个体之间的特征距离大于预设距离,以获得训练后的深度神经网络模型;采用训练后的深度神经网络模型对待查询图片与预设的参考图片分别提取各自的特征,并获取查询图片与参考图片之间特征的欧式距离,对该距离进行从小到大的排序,获得精确检索的目标。可选地,所述深度神经网络模型为根据选择对象的属性信息能够区分不同对象类别的网络模型;和/或,迭代训练之前的深度神经网络结构为通用的深度卷积神经网络结构。可选地,深度神经网络结构的迭代训练中,还用于执行前向传播计算损失,并通过反向传播算法回传网络中各个层对应的输出误差,通过梯度下降算法调整深度神经网络结构中的权重值,使得训练后的深度神经网络结构中损失收敛。可选地,所述深度卷积神经网络的最后一层全连接的输出有两个分支,一个分支连接Softmax归一化指数损失函数,另一分支连接融入类内多样性的均值三元组损失函数;迭代训练中执行前向传播计算的损失为:Softmax损失函数和融入类内多样性的均值三元组损失函数根据各自的权重值确定的损失。可选地,在深度卷积神经网络迭代训练过程中,融入类内多样性的均值三元组损失函数的损失确定方式如下:采用Kmeans(K均值)聚类算法对类内的所有特征点进行聚类,得到类内的若干分组;将一个类别中所有样本均值作为该类内均值点;以及根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点;根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数。可选地,迭代训练中执行前向传播计算的损失为:Softmax损失函数和融入类内多样性的均值三元组损失函数根据各自的权重值确定的损失,包括:根据LGS-TRS=ωLsoftmax+(1-ω)LICV-triplet确定前向传播计算的损失LGS-TRS;其中,ω是加权权重,Lsoftmax为Softmax损失函数的损失,LICV-triplet为融入类内多样性的均值三元组损失函数的损失。可选地,采用Kmeans聚类算法对类内的所有特征点进行聚类,得到类内的若干分组,包括:使用对类内的所有特征点进行聚类,得到类内的若干分组;其中,f(x)是提取的图像的特征,G是组数,代表聚类族的数目,Np,g是在组Sc,g内的样本数量,μg是聚类中心。可选地,将一个类别中所有样本均值作为该类内均值点,包括:若一个包含Np个类内样本集Xp为1≤i≤Np,则该类内样本集的类内均值参考点cp为:可选地,根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点,包括:若一个包含Np个组内样本集Xp为1≤i≤Np,则组内均值参考点cp为:可选地,根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数,包括:根据公式一获取融入类内多样性的三元组损失函数的损失值;公式一:其中,cp代表类别c中所有样本的均值中心,cp,g代表类别c的组g中所有样本的均值中心;每一个类别c有一个类中心cp和G个组中心cp,g,代表两个取自不同组的同类样本。对于类间关系,是正样本,是负样本;α1是类中心与不同类别样本距离的间隔,α2是类内组中心与不同组别样本距离的间隔;反向传播的偏导数:正样本对损失的偏导数为:负样本对损失的的偏导数为:由上述技术方案可知,本专利技术的基于深度度量学习的目标精确检索方法,能实现类内个体具有相似属性的距离更接近,相比传统的三元组损失函数训练的模型,检索的准确率得到了极大的提高;通过多损失函数联合优化的模型产生的特征更加鲁棒,检索性能比单一损失函数优化的模型更高。附图说明图1为本专利技术一实施例提供的同类样本在模型优化过程中相应的特征分布的示意图;图2为现有技术中基于聚类方法产生的车辆图像的类内分组示意图;图3为本专利技术一实施例提供的以VGGM为基本网络结构的训练阶段示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。结合图1所示,本专利技术实施例的基于深度度量学习的目标精确检索方法,包括:步骤A01、深度神经网络结构的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象本文档来自技高网
...
基于深度度量学习的目标精确检索方法

【技术保护点】
一种基于深度度量学习的目标精确检索方法,其特征在于,包括:深度神经网络的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象的特征距离减小,不同类别的目标对象的特征距离增加,具有不同类别标签的目标对象大于预设距离,且属于同一类别的个体的特征分布中,具有相似属性的类内个体之间的特征距离减小,具有不同属性的类内个体之间的特征距离大于预设距离,以获得训练后的深度神经网络模型;采用训练后的深度神经网络模型对待查询图片与预设的参考图片分别提取各自的特征,并获取查询图片与参考图片之间特征的欧式距离,对该距离进行从小到大的排序,获得精确检索的目标。

【技术特征摘要】
1.一种基于深度度量学习的目标精确检索方法,其特征在于,包括:深度神经网络的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象的特征距离减小,不同类别的目标对象的特征距离增加,具有不同类别标签的目标对象大于预设距离,且属于同一类别的个体的特征分布中,具有相似属性的类内个体之间的特征距离减小,具有不同属性的类内个体之间的特征距离大于预设距离,以获得训练后的深度神经网络模型;采用训练后的深度神经网络模型对待查询图片与预设的参考图片分别提取各自的特征,并获取查询图片与参考图片之间特征的欧式距离,对该距离进行从小到大的排序,获得精确检索的目标。2.根据权利要求1所述的方法,其特征在于,所述深度神经网络结构为根据选择对象的属性信息能够区分不同对象类别的网络结构;和/或,迭代训练之前的深度神经网络结构为通用的深度卷积神经网络结构。3.根据权利要求2所述的方法,其特征在于,深度神经网络模型的迭代训练中,还用于执行前向传播计算损失,并通过反向传播算法回传网络中每一层输出对应的误差,进一步调整深度神经网络结构中的权重值,使得训练中的深度神经网络模型损失能收敛。4.根据权利要求3所述的方法,其特征在于,所述深度卷积神经网络的最后一层全连接的输出有两个分支,一个分支连接Softmax归一化指数损失函数,另一分支连接融入类内多样性的均值三元组损失函数;迭代训练中执行前向传播计算的损失为:Softmax损失函数和均值三元组损失函数根据各自的权重值确定的损失。5.根据权利要求4所述的方法,其特征在于,在深度卷积神经网络迭代训练过程中,融入类内多样性的均值三元组损失函数的损失确定方式如下:采用KmeansK均值聚类算法对类内的所有特征点进行聚类,得到类内的若干分组;将一个类别中所有样本均值作为该类内均值点;以及根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点;根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数。6.根据权利要求5所述的方法,其特征在于,迭代训练中执行...

【专利技术属性】
技术研发人员:段凌宇白燕楼燚航高峰
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1