当前位置: 首页 > 专利查询>北京大学专利>正文

一种目标检测性能优化的方法技术

技术编号:15792436 阅读:59 留言:0更新日期:2017-07-10 00:39
本发明专利技术公开一种目标检测性能优化的方法,所述方法包括:在检测模型训练过程中,使用度量学习来调整样本在特征空间的分布,用以产生更有区分度的特征;度量学习对应的深度神经网络在迭代训练中,每一次迭代使用的候选框为通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,以及;查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件;若满足,则检测模型在本次迭代不产生损失,不需要反向传播网络中各个层对应的输出误差;在测试时,将待检测图片和图片的候选框集合输入到训练后的检测模型中,获得该检测模型输出的目标对象坐标和类别信息。本发明专利技术的方法可以提高检测能力,优化检测性能。

【技术实现步骤摘要】
一种目标检测性能优化的方法
本专利技术涉及目标检测技术,具体涉及一种目标检测性能优化的方法。
技术介绍
目标检测一直是计算机视觉领域中的一个重要的研究课题,同时目标检测也是对象识别、追踪、动作识别的基础。如今,随着深度神经网络在计算机视觉领域的成功应用,人们在目标检测领域投入了更多的研究,比如人脸检测、行人检测、车辆检测等等。针对目标检测,现有主流的检测框架都采用似物性检测(ObjectProposal)的策略;首先,在图片中产生一系列潜在的候选框,候选框标定的区域为与类别无关的潜在物体;其次,采用检测算法对候选框提取相应的视觉特征;然后,采用分类器对提取候选框的特征进行判断,以确定为目标对象类别或是背景。比如R-CNN(Region-ConvolutionalNeuralNetwork)局部卷积神经网络采取了SS(SelectiveSearch)选择性搜索的方法产生图像内可能存在物体的候选框,对这些候选框内的图像内容提取深度学习特征并进行分类。应用局部候选框策略可以大幅度减少不必要的预测,同时能缓和带有迷惑性的背景对分类器的干扰。然而,实际中由于候选框生成算法的精度有限,往往生成的候选框不能较好的覆盖图片中的物体,有不少候选框只覆盖了物体的部分或者覆盖了外表非常相似的背景进而导致分类器的误判,还可能是候选框包括一部分背景和一部分目标进而导致分类器的误判。
技术实现思路
鉴于上述问题,本专利技术提出了克服上述问题或者至少部分地解决上述问题的一种目标检测性能优化的方法。为此目的,第一方面,本专利技术提出一种目标检测性能优化的方法,包括:在检测模型训练过程中,使用度量学习来调整样本在特征空间的分布,用以产生更有区分度的特征;度量学习对应的深度神经网络在迭代训练中,每一次迭代使用的候选框为通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,以及;查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件;若满足,则检测模型在本次迭代不产生损失,不需要反向传播网络中各个层对应的输出误差;在测试时,将待检测图片和图片的候选框集合输入到训练后的检测模型中,获得该检测模型输出的目标对象坐标和类别信息。可选地,所述方法还包括:在测试之前,将训练过程的深度神经网络的池化层采用Top-K池化层替换;其中,所述Top-K池化层是通过对池化窗口中获取最高的K个响应值进行平均获取的;深度神经网络的迭代训练中采用反向传播算法,需要根据计算输入对应输出的偏导数,因此在反向传播过程中,所述Top-K池化方法对应的偏导数为:其中,Top-K池化方法取排序过的池化窗口的前K个值,K为大于1的自然数,xi,j为在第i个池化窗口的第j个元素,yi表示第i个池化窗口的输出。可选地,所述方法还包括:将训练过程的度量学习对应的深度神经网络的池化层采用能够应对噪声干扰的Top-K池化层替换;以及将测试过程的检测模型中深度神经网络的池化层采用能够应对噪声干扰的Top-K池化层替换;其中,所述Top-K池化层是通过对池化窗口中获取最高的K个响响应值进行平均获取的。可选地,每一次迭代使用的候选框为通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,包括:针对训练图片的每个局部候选框都被指定一个类别标签lclass来表示它是某一目标类别或是背景;当一个局部候选框与正确标注之间的IoU重叠超过50%,该候选框为正样本;当一个局部候选框与任意一个正确标注的IoU覆盖面积都在[bglow,0.5)之间时,该候选框为负样本;bglow是一个阈值;对每一个负样本除了lclass外,额外指定一个候选框标签lproposal为与该局部候选框覆盖面积最大的类别;针对不符合相似性约束的三元组,根据lclass和lproposal将所有局部候选框分为不同的组,得到集合(G1,G2,...,GM);每一组Gc包括lclass=c的正样本和lproposal=c的负样本;对每个组Gc,为目标对象的正确标注为lclass=c的正样本,Rn为lclass=background并且lproposal=c的负样本;根据公式一选取每组Gc中的部分样本来构成三元组,组成规则是正确标注的特征,与正确标注特征距离最远的正样本和与正确标注征距离最近的负样本的特征,分别通过argmax和argmin操作来获得:公式一:分别是正确标注,正样本和负样本;约束条件为:为正确标注与正样本之间的特征相似度距离为正确标注与负样本的特征相似度距离;α表示预设的和之间的最小距离间隔。可选地,查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件,包括:迭代训练过程中的深度神经网络损失为Ltriplet,所以深度神经网络的整体优化损失函数为:Ltotal=ω1Lcls+ω2Lloc+ω3Ltriplet;其中,ω1,ω2,ω3分别为预设的比例值;Lcls为分类损失,Lloc为定位损失,Ltriplet局部候选框的相似度三元组损失。可选地,所述其中,分别是正确标注,正样本和负样本,α表示预设的和之间的最小距离间隔。可选地,查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件之后,所述方法还包括:若不满足相似度约束条件,深度神经网络会产生相似度损失;损失通过反向传播算法反向传播到每一层,并通过梯度下降算法更新模型参数;如此重复迭代训练。由上述技术方案可知,本专利技术提出的目标检测性能优化的方法,通过三元组约束的引入,利用相似度距离学习可以约束正负样本之间的相对距离,保持一定的最小距离间隔,进而产生更容易被分类的特征分布,提高检测器检测性能。进一步地,通过Top-K池化替换原有的极大值池化,降低背景噪声对小尺寸特征图池化的影响,进一步提升性能。附图说明图1为本专利技术一实施例提供的图像中不同候选框在特征空间中的相对距离示意图;图2为本专利技术一实施例提供在网络模型训练中划分正负样本的示意图;图3为本专利技术一实施例提供的增加局部相似性优化目标的FastRCNN网络结构在训练阶段的示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。需要说明的是,在本文中,“第一”、“第二”、“第三”、“第四”字样仅仅用来将相同的名称区分开来,而不是暗示这些名称之间的关系或者顺序。目标检测的目的是在图片或视频中识别并定位特定类别的对象。检测的过程可以看作是一个分类的过程,区分目标与背景。目前,通常在检测模型训练中,需要构建正负样本集供分类器学习,划分的标准是根据与正确标注的联合交叠IoU(IntersectionofUnion)的比例来决定。本专利技术提出了一种利用深度神经网络(深度卷积神经网络)在图片和视频中进行目标检测性能优化的方法,该方法在网络模型的训练阶段加入了相似性约束。相比目前主流的检测方法如FastRCNN,本专利技术训练的检测模型能产生更有区分度、更鲁棒的特征。本专利技术的方法主要应用在检测模型的训练阶段,相比与FastRCNN,在训练阶段使用的Softmax与S本文档来自技高网...
一种目标检测性能优化的方法

【技术保护点】
一种目标检测性能优化的方法,其特征在于,包括:在检测模型训练过程中,使用度量学习来调整样本在特征空间的分布,用以产生更有区分度的特征;度量学习对应的深度神经网络在迭代训练中,每一次迭代使用的候选框为通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,以及;查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件;若满足,则检测模型在本次迭代不产生损失,不需要反向传播网络中各个层对应的输出误差;在测试时,将待检测图片和图片的候选框集合输入到训练后的检测模型中,获得该检测模型输出的目标对象坐标和类别信息。

【技术特征摘要】
1.一种目标检测性能优化的方法,其特征在于,包括:在检测模型训练过程中,使用度量学习来调整样本在特征空间的分布,用以产生更有区分度的特征;度量学习对应的深度神经网络在迭代训练中,每一次迭代使用的候选框为通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,以及;查看每一轮迭代训练产生的候选框目标的特征是否满足相似度约束条件;若满足,则检测模型在本次迭代不产生损失,不需要反向传播网络中各个层对应的输出误差;在测试时,将待检测图片和图片的候选框集合输入到训练后的检测模型中,获得该检测模型输出的目标对象坐标和类别信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在测试之前,将训练过程的深度神经网络的池化层采用Top-K池化层替换;其中,所述Top-K池化层是通过对池化窗口中获取最高的K个响应值进行平均获取的;深度神经网络的迭代训练中采用反向传播算法,需要根据计算输入对应输出的偏导数,因此在反向传播过程中,所述Top-K池化方法对应的偏导数为:其中,Top-K池化方法取排序过的池化窗口的前K个值,K为大于1的自然数,xi,j为在第i个池化窗口的第j个元素,yi表示第i个池化窗口的输出。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:将训练过程的度量学习对应的深度神经网络的池化层采用能够应对噪声干扰的Top-K池化层替换;以及将测试过程的检测模型中深度神经网络的池化层采用能够应对噪声干扰的Top-K池化层替换;其中,所述Top-K池化层是通过对池化窗口中获取最高的K个响响应值进行平均获取的。4.根据权利要求1至3任一所述的方法,其特征在于,每一次迭代使用的候选框为通过联合交叠IoU信息确定的具有相同目标对象距离满足一定约束条件,不同目标距离满足一定约束条件的位置关系的候选框,包括:针对训练图片的每个局部候选框都被指定一个类别标签lclass来表示它是某一目标类别或是背景;当一...

【专利技术属性】
技术研发人员:段凌宇楼燚航白燕高峰
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1