用于多类别物体检测的方法和系统技术方案

技术编号:15397058 阅读:139 留言:0更新日期:2017-05-19 11:33
公开一种用于训练多类别物体检测的神经网络的装置。该装置可包括特征学习单元和子框检测器单元。根据本申请的一个实施例,特征学习单元被配置成:基于第一训练图像集的训练图像来确定第一神经网络,其中每个图像中有多个边界框,边界框的内部具有物体,并且所确定的第一神经网络给出输入图像的上下文信息;以及基于第一训练图像集中的图像的边界框来确定第二神经网络,随后基于第二训练集中的图像的边界框来进一步微调第二神经网络。子框检测器单元被配置成基于第二神经网络来确定用于边界框的子框检测器得分,子框检测器的每个预测得分用于一个边界框的一个语义物体类别的一个值。

Method and system for multi class object detection

A device for training a neural network of multi class object detection is disclosed. The device may include a feature learning unit and a subframe detector unit. According to one embodiment of the application, the characteristics of learning unit is configured to determine the first neural network training based on the image of the first set of training images, each image has more than one bounding box, inside the bounding box of the object is first, the neural network and the determined to give the context information of the input image and image; the first training image focus the bounding box is determined based on the second neural network, then based on the second image training set bounding box to further fine tune the second neural network. The sub frame detector unit is configured to determine the bounding box for the sub frame detector based on neural network score second, each sub frame detector for a score prediction value of a semantic object categories a bounding box of the.

【技术实现步骤摘要】
【国外来华专利技术】用于多类别物体检测的方法和系统
本申请涉及多类别物体检测的方法和系统,其目标是自动检测视频的数字图像中的不同类别的物体的实例。
技术介绍
物体检测的目标是检测数字图像和视频中的某一类别的物体的实例。物体检测系统的性能很大程度上取决于图像表示,图像表示的质量可受到多种变化的影响,诸如,视角、照明、姿势和遮挡。归因于此类不可控制的因素,设计足够有辨别力以表示大量物体类别的稳健图像表示是很有意义的。已经付出大量的努力致力于设计用于表示图像的手工制作的特征,诸如,Gabor、SIFT和HOG。通常,基于物体检测的手工制作的特征涉及使用多重尺度在图像的关键点上提取多个特征,并且将它们连接成高维特征向量。深度卷积神经网络(CNN)已经应用于直接从原始像素中习得特征。至于物体检测任务,现有的深度CNN学习方法通过使用不具有基本真实边界框的图像来预先训练CNN,随后使用具有基本真实边界框的另一图像集来微调深度神经网络。通常,与用于预先训练的图像集相比,用于微调的图像集具有较少量的语义类别数量。此外,用于微调的图像集中的语义类别的数量等于我们想要检测的实际类别的数量。
技术实现思路
一方面,公开用于训练多类别物体检测的神经网络的装置。该装置可包括特征学习单元和子框检测器单元。根据本申请的一个实施例,特征学习单元被配置成:基于第一训练图像集的训练图像来确定第一神经网络,其中训练图像中的每个具有多个边界框,边界框的内部具有物体;以及基于第一训练图像集的训练图像的边界框来确定第二神经网络,随后基于第二训练集的训练图像的边界框来进一步微调第二神经网络。子框检测器单元被配置成基于第二神经网络来确定用于第一和第二图像集的边界框的二类分类器检测器(classifierdetector),所确定的二类分类器检测器的每个得分预测边界框中的一个边界框内部的一个语义物体类别。另一方面,公开用于多类别物体检测的装置,该装置包括:特征学习模块,其被配置成确定用于输入的图像的每个候选边界框的多个分类特征;子框检测器模块,其被配置成利用预先训练的检测神经网络基于由特征学习模块确定的分类特征来计算用于每个候选框的多个检测类别得分;以及上下文信息模块,其被配置成连接所计算的分类类别得分,并且确定候选边界框的最终得分,最终得分表示输入的图像的边界框中的一个边界框内部的一个语义物体类别。又一方面,公开用于多类别物体检测的系统,该系统包括训练装置,该训练装置被配置成从多个预定训练图像集中确定分类神经网络和检测神经网络。该系统还包括预测装置,该预测装置包括:特征学习模块,其被配置成基于检测神经网络来确定用于输入图像的每个候选边界框的多个特征,其中检测神经网络将候选边界框作为输入并且操作以输出用于候选边界框的检测特征;子框检测器模块,其被配置成利用分类神经网络基于检测特征来计算用于每个候选边界框的多个分类类别得分;以及上下文信息模块,其被配置成连接所计算的分类类别得分,并且基于检测神经网络来确定候选边界框的最终得分,最终得分表示该框内部的语义物体类别。又一方面,公开用于训练多类别物体检测的神经网络的方法,该方法包括:基于第一训练图像集的训练图像来确定第一神经网络,其中图像中的每个具有多个边界框,边界框的内部具有物体,并且所确定的第一神经网络输出用于输入图像的上下文信息;基于第一训练图像集中的图像的边界框来确定第二神经网络;基于第二训练图像集中的图像的边界框来微调第二神经网络;以及基于第二神经网络来确定用于边界框的子框检测器得分,子框检测器的每个预测用于一个边界框的一个语义物体类别的一个值。又一方面,公开用于训练多类别物体检测的神经网络的方法,该方法包括:基于第一训练图像集的多个边界框来确定第一神经网络;基于第二训练图像集中的图像的边界框来确定第二神经网络,所确定的第一神经网络输出用于输入图像的上下文信息;以及基于第二神经网络来确定用于边界框的子框检测器得分,子框检测器得分中的每个预测用于一个语义物体类别的边界框中的一个边界框的一个值。此外,本申请还提出用于多类别物体检测的方法,该方法包括:从多个预定训练图像集中确定分类神经网络、检测神经网络、多个子框检测器和多个上下文信息检测器;基于检测神经网络来确定用于输入图像的每个候选边界框的多个特征,其中检测神经网络将候选边界框作为输入并且从检测神经网络的最后隐藏层计算特征值;基于分类神经网络来计算用于每个候选框的多个分类类别得分;连接所计算的分类类别得分,以便基于检测神经网络通过所确定的子框检测器来确定候选边界框的最终得分。附图说明下文参考附图描述本专利技术的示例性非限制实施例。附图是说明性的,并且一般不按确切比例。不同图上的相同或类似元件引用相同的参考编号。图1是示出根据本申请的一个实施例的用于多类别物体检测的示例性系统的示意图。图2是示出根据本申请的一个实施例的训练装置的示例性框图的示意图。图3示出根据本申请的一个实施例的用于选择性搜索单元的操作的流程图。图4示出根据本申请的一个实施例的用于特征学习单元的操作的流程图。图5示出根据本申请的一个实施例的特征学习单元训练神经网络的流程图。图6示出根据本申请的一个实施例的子图像分块。图7示出根据本申请的一个实施例的用于子框检测器单元的操作的流程图。图8示出根据本申请的另一实施例的用于子框检测器单元的操作的流程图。图9示出根据本申请的另一实施例的用于上下文信息单元的操作的流程图。图10是示出根据本申请的一个实施例的神经网络结构的示例性配置的示意图。图11是示出根据本申请的一个实施例的网络的变形层的示例性配置的示意图。图12是示出根据本申请的一个实施例的用于预测装置的示例性框图的示意图。图13是示出根据本申请的一个实施例的如何输出预测的边界框和用于预测的边界框的对应得分的过程的流程图。图14示出根据本申请的其他实施例的用于模型平均单元的操作的流程图。具体实施方式现在将详细参考示例性实施例,这些实施例的示例将在附图中说明。在适当的时候,附图中相同的参考编号始终指代相同或相似部分。图1是示出根据本申请的一个实施例的用于多类别物体检测的示例性系统100的示意图。如图1所示,用于多类别物体检测的系统100可包括训练装置10和预测装置20。训练装置10被配置成获取含有图像集的预定训练集的集合,图像中的每个用边界框(x,y,w,h)进行标识,其中(x,y)=边界框的左上方坐标,h=边界框的高度,以及w=边界框的宽度。在本申请的一个实施例中,每个框含有目标语义物体。训练装置10随后从获取的训练集中确定分类神经网络、检测神经网络、多个(n个)子框检测器和多个(n个)上下文信息检测器。一旦训练装置10已经完成训练过程,预测装置20便可使用网络、子框检测器和上下文检测器来检测图像中的语义类别。预测装置20将图像作为输入,并且输出边界框坐标(x,y,w,h),其中每个框含有目标语义物体。图2是示出根据本申请的一个实施例的训练装置10的示例性框图的示意图。如图所示,训练装置10可包括选择性搜索单元101、区域拒绝单元102、特征学习单元103、子框检测器单元104和上下文信息单元105,这将在下文详细论述。选择性搜索单元101选择性搜索单元101被配置成获取视频的至少一个数字图像,随后提出内部可本文档来自技高网...
用于多类别物体检测的方法和系统

【技术保护点】
一种用于训练多类别物体检测的神经网络的装置,其包括:特征学习单元(103),其被配置成:基于第一训练图像集的训练图像来确定第一神经网络,其中每个图像中具有多个边界框,所述边界框的内部具有物体;和基于所述第一训练图像集的所述训练图像的边界框来确定第二神经网络,随后基于第二训练图像集的训练图像的边界框来进一步微调所述第二神经网络;以及子框检测器单元(104),其被配置成基于所述第二神经网络来确定用于所述第一图像集和所述第二图像集的所述边界框的二类分类器检测器,所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框内部的一个语义物体类别。

【技术特征摘要】
【国外来华专利技术】1.一种用于训练多类别物体检测的神经网络的装置,其包括:特征学习单元(103),其被配置成:基于第一训练图像集的训练图像来确定第一神经网络,其中每个图像中具有多个边界框,所述边界框的内部具有物体;和基于所述第一训练图像集的所述训练图像的边界框来确定第二神经网络,随后基于第二训练图像集的训练图像的边界框来进一步微调所述第二神经网络;以及子框检测器单元(104),其被配置成基于所述第二神经网络来确定用于所述第一图像集和所述第二图像集的所述边界框的二类分类器检测器,所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框内部的一个语义物体类别。2.一种用于训练多类别物体检测的神经网络的装置,其包括:特征学习单元(103),其被配置成基于第一训练图像集的多个边界框来确定第一神经网络,随后基于第二训练图像集的所述图像的边界框来确定第二神经网络;以及子框检测器单元(104),其被配置成基于所述确定的第二神经网络来确定用于所述边界框的二类分类器检测器,所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框内部的一个语义物体类别。3.根据权利要求1或2所述的装置,其中所述确定的第一神经网络操作以给出输入到所述第一神经网络的图像的上下文信息,所述装置还包括:上下文信息单元(105),其被配置成从所述子框检测器单元(104)获取所述二类分类器检测器的所述每个得分和从所述特征学习单元(103)获取所述上下文信息,从而训练用于每个检测类别的二类分类检测器,以预测每个所述边界框。4.根据权利要求3所述的装置,还包括:选择性搜索单元(101),其被配置成获取至少一个输入的图像,随后确定用于每个获取的图像的、在其内部具有物体的边界框。5.根据权利要求3所述的装置,还包括:区域拒绝单元(102),其被配置成基于预定阈值从确定的边界框中过滤掉多个边界框。6.根据权利要求1或2所述的装置,其中所述特征学习单元(103)使用所述第一训练图像集的训练图像通过反向传播算法来确定所述第一神经网络。7.根据权利要求1或2所述的装置,其中所述特征学习单元(103)通过反向传播算法来确定所述第二神经网络。8.一种用于多类别物体检测的装置,包括:特征学习模块(203),其被配置成确定用于输入的图像的每个候选边界框的多个分类特征;子框检测器模块(204),其被配置成利用预先训练的检测神经网络、基于由所述特征学习模块(203)确定的所述分类特征来计算用于每个候选框的多个检测类别得分;以及上下文信息模块,其被配置成连接所计算出的分类类别得分,并且确定所述候选边界框的最终得分,所述最终得分表示所述输入的图像的边界框中的一个边界框的内部的一个语义物体类别。9.一种用于多类别物体检测的系统,其包括:训练装置(10),其被配置成从多个预定训练图像集中确定分类神经网络和检测神经网络;预测装置(20),其包括:特征学习模块(203),其被配置成基于所述检测神经网络来确定用于输入的图像的每个候选边界框的多个特征,其中所述检测神经网络将所述候选边界框作为输入并且操作以输出用于所述候选边界框的检测特征;子框检测器模块(204),其被配置成利用所述分类神经网络、基于所述检测特征来计算用于每个候选边界框的多个分类类别得分;以及上下文信息模块(205),其被配置成连接所计算出的分类类别得分,并且基于所述检测神经网络来确定所述候选边界框的最终得分,所述最终得分表示所述框内部的语义物体类别。10.根据权利要求9所述的系统,其中所述训练装置(10)还包括:特征学习单元(103),其被配置成:基于所述第一训练图像集的训练图像来确定所述分类神经网络,其中所述图像中的每个具有多个边界框,所述边界框的内部具有物体,并且所述确定的分类神经网络输出用于输入到所述分类神经网络的图像的上下文信息;和基于所述第一训练图像集中的图像的边界框来确定所述检测神经网络,随后基于第二训练图像集中的所述图像的边界框来进一步微调所述检测神经网络;以及子框检测器单元(104),其被配置成基于所述检测神经网络来确定用于所述边界框的二类分类器检测器,所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框内部的一个语义物体类别。11.根据权利要求9所述的系统,其中所述训练装置(10)还包括:特征学习单元(103),其被配置成基于第一训练图像集的多个边界框来确定所述分类神经网络,随后基于第二训练图像集的所述图像的边界框来确定所述检测神经网络;以及子框检测器单元(104),其被配置成基于所述检测神经网络来确定用于所述边界框的二类分类器检测器,所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框的一个语义物体类别。12.根据权利要求11或12所述的系统,其中所述确定的分类神经网络能够输出用于输入到所述分类神经网络的图像的上下文信息,并且所述系统还包括:上下文信息单元(105),其被配置成从所述子框检测器单元(104)获取所述二类分类器检测器的得分和从特征学习单元(103)获取所述上下文信息,从而训练用于所述边界框的每个检测类别的二类分类器检测器,以预测每个边界框。13.根据权利要求12所述的系统,还包括:选择性搜索单元(101),其被配置成获取至少一个输入的图像,随后确定用于每个获取的图像的、内部具有物体的边界框。14.根据权利要求13所述的系统,还包括:区域拒绝单元(102),其被配...

【专利技术属性】
技术研发人员:汤晓鸥欧阳万里曾星宇邱石吕健勤王晓刚
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1