A device for training a neural network of multi class object detection is disclosed. The device may include a feature learning unit and a subframe detector unit. According to one embodiment of the application, the characteristics of learning unit is configured to determine the first neural network training based on the image of the first set of training images, each image has more than one bounding box, inside the bounding box of the object is first, the neural network and the determined to give the context information of the input image and image; the first training image focus the bounding box is determined based on the second neural network, then based on the second image training set bounding box to further fine tune the second neural network. The sub frame detector unit is configured to determine the bounding box for the sub frame detector based on neural network score second, each sub frame detector for a score prediction value of a semantic object categories a bounding box of the.
【技术实现步骤摘要】
【国外来华专利技术】用于多类别物体检测的方法和系统
本申请涉及多类别物体检测的方法和系统,其目标是自动检测视频的数字图像中的不同类别的物体的实例。
技术介绍
物体检测的目标是检测数字图像和视频中的某一类别的物体的实例。物体检测系统的性能很大程度上取决于图像表示,图像表示的质量可受到多种变化的影响,诸如,视角、照明、姿势和遮挡。归因于此类不可控制的因素,设计足够有辨别力以表示大量物体类别的稳健图像表示是很有意义的。已经付出大量的努力致力于设计用于表示图像的手工制作的特征,诸如,Gabor、SIFT和HOG。通常,基于物体检测的手工制作的特征涉及使用多重尺度在图像的关键点上提取多个特征,并且将它们连接成高维特征向量。深度卷积神经网络(CNN)已经应用于直接从原始像素中习得特征。至于物体检测任务,现有的深度CNN学习方法通过使用不具有基本真实边界框的图像来预先训练CNN,随后使用具有基本真实边界框的另一图像集来微调深度神经网络。通常,与用于预先训练的图像集相比,用于微调的图像集具有较少量的语义类别数量。此外,用于微调的图像集中的语义类别的数量等于我们想要检测的实际类别的数量。
技术实现思路
一方面,公开用于训练多类别物体检测的神经网络的装置。该装置可包括特征学习单元和子框检测器单元。根据本申请的一个实施例,特征学习单元被配置成:基于第一训练图像集的训练图像来确定第一神经网络,其中训练图像中的每个具有多个边界框,边界框的内部具有物体;以及基于第一训练图像集的训练图像的边界框来确定第二神经网络,随后基于第二训练集的训练图像的边界框来进一步微调第二神经网络。子框检测器单元被配置成基于第二神经 ...
【技术保护点】
一种用于训练多类别物体检测的神经网络的装置,其包括:特征学习单元(103),其被配置成:基于第一训练图像集的训练图像来确定第一神经网络,其中每个图像中具有多个边界框,所述边界框的内部具有物体;和基于所述第一训练图像集的所述训练图像的边界框来确定第二神经网络,随后基于第二训练图像集的训练图像的边界框来进一步微调所述第二神经网络;以及子框检测器单元(104),其被配置成基于所述第二神经网络来确定用于所述第一图像集和所述第二图像集的所述边界框的二类分类器检测器,所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框内部的一个语义物体类别。
【技术特征摘要】
【国外来华专利技术】1.一种用于训练多类别物体检测的神经网络的装置,其包括:特征学习单元(103),其被配置成:基于第一训练图像集的训练图像来确定第一神经网络,其中每个图像中具有多个边界框,所述边界框的内部具有物体;和基于所述第一训练图像集的所述训练图像的边界框来确定第二神经网络,随后基于第二训练图像集的训练图像的边界框来进一步微调所述第二神经网络;以及子框检测器单元(104),其被配置成基于所述第二神经网络来确定用于所述第一图像集和所述第二图像集的所述边界框的二类分类器检测器,所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框内部的一个语义物体类别。2.一种用于训练多类别物体检测的神经网络的装置,其包括:特征学习单元(103),其被配置成基于第一训练图像集的多个边界框来确定第一神经网络,随后基于第二训练图像集的所述图像的边界框来确定第二神经网络;以及子框检测器单元(104),其被配置成基于所述确定的第二神经网络来确定用于所述边界框的二类分类器检测器,所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框内部的一个语义物体类别。3.根据权利要求1或2所述的装置,其中所述确定的第一神经网络操作以给出输入到所述第一神经网络的图像的上下文信息,所述装置还包括:上下文信息单元(105),其被配置成从所述子框检测器单元(104)获取所述二类分类器检测器的所述每个得分和从所述特征学习单元(103)获取所述上下文信息,从而训练用于每个检测类别的二类分类检测器,以预测每个所述边界框。4.根据权利要求3所述的装置,还包括:选择性搜索单元(101),其被配置成获取至少一个输入的图像,随后确定用于每个获取的图像的、在其内部具有物体的边界框。5.根据权利要求3所述的装置,还包括:区域拒绝单元(102),其被配置成基于预定阈值从确定的边界框中过滤掉多个边界框。6.根据权利要求1或2所述的装置,其中所述特征学习单元(103)使用所述第一训练图像集的训练图像通过反向传播算法来确定所述第一神经网络。7.根据权利要求1或2所述的装置,其中所述特征学习单元(103)通过反向传播算法来确定所述第二神经网络。8.一种用于多类别物体检测的装置,包括:特征学习模块(203),其被配置成确定用于输入的图像的每个候选边界框的多个分类特征;子框检测器模块(204),其被配置成利用预先训练的检测神经网络、基于由所述特征学习模块(203)确定的所述分类特征来计算用于每个候选框的多个检测类别得分;以及上下文信息模块,其被配置成连接所计算出的分类类别得分,并且确定所述候选边界框的最终得分,所述最终得分表示所述输入的图像的边界框中的一个边界框的内部的一个语义物体类别。9.一种用于多类别物体检测的系统,其包括:训练装置(10),其被配置成从多个预定训练图像集中确定分类神经网络和检测神经网络;预测装置(20),其包括:特征学习模块(203),其被配置成基于所述检测神经网络来确定用于输入的图像的每个候选边界框的多个特征,其中所述检测神经网络将所述候选边界框作为输入并且操作以输出用于所述候选边界框的检测特征;子框检测器模块(204),其被配置成利用所述分类神经网络、基于所述检测特征来计算用于每个候选边界框的多个分类类别得分;以及上下文信息模块(205),其被配置成连接所计算出的分类类别得分,并且基于所述检测神经网络来确定所述候选边界框的最终得分,所述最终得分表示所述框内部的语义物体类别。10.根据权利要求9所述的系统,其中所述训练装置(10)还包括:特征学习单元(103),其被配置成:基于所述第一训练图像集的训练图像来确定所述分类神经网络,其中所述图像中的每个具有多个边界框,所述边界框的内部具有物体,并且所述确定的分类神经网络输出用于输入到所述分类神经网络的图像的上下文信息;和基于所述第一训练图像集中的图像的边界框来确定所述检测神经网络,随后基于第二训练图像集中的所述图像的边界框来进一步微调所述检测神经网络;以及子框检测器单元(104),其被配置成基于所述检测神经网络来确定用于所述边界框的二类分类器检测器,所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框内部的一个语义物体类别。11.根据权利要求9所述的系统,其中所述训练装置(10)还包括:特征学习单元(103),其被配置成基于第一训练图像集的多个边界框来确定所述分类神经网络,随后基于第二训练图像集的所述图像的边界框来确定所述检测神经网络;以及子框检测器单元(104),其被配置成基于所述检测神经网络来确定用于所述边界框的二类分类器检测器,所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框的一个语义物体类别。12.根据权利要求11或12所述的系统,其中所述确定的分类神经网络能够输出用于输入到所述分类神经网络的图像的上下文信息,并且所述系统还包括:上下文信息单元(105),其被配置成从所述子框检测器单元(104)获取所述二类分类器检测器的得分和从特征学习单元(103)获取所述上下文信息,从而训练用于所述边界框的每个检测类别的二类分类器检测器,以预测每个边界框。13.根据权利要求12所述的系统,还包括:选择性搜索单元(101),其被配置成获取至少一个输入的图像,随后确定用于每个获取的图像的、内部具有物体的边界框。14.根据权利要求13所述的系统,还包括:区域拒绝单元(102),其被配...
【专利技术属性】
技术研发人员:汤晓鸥,欧阳万里,曾星宇,邱石,吕健勤,王晓刚,
申请(专利权)人:北京市商汤科技开发有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。