使用基于区域的深度学习模型的对象检测的方法和设备技术

技术编号:18238221 阅读:117 留言:0更新日期:2018-06-17 01:41
描述使用基于区域的深度学习模型的对象检测的方法和设备。一方面,提供一种方法,其中,区域建议网络(RPN)用于通过分配置信水平识别图像中的感兴趣区域(RoI),分配的RoI的置信水平用于提高由下游分类器分配给RoI的背景分数,背景分数用于柔性最大值函数以计算每个对象类的最终类概率。 1

Object detection method and device using region based deep learning model

A method and device for object detection using a region based deep learning model are described. On the one hand, a method is provided, in which the area recommendation network (RPN) is used to identify the region of interest (RoI) in the image by assigning confidence levels, and the confidence level of the assigned RoI is used to improve the background score allocated to the RoI by the downstream classifier, and the background fraction is used for the flexible maximum function to calculate the final class of each object class. Probability. One

【技术实现步骤摘要】
使用基于区域的深度学习模型的对象检测的方法和设备本申请要求于2016年12月7日提交到美国专利商标局的第62/431,086号美国临时专利申请的优先权以及于2017年4月4日提交到美国专利商标局的第15/478,947号美国非临时专利申请的优先权,所述美国专利申请的全部内容通过引用合并于此。
本公开总体涉及机器学习,更具体地讲,涉及用于对象检测的深度学习机的系统和方法。
技术介绍
机器学习技术正不断发展并且已经开始支持从网络搜索、内容过滤、商业网站上的自动推荐、自动博弈到对象检测、图像分类、语音识别、机器翻译以及药物发现和基因组学的现代社会的很多方面。机器学习的领域中的当前技术状态为深度神经网络,其使用由利用多级抽象来学习数据(通常,非常大量的数据)的表示的多个处理层组成的计算模型—因此,称为术语“深度学习”、“深层网络”等。参见,例如,LeCun,Yann,YoshuaBengio和GeoffreyHinton.“Deeplearning.”Nature,vol.521,pp.436-444(28May2015),其通过引用全部合并于此。深度学习方法对于一般的对象检测已经显示出优越的性能。然而,即使使用深度学习,特定对象和/或特定情况的检测也更加困难。具有很多现实应用(诸如,自主驾驶和高级驾驶辅助系统)的行人检测是经由深度学习的检测多少受到各种限制结果的一个领域。
技术实现思路
根据本公开的一方面,提供一种使用基于区域的深度学习模型的对象检测的方法,所述方法包括:使用区域建议网络(RPN)通过分配置信水平来识别图像中的感兴趣区域(RoI);使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数;在柔性最大值函数中使用分数来计算每个对象类的最终类概率。根据本公开的一方面,提供一种能够使用基于区域的深度学习模型进行对象检测的设备,所述设备包括一个或多个非暂时性计算机可读介质和至少一个处理器,其中,所述至少一个处理器在执行存储在所述一个或多个非暂时性计算机可读介质中的指令时,执行以下步骤:使用区域建议网络(RPN)通过分配置信水平来识别图像中的感兴趣区域(RoI),使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数,在柔性最大值函数中使用分数来计算每个对象类的最终类概率。根据本公开的一方面,提供一种方法,包括制造芯片组,其中,所述芯片组包括至少一个处理器和一个或多个非暂时性计算机可读介质,其中,所述至少一个处理器在执行存储在所述一个或多个非暂时性计算机可读介质中的指令时,执行以下步骤:使用区域建议网络(RPN)通过分配置信水平来识别图像中的感兴趣区域(RoI);使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数;在柔性最大值函数中使用分数来计算每个对象类的最终类概率;所述一个或多个非暂时性计算机可读介质存储所述指令。根据本公开的一方面,提供一种测设设备的方法,包括:测试设备是否具有至少一个处理器,其中,所述至少一个处理器在执行存储在一个或多个非暂时性计算机可读介质上的指令时,执行以下步骤:使用区域建议网络(RPN)通过分配置信水平来识别图像中的感兴趣区域(RoI);使用分配的RoI的置信水平来提高由下游分类器分配给每个RoI的背景分数;在柔性最大值函数中使用分数来计算每个对象类的最终类概率;测试所述设备是否具有所述一个或多个非暂时性计算机可读介质,其中,所述一个或多个非暂时性计算机可读介质存储所述指令。附图说明通过结合附图的下面的详细描述,本公开的一些实施例的上面和其他方面、特征和优点将变得更清楚,其中:图1是示出根据本公开的实施例的快速的基于区域的卷积神经网络(R-CNN:Region-basedConvolutionalNeuralNetwork)的框图;图2是示出根据本公开的实施例的基于区域的全卷积网络(R-FCN:Region-basedFullyConvolutionalNetwork)的框图;图3是示出根据本公开的实施例的网络的构造的框图;图4是根据本公开的实施例的方法的流程图;图5是示出应用本公开的实施例的深度卷积神经网络的示例的框图;图6示出根据一个实施例的用于制造和测试本设备的示例性流程图。具体实施方式在下文中,参照附图详细地描述本公开的实施例。应注意,虽然相同的元件在不同的附图中被示出,但是他们由相同的参考标记表示。在下面的描述中,仅提供诸如详细的配置和组件的具体细节以帮助全面理解本公开的实施例。因此,本领域的技术人员应清楚:在不脱离本公开的范围的情况下,可对在此描述的实施例进行各种改变和修改。此外,为了清楚和简明,省略对公知的功能和构造的描述。下面描述的术语是在考虑本公开中的功能的情况下定义的术语,并且可根据用户、用户的意愿或习惯而不同。因此,应根据贯穿说明书的内容来确定术语的定义。本公开可具有各种修改和各种实施例,其中,下面参照附图详细描述各种修改和各种实施例中的实施例。然而,应理解,本公开不限于所述实施例,而是包括本公开的范围内的所有的修改、等同物和替代物。虽然包括序数(诸如,第一和第二)的术语可用于描述各种元件,但是结构元件不受这些术语限制。这些术语仅用于区分一个元件与另一个元件。例如,在不脱离本公开的范围的情况下,第一结构元件可被称为第二结构元件。类似地,第二结构元件也可被称为第一结构元件。如在此使用的,术语“和/或”包括一个或多个相关联的项的任何和所有组合。在此的术语仅用于描述本公开的各种实施例,而不是意图限制本公开。除非上下文清楚地另有指示,否则单数形式也意图包括复数形式。在本公开中,应理解,术语“包括”或“具有”表示存在特征、数量、步骤、操作、结构元件、部件或它们的组合,并且不排除存在一个或多个其他特征、数量、步骤、操作、结构元件、部件或它们的组合或者添加一个或多个其他特征、数量、步骤、操作、结构元件、部件或它们的组合的可能。除非有不同的定义,否则在此使用的所有的术语具有与本公开所属领域的技术人员理解的含义相同的含义。除非在本公开中清楚地定义,否则术语(诸如,通用字典中定义的术语)将被解释为具有与相关
中的语境含义相同的含义,而不被解释为具有理想化或过于正式的含义。各种实施例可包括一个或多个元件。元件可包括被布置为执行特定操作的任意结构。虽然可通过示例的方式在特定布置下具有有限数量的元件来描述实施例,但是这种实施例可包括如给定实施方式所期望的可替换布置下的更多或更少的元件。值得注意的是,对“一个实施例”或“实施例”的任何引用表示针对该实施例描述的特定特征、结构或特性被包括在至少一个实施例中。在说明书的不同位置出现的短语“一个实施例”(或“实施例”)不一定表示同一实施例。如上阐述的,虽然深度学习方法对于一般对象检测已经显示出优越的性能,但是他们在行人检测上的性能则受到限制。快速的基于区域的卷积神经网络(R-CNN)已经是用于一般对象检测的实际框架。然而,这个框架遭受高的误检率(falsepositiverate)的影响,即,背景区域被检测为属于预定对象类别(前景)的集合的对象(如,人)。因此,快速的R-CNN具有关于行人检测的受限制的结果。本公开的实施例通过使用区域建议网络(RPN)分数提高由快速R-本文档来自技高网
...
使用基于区域的深度学习模型的对象检测的方法和设备

【技术保护点】
1.一种使用基于区域的深度学习模型的对象检测的方法,包括:

【技术特征摘要】
2016.12.07 US 62/431,086;2017.04.04 US 15/478,9471.一种使用基于区域的深度学习模型的对象检测的方法,包括:使用区域建议网络通过分配置信水平来识别图像中的感兴趣区域;使用分配的感兴趣区域的置信水平来提高由下游分类器分配给每个感兴趣区域的背景分数;在柔性最大值函数中使用提高的背景分数来计算每个对象类的最终类概率。2.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,对象检测为行人检测。3.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,基于区域的深度学习模型为快速的基于区域的卷积神经网络。4.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,基于区域的深度学习模型为基于区域的全卷积网络。5.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,置信水平包括感兴趣区域为背景的概率PB和感兴趣区域为前景的概率PF。6.根据权利要求5所述的使用基于区域的深度学习模型的对象检测的方法,其中,由下游分类器分配给感兴趣区域的背景分数是s0,根据以下公式提高s0:7.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,使用分配的感兴趣区域的置信水平来提高由下游分配器分配给每个感兴趣区域的背景分数的步骤包括:迭代地精细化提高的背景分数。8.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,还使用语义分割掩码提高由下游分类器分配给每个感兴趣区域的背景分数。9.根据权利要求1所述的使用基于区域的深度学习模型的对象检测的方法,其中,还使用光流大小来提高由下游分类器分配给每个感兴趣区域的背景分数。10.一种能够使用基于区域的深度学习模型进行对象检测的设备,包括:一个或多个非暂时性计算机可读介质;至少一个处理器,当执行存储在所述一个或多个非暂时性计算机可读介质中的指令时,执行以下步骤:使用区域建议网络通过分配置信水平来识别图像中的感兴趣区域;使用分配的感兴趣区域的置信水平来提高由下游分类器分配给每个感兴趣区域的背景分数;在柔性最大值函数中使用提高的背景分数来计算每个对象类的最终类概率。11.根据权利要求10所述的能够...

【专利技术属性】
技术研发人员:阿尔温德·叶德拉李正元马赛尔·纳萨尔穆斯塔法·艾尔可哈米
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1