分层机器学习网络架构制造技术

技术编号:29688167 阅读:16 留言:0更新日期:2021-08-13 22:13
本文讨论的技术可以包括细化被检测为在传感器数据中表示的对象的分类。例如,细化分类可以包括确定对象的子分类。

【技术实现步骤摘要】
【国外来华专利技术】分层机器学习网络架构
技术介绍
计算机视觉用于许多应用,例如,操作自主车辆、出于安全目的标识个人等。计算机视觉技术可以包括构建从图像标识显著部分的软件组件、以计算机可以用来进行进一步操作的形式向计算机表示图像的显著部分和/或跟踪对象。然而,相对稀有的对象和/或行为可能混淆计算机视觉系统,从而导致计算机视觉系统不正确地分类和/或无法检测对象。例如,稀有的对象可以包括正在推或携带大型对象的行人、玩滑板的人、使用高跷的行人、使用轮椅的个人等。附图说明参考附图描述了具体实施方式。在附图中,附图标记的最左边的数字标识该附图标记首次出现的附图。在不同附图中的相同的附图标记指示相似或相同的项目。图1示出了描绘自主车辆在环境中检测在传感器数据中表示的多个对象的示例场景。图2示出了第一机器学习模型的示例架构的框图。图3描绘了用于改进计算机视觉的准确度和/或改进感知系统的可训练性的示例机器学习模型架构的框图。图4示出了用于确定在传感器数据中表示的对象的子分类的示例过程的流程图。图5示出了用于训练和/或使用子类机器学习(ME)模型的示例系统的框图。具体实施方式本文讨论的技术可以通过例如增加对象检测的准确度和/或增加机器学习(ME)模型的可训练性来改进计算机视觉。可训练性是对ML模型可以以高置信度对真实世界建模的程度(例如,由ML模型确定的概率,其指示ML模型的输出准确地对真实世界建模和/或匹配地面真值(groundtruth)的可能性)和/或训练ML模型以准确地且以高置信度对真实世界进行建模的难度的指示。本文讨论的技术可以包括ML模型结构,其增加ML模型的准确度并增加ML模型的可训练性(例如,降低训练方法的复杂度以实现满足或超过阈值(例如,98%、99%、99.999%)的准确度和/或置信度)。技术可以包括使用第一ML模型从传感器数据(例如,图像、光检测和测距(LIDAR)传感器数据、RADAR传感器数据)中检测对象。第一ML模型可以接收传感器数据,并输出与对象相关联的分类和/或与传感器数据中的由对象的表示占据的一部分相关联的感兴趣区域(ROI)。分类可以表示对象的一般分类,例如,“行人”、“车辆”、“骑行者”、“路标”、“动物”、“交通障碍”(例如,锥标、屏障)等。ROI可以是标识传感器数据的一部分的任何方式,ML模型指示该部分为对应于对象的存在。例如,ROI可以包括:指示被标识为与检测到的对象(例如,“边界框”)相关联的像素的坐标、标识对应于检测到的对象的像素的掩码、LIDAR点云的点等。技术可以包括接收分类,并至少部分地基于分类从多个子类ML模型之中选择子类ML模型。选择子类ML模型可以包括确定一个或多个特征图的子集以将其提供给子类ML模型作为输入。在一些示例中,每个子类ML模型可以与不同的分类相关联,但是应当理解,在另外的或替代示例中,两个子类ML模型可以共享公共分类。例如,第一子类ML模型可以与“行人”分类相关联,第二子类ML模型可以与“车辆”分类相关联,等等。因此,如果第一ML模型输出“行人”分类,则技术可以包括选择第一子类ML模型。在一些示例中,选择组件可以至少部分地基于第一分类向第一子类ML模型提供第一子集,并且至少部分地基于第二分类向第二子类ML模型提供第二子集。这种选择可以通过逻辑语句(例如,switch、if-then等)进行、作为模型中的池化计算的一部分进行、作为另一子网络或其他方式进行。在一些示例中,第一ML模型可以另外地或可替代地输出一个或多个特征图。例如,一个或多个特征图可以包括实例分割特征图、语义分割特征图、检测特征图等。实例分割特征图可以标识图像中的不同对象的离散表示和/或语义分割可以标识与图像中的对象的表示相关联的语义标签,以及提供用于区分相同语义分类的两个对象的唯一标识。“分割”可以包括传感器数据的离散部分的掩码和/或其他标识。例如,在传感器数据包括图像的情况下,分割可以标识图像中的与检测、标签等相关联的像素;在传感器数据包括LIDAR点云的情况下,分割可以包括点云的点的至少一个子集的标识;等等。至少部分地基于选择子类ML模型,技术可以另外地或可替代地包括提供第一ML模型的输出的至少一部分作为对选定的子类ML模型的输入。例如,技术可以包括至少部分地基于由第一模型生成的ROI来裁剪一个或多个特征图和/或对第一模型的输入,并且将裁剪后的(多个)特征图和/或ROI提供给选定的子类ML模型。选定的子类ML模型然后可以至少部分地基于裁剪后的(多个)特征图和/或ROI来评估子类ML模型,由此生成与在传感器数据中检测到的对象相关联的子分类和/或概率。例如,如果第一ML模型生成了与在传感器数据中检测到的对象相关联的一般分类“行人”,则技术可以包括选择与分类“行人”相关联的第一子类ML模型。该子类ML模型可以被配置为尝试标识与对象相关联的“行人”的子分类。例如,“行人”的潜在子类可以包括诸如“推/拉对象的行人”、“拿着对象的行人”、“轮式交通工具上的行人”、“轮椅上的个人”等之类的子类。在一些示例中,可以从第一ML模型接收分类和第一概率,并且可以从选定的子类ML模型接收第二概率和/或子分类。技术可以包括确定第二概率是否满足或超过概率阈值。如果第二概率满足或超过概率阈值,则技术可以包括输出与关联于对象的输出相关联的子分类(例如,输出可以指示感知系统已经从在感知系统处接收到的传感器数据中检测到对象)。在一些示例中,输出可以包括特征图、ROI等中的一个或多个的至少一部分。如果第二概率小于概率阈值,则技术可以包括确定第一概率是否满足或超过概率阈值,并在确定第一概率满足或超过概率阈值时输出与对象的检测相关联的分类。在一些示例中,如果第一概率小于概率阈值,则可以首先不选择子类ML模型,从而无需确定第一概率是否满足或超过概率阈值。在这样的示例中,技术可以包括确定第二概率小于概率阈值,并且输出与对象的检测相关联的分类。在另外的或替代示例中,技术可以包括与第一ML模型相关联的第一概率阈值以及与子类ML模型相关联的第二概率阈值。在一些示例中,第一概率阈值可以大于第二概率阈值,但是在另外的或替代示例中,第一概率阈值可以等于或小于第二概率阈值。在一些示例中,技术可以另外地或可替代地包括通过将损失反向传播通过子类ML模型和/或第一ML模型来训练选定的子类ML模型和/或第一ML模型(例如,针对与子类ML模型相关联的分类)。在一些示例中,可以针对由子类ML模型生成的子类别和/或概率和/或由第一ML模型生成的分类、概率、一个或多个特征图和/或ROI对损失进行反向传播。在一些示例中,可以针对第一ML模型(例如,至少部分地基于指定ROI和/或分类的地面真值)计算第一损失,并且可以针对子类ML模型(例如,至少部分地基于指定分类和/或子分类的地面真值)计算第二损失。在其中使用多个模型的这些示例中,可以使用第二损失来训练子类ML模型和/或可以至少部分地基于反向传播第一损失和/或第二损失来训练第一ML模型(即,端到端地训练模型)。反向传播第二损失以训练第一ML模本文档来自技高网...

【技术保护点】
1.一种系统,包括:/n一个或多个处理器;/n存储处理器可执行指令的存储器,所述处理器可执行指令当由所述一个或多个处理器执行时,使所述系统执行包括以下各项的操作:/n接收传感器数据;/n提供所述传感器数据作为对第一机器学习(ML)模型的输入;/n从所述第一ML模型接收:与所述传感器数据中的对象的表示相关联的分类、与所述分类相关联的第一概率、特征图以及所述传感器数据中的与所述对象的所述表示相关联的感兴趣区域;以及/n从子类ML模型接收子分类以及与所述子分类相关联的第二概率。/n

【技术特征摘要】
【国外来华专利技术】20190102 US 16/238,4751.一种系统,包括:
一个或多个处理器;
存储处理器可执行指令的存储器,所述处理器可执行指令当由所述一个或多个处理器执行时,使所述系统执行包括以下各项的操作:
接收传感器数据;
提供所述传感器数据作为对第一机器学习(ML)模型的输入;
从所述第一ML模型接收:与所述传感器数据中的对象的表示相关联的分类、与所述分类相关联的第一概率、特征图以及所述传感器数据中的与所述对象的所述表示相关联的感兴趣区域;以及
从子类ML模型接收子分类以及与所述子分类相关联的第二概率。


2.根据权利要求1所述的系统,所述操作还包括:
将从所述第一ML模型的第一部分接收到的第一特征图的至少第一部分和从所述第一ML模型的第二部分接收到的第二特征图的至少第二部分输入到所述子类ML模型中。


3.根据权利要求2所述的系统,其中,所述第一部分和所述第二部分是至少部分地基于所述感兴趣区域的。


4.根据权利要求2所述的系统,其中,所述第二特征图包括以下各项中的至少一个:语义分割特征图、实例分割特征图、密集深度特征图或对象定向特征图。


5.根据权利要求1-4中任一项所述的系统,其中,所述操作还包括:
向所述第一ML模型或所述子类ML模型中的至少一个提供地面真值传感器数据,所述地面真值传感器数据与地面真值分类标签和地面真值子分类标签相关联;
至少部分地基于所述第一ML模型的第一输出与地面真值分类标签之间的差异来确定第一损失;
至少部分地基于所述子类ML模型的第二输出与地面真值子分类标签之间的差异来确定第二损失;以及
更改所述第一ML模型的一个或多个第一参数或所述子类ML模型的一个或多个第二参数中的至少一个,以使所述第一损失或所述第二损失中的至少一个最小化。


6.根据权利要求1-5中任一项所述的系统,其中:
所述ML模型的所述第二部分与第一分类相关联,
所述ML模型的第三部分与第二分类相关联,以及
所述第一分类和所述第二分类是与所述ML模型的所述第一部分相关联的候选分类。


7.根据权利要求6所述的系统,其中,所述第一分类和所述第二分类是多个分类中的两个,其中,所述多个分类包括以下各项中的至少两个:
行人分类;
车辆分类;
骑行者分类;
路标分类;
动物分类;以及
交通障碍分类。


8.根据权利要求1-7中任一项所述的系统,其中:
所述第一ML模型包括具有多个第一层的第一神经网络;以及
所述子类ML模型包括具有多个第二层的第二神经网络。


9.根据权利要求1-8中任一项所述的系统,其中:
所述第一ML模型包括神经网络的具有多个第一层的第一部分;以及
所述子类ML模型包括所述神经网络的具有多个第二层的第二部分...

【专利技术属性】
技术研发人员:K·戈埃尔S·塔里克
申请(专利权)人:祖克斯有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1