自动选择用于注释的数据样本制造技术

技术编号：29503217 阅读：15 留言：0更新日期：2021-07-30 19:18

描述了用于自动选择用于注释的数据样本的技术等。该技术使用基于边界框得分分布的边界框预测、根据边界框大小和位置所确定的空间概率密度以及根据多个机器学习模型的输出所确定的整体得分方差来选择用于注释的数据样本。在实施例中，使用时间不一致性线索来选择用于注释的数据样本。在实施例中，使用数字地图约束或其它基于地图的数据来将数据样本排除于注释。在示例性应用中，使用注释的数据样本来训练输出自主运载工具应用的感知数据的机器学习模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】自动选择用于注释的数据样本相关申请的交叉引用本申请要求于2019年1月23日提交的美国临时申请62/796,064的权益。
本说明书涉及机器学习，并且更具体地涉及使用主动学习技术来自动选择用于注释的数据样本。
技术介绍
卷积神经网络(CNN)已经成功地用于自主驾驶应用中的感知任务。CNN结构包括通过训练数据而学习的层。学习对图像和视频样本进行分类需要人类注释员用标签对各数据样本进行标记。必须对成千上万的数据样本进行注释是乏味且冗余的。
技术实现思路
公开了一种用于从数据样本池中自动地选择数据样本(例如，图像、点云)以供人类进行注释的主动学习系统和方法。该系统和方法使用基于边界框得分概率分布的边界框预测、根据数据样本中的边界框大小和位置所确定的空间概率密度以及根据多个机器学习模型的输出所确定的整体得分方差来选择用于注释的数据样本。在实施例中，使用时间不一致性线索来选择具有时间噪声(例如，闪烁)的注释数据样本(例如，连续视频帧)。在实施例中，使用数字地图来从注释数据样本中排除违反地图约束(硬约束和/或统计约束)的样本。在示例性应用中，使用注释数据样本来训练机器学习模型(例如，CNN)，该机器学习模型输出自主运载工具应用所用的感知数据(例如，所标记的对象和场景)。在实施例中，该主动学习系统在自主运载工具的规划模块中实现。所公开的主动学习系统的优点包括从大样本池中自动选择用于人类注释的数据子集，从而减少人工准备用于自主运载工具应用的机器学习模型的训练数据集的时间量和成本。在...

【技术保护点】
1.一种方法，包括：/n使用一个或多个处理器获得数据样本集合，其中，各数据样本包括一个或多个边界框，各边界框包含环境中的潜在对象或场景，各边界框具有标签和指示所述标签正确的置信度的边界框得分；以及/n使用所述一个或多个处理器基于边界框预测置信度和整体得分方差来选择用于注释的数据样本子集，所述边界框预测置信度是使用边界框得分的概率分布来确定的，以及所述整体得分方差基于根据由多个机器学习模型所输出的预测集合所计算出的整体得分的差。/n

【技术特征摘要】
【国外来华专利技术】20190123 US 62/796,0641.一种方法，包括：
使用一个或多个处理器获得数据样本集合，其中，各数据样本包括一个或多个边界框，各边界框包含环境中的潜在对象或场景，各边界框具有标签和指示所述标签正确的置信度的边界框得分；以及
使用所述一个或多个处理器基于边界框预测置信度和整体得分方差来选择用于注释的数据样本子集，所述边界框预测置信度是使用边界框得分的概率分布来确定的，以及所述整体得分方差基于根据由多个机器学习模型所输出的预测集合所计算出的整体得分的差。

2.根据权利要求2所述的方法，还包括：
使用所述一个或多个处理器基于所述边界框预测置信度、由边界框大小和位置参数化的所述边界框的空间概率密度、以及所述整体得分方差来选择用于注释的所述数据样本子集。

3.根据权利要求1所述的方法，其中，所述边界框预测还包括：
针对各标签：
生成边界框得分的概率分布；
基于所述分布来确定特定边界框未正确标记的可能性；以及
基于所述可能性来选择所述特定边界框用于注释或将所述特定边界框排除于注释。

4.根据权利要求3所述的方法，其中，所述分布由具有表示边界框得分的范围的区间的直方图近似，并且各区间与可能性相关联。

5.根据权利要求4所述的方法，其中，针对各区间，根据分配给该区间的未正确标记的边界框的数量与分配给该区间的所述未正确标记的边界框的数量和标记的边界框的数量之和的比率来计算所述可能性。

6.根据权利要求2所述的方法，还包括：
针对各标签、传感器和尺度：
针对所述标签、传感器和尺度，在边界框集合上使用高斯混合模型即GMM来确定所述空间概率密度，其中，所述GMM通过边界框大小和位置来参数化。

7.根据权利要求6所述的方法，其中，所述标签的空间概率密度是通过将该标签的空间密度除以该标签的所有空间密度值中的最大密度值来确定的。

8.根据权利要求1所述的方法，还包括：
通过多个不同的机器学习模型处理所述数据样本以生成预测的标记边界框；
计算对预测的标记边界框的各成对比较的整体得分，其中，各预测的标记边界框是用于与其它预测的标记边界框进行比较的地面真值；以及
基于所述整体得分来计算整体得分方差。

9.根据权利要求8所述的方法，其中，所述多个不同的机器学习模型包括通过由不同类型的传感器所提供的训练数据样本调谐的多个不同的神经网络。

10.根据权利要求9所述的方法，其中，所述不同类型的传感器包括光检测和测距即LiDAR、雷达和照相机。

11.根据权利要求9所述的方法，其中，所述多个不同的神经网络是在不同随机顺序的训练数据样本上被训练的。

12.根据权利要求1所述的方法，还包括：
通过所述一个或多个处理器检测连续数据样本之间的时间不一致性；
根据检测到所述时间不一致性而选择所述连续数据样本中的至少一个数据样本用于注释。

13.根据权利要求1所述的方法，还包括：
通过所述一个或多个处理器使用地图约束来检测与边界框相关联的错误；以及
根据检测到所述错误而将所述边界框排除于注释。

14...

【专利技术属性】
技术研发人员：H·凯撒，
申请(专利权)人：动态AD有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人