当前位置: 首页 > 专利查询>哲晰公司专利>正文

经注释的数据集的迭代细化制造技术

技术编号:38528366 阅读:31 留言:0更新日期:2023-08-19 17:03
公开了一种经注释的数据集的迭代细化。本发明专利技术涉及一种用于改善用于训练机器学习算法的经注释的数据集的方法。更具体地,本发明专利技术涉及一种采用迭代方案的方法,其中,使用机器学习算法对经注释的数据集进行训练,并且随后通过将经注释的数据集馈送到机器学习算法中来用于评估经注释的数据集,以从输入数据集中提取错误的数据集,其中,错误的数据集包括与经注释的数据集中的注释错误和/或缺失注释的指示关联的图像。然后,错误的数据集被重新注释,并且重复训练和评估步骤,直到经注释的数据集的具有注释错误和/或缺失注释的图像的数量低于阈值。于阈值。于阈值。

【技术实现步骤摘要】
经注释的数据集的迭代细化


[0001]本专利技术涉及计算机科学和机器学习的通常领域。特别地,本专利技术涉及用于改善用于训练适用于自动驾驶应用的机器学习算法的经注释的数据集的方法。

技术介绍

[0002]自主系统具有独立于直接人类控制并且在未经排练的条件下行动的能力。这些系统使得诸如无人驾驶汽车、人形机器人和邮政无人机的全范围的应用成为可能。
[0003]机器学习在感知领域是一项有前途的技术,例如为了检测和分类图像、视频流和/或LIDAR点云中的对象。然而,伴随诸如神经网络的机器学习算法的问题在于它们快速达到一些性能水平(成熟度),并且然后需要极大量的数据以获得真正高的性能。
[0004]更详细地,诸如神经网络的机器学习算法的训练常常需要大量的经注释/经标记的数据。在计算机视觉对象检测的情况下,这种注释可以例如包括在大量的图像上标记汽车、行人和交通标志等的存在,并且然后训练神经网络来预测它们的存在、位置、与观察者的距离等。简而言之,这样的机器学习算法预测的每个属性需要数据集中的一些标记。
[0005]神经网络在解决其目的时本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于改善用于训练机器学习算法的经注释的数据集的方法,所述方法包括:i)凭借第一机器学习算法注释(S201)数据集,其中,所述数据集包括多个图像,并且其中,所述第一机器学习算法被配置为通过为包括在所述多个图像中的一个或多个特征生成注释来注释所述多个图像;ii)基于所述经注释的数据集的至少第一子集来训练(S102)第二机器学习算法;iii)通过以下步骤来评估所述经注释的数据集:a.使用(S103)所述经注释的数据集的至少第二子集作为用于所述经训练的第二机器学习算法的输入数据集,以生成包括所述一个或多个特征的预测的输出数据集,以及b.将由所述经训练的第二机器学习算法生成的所述预测与由所述第一机器学习算法生成的所述注释进行比较(S104),以从所述输入数据集提取错误的数据集,其中,所述错误的数据集包括与所述经注释的数据集中的注释错误和/或缺失注释的指示关联的图像;iv)重新注释(S202)所述错误的数据集,以形成经重新注释的数据集;v)对所述经重新注释的数据集重复步骤ii)并重复步骤iii)至步骤iv),直到与注释错误和/或缺失注释的指示关联的图像的数量低于阈值。2.根据权利要求1所述的方法,进一步包括:当所述与注释错误和/或缺失注释的指示关联的图像的数量低于所述阈值时,基于在最后迭代中使用的所述经重新注释的数据集来训练(S203)所述第一机器学习算法。3.根据权利要求1或2中的任何一项所述的方法,其中,所述数据集包括以下中的至少一者:多个单目相机图像;多个立体相机图像;多个雷达图像;以及多个LiDAR图像。4.根据权利要求1至3中的任何一项所述的方法,其中,所述第二机器学习算法的所述训练(S102)包括用所述第一子集和所述注释中使用的所述数据集的对应的子集来使用监督学习,其中,所述第一子集形成用于所述注释中使用的所述数据集的所述对应的子集的监督信号。5.根据权利要求1至3中的任何一项所述的方法,其中,所述第二机器学习算法是分类机器学习算法,并且其中,所述注释错误的指示由低于阈值的所述预测的置信度分数定义。6.根据权利要求1至3中的任何一项所述的方法,其中,所述第二机器学习算法是回归机器学习算法,并且其中,所述注释错误的指示由超过阈值的所述输出数据集中的所述预测与所述经注释的数据集中的所述对应的注释之间的错误度量定义。7.一种用于改善用于训练机器学习算法的经注释的数据集的方法,所述方法包括:i)获得包括多个图像和包括在所述多个图像中的一个或多个特征的注释的经注释的数据集;ii)基于所述经注释的数据集的至少第一子集来训练(S102)机器学习算法;iii)通过以下步骤来评估所述经注释的数据集:a.使用(S103)所述经注释的数据集的至少第二子集作为用于所述经训练的机器学习算法的输入数据集,以生成包括所述一个或多个特征的预测的输出数据集,以及
b.将由所述经训练的机器学习算法生成的所述预测与由所述第一机器学习算法生成的所述注释进行比较(S104),以从所述输入数据集提取错误的数据集,其中,所述错误的数据集包括与所述经注释的数据集中的注...

【专利技术属性】
技术研发人员:威兰姆
申请(专利权)人:哲晰公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1