基于自动驾驶的数据清洗方法、装置、设备及存储介质制造方法及图纸

技术编号:37487569 阅读:42 留言:0更新日期:2023-05-07 09:26
本发明专利技术公开基于自动驾驶的数据清洗方法、装置、设备及存储介质,该方法包括:当标注规则发生变化时,获取基于变化后的标注规则进行标注的样本数据集,采用样本数据集训练目标模型,获取与当前标注规则相关的全量样本集,全量样本集包括在标注规则发生变化前,采用变化前的标注规则标注的样本数据,分别将全量样本集中的各样本数据输入至目标模型,并获取目标模型针对各样本数据输出的结果,根据该结果判断当前样本数据是否为需要进行重新标注的目标样本数据,实现在标注规则发生改变,需要频繁、大量地修改部分不符合新的标注规则的内容时,可以快速地确定需要重新标注的目标样本数据,节约了大量的人力物力,提高了修改标注的效率。效率。效率。

【技术实现步骤摘要】
基于自动驾驶的数据清洗方法、装置、设备及存储介质


[0001]本专利技术属于数据处理的
,尤其涉及基于自动驾驶的数据清洗方法、装置、设备及存储介质。

技术介绍

[0002]在自动驾驶场景下会有大量的数据标注需求,但由于自动驾驶数据标注和处理是一个全新的领域,原有的经验难以完全应用与此,故自动驾驶数据的标注是一个不断试错和纠正的过程。
[0003]在标注的早期可能因为部分标注规则不完善或不合理,产生了部分脏数据,在每次修改标注规则后,都需要利用新的标注规则对所有的数据进行检查并重新标注原来产生的脏数据,这样的方式耗费的人力物力成本很高。

技术实现思路

[0004]本专利技术提供了基于自动驾驶的数据清洗方法、装置、设备及存储介质,以解决目前在自动驾驶领域中,当数据标注规则发生改变时,需要耗费大量的人力物力处理原来已标注的数据的问题。
[0005]根据本专利技术的第一方面,提供了一种基于自动驾驶的数据清洗方法,所述方法包括:
[0006]当标注规则发生变化时,获取基于变化后的标注规则进行标注的样本数据集;本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自动驾驶的数据清洗方法,其特征在于,所述方法包括:当标注规则发生变化时,获取基于变化后的标注规则进行标注的样本数据集;采用所述样本数据集训练目标模型;获取与当前标注规则相关的全量样本集,所述全量样本集包括在所述标注规则发生变化前,采用变化前的标注规则标注的样本数据;分别将所述全量样本集中的各样本数据输入至所述目标模型,并获取所述目标模型针对各样本数据输出的结果;根据该结果判断当前样本数据是否为需要进行重新标注的目标样本数据。2.根据权利要求1所述的方法,其特征在于,所述结果包括所述目标模型不同阶段输出的结果;所述根据该结果判断当前样本数据是否为需要进行重新标注的目标样本数据,包括:将所述目标模型不同阶段输出的结果进行汇总,得到第一最终结果;将第一最终结果不满足设定条件的样本数据作为需要进行重新标注的目标样本数据。3.根据权利要求1所述的方法,其特征在于,所述目标模型包括至少两个;所述根据该结果判断当前样本数据是否为需要进行重新标注的目标样本数据,包括:将各目标模型针对当前样本数据输出的结果进行汇总,得到第二最终结果;将第二最终结果不满足设定条件的样本数据作为需要进行重新标注的目标样本数据。4.根据权利要求1所述的方法,其特征在于,所述结果包括预测概率;所述根据该结果判断当前样本数据是否为需要进行重新标注的目标样本数据,包括:将预测概率低于设定阈值的样本数据作为需要进行重新标注的目标样本数据。5.根据权利要求1

4任一项所述的方法,其特征在于,所述方法还包括:确定已识别出的各目标样本数据所属的样本类别;计算各样本类别对应的目标样本数据的占比;若存在占比超过设定占比阈值的样本类别,则将全量样本数据集中未进行识别的该样本类别对应的样本数据,作为目标样本数据。6.根据权利要求1

【专利技术属性】
技术研发人员:余斌熊腾浩
申请(专利权)人:广州文远知行科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1