样本数据处理方法、装置、电子设备及介质制造方法及图纸

技术编号:33615630 阅读:70 留言:0更新日期:2022-06-02 00:29
本公开实施例提供了一种样本数据处理方法、样本数据处理装置、电子设备及计算机可读介质;涉及大数据处理技术领域。该样本数据处理方法包括:步骤S1:利用包含标注的训练数据集训练获得筛选模型;步骤S2:获取待处理样本数据,对所述待处理样本数据进行初次标注;步骤S3:通过所述筛选模型输出所述待处理样本数据的处理结果,其中,所述处理结果包括置信度,根据所述处理结果提取所述待处理样本中的可用样本,其中所述筛选模型对所述可用样本输出的置信度小于第一阈值;步骤S4:利用所述初次标注对所述可用样本进行二次标注,将所述包含二次标注的可用样本扩充所述训练数据集。本公开实施例的技术方案能够提高样本标注的效率和准确性。和准确性。和准确性。

【技术实现步骤摘要】
样本数据处理方法、装置、电子设备及介质


[0001]本公开涉及大数据处理
,具体而言,涉及一种样本数据处理方法、样本数据处理装置、电子设备和计算机可读介质。

技术介绍

[0002]近年来,机器学习技术的发展越来越快,已经逐步成为了各个领域的核心技术,例如图像识别、自然语言处理、自动驾驶等等。机器学习技术需要获得样本数据,然后对样本数据进行标记,才能建立样本数据的输入与输出之间的映射关系,获得模型,因此样本数据的标注非常重要。
[0003]样本数据的标记目前主要依赖于人工进行,虽然人工标注的标注精度较高,但其效率很低,成本高,因此提高样本标注效率成为了研究的焦点。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开实施例的目的在于提供一种样本数据处理方法、样本数据处理装置、电子设备和计算机可读介质,能够自动地对样本数据进行初次标注,通过初次标注筛选出质量较高的可用样本,再进行二次标注得到精确度更高的标注样本,提高样本数据的标注效率,以及标注的准确性。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开实施例的第一方面,提供了一种样本数据处理方法,包括:步骤S1:利用包含标注的训练数据集训练获得筛选模型;步骤S2:获取待处理样本数据,对所述待处理样本数据进行初次标注;步骤S3:通过所述筛选模型输出所述待处理样本数据的处理结果,其中,所述处理结果包括置信度,根据所述处理结果提取所述待处理样本中的可用样本,其中所述筛选模型对所述可用样本输出的置信度小于第一阈值;步骤S4:利用所述初次标注对所述可用样本进行二次标注,将所述包含二次标注的可用样本扩充所述训练数据集。
[0008]在本公开的示例性实施方式中,所述方法还包括:步骤S5:通过扩充后的所述训练数据集对所述筛选模型进行更新,并更新所述待处理样本数据;步骤S6:通过更新后的所述筛选模型、所述更新后的待处理样本数据循环执行所述步骤S3-S5。
[0009]在本公开的示例性实施方式中,当所述筛选模型的评价指标满足预设条件时,停止执行循环。
[0010]在本公开的示例性实施方式中,所述初次标注包括对所述待处理样本数据中目标对象的位置进行标注,当所述处理结果包括所述待处理样本数据中目标对象的位置时,所述根据所述处理结果提取所述待处理样本中的可用样本,包括:提取所述筛选模型输出的处理结果的位置和所述初次标注的位置的偏差大于第二阈值的待处理样本数据作为所述
可用样本。
[0011]在本公开的示例性实施方式中,所述初次标注包括对所述待处理样本数据中目标对象的轮廓进行标注,当所述处理结果包括所述待处理样本数据中目标对象的轮廓时,所述根据所述处理结果提取所述待处理样本中的可用样本,包括:提取所述筛选模型输出的处理结果的轮廓和所述初次标注的轮廓的偏差大于第三阈值的待处理样本数据作为所述可用样本。
[0012]在本公开的示例性实施方式中,所述处理结果包括所述待处理样本数据中目标对象的类别;所述对所述可用样本进行二次标注,将所述包含二次标注的可用样本扩充所述训练数据集,包括:
[0013]根据所述目标对象的类别获取所述目标对象对应的模板;对所述可用样本进行二次标注,获取二次标注结果;计算所述模板与所述二次标注结果的相似度评价指标,将所述相似度评价指标大于第四阈值的可用样本扩充所述训练数据集。
[0014]在本公开的示例性实施方式中,所述初次标注包括对所述待处理样本数据中目标对象的类别进行标注,根据所述处理结果提取所述待处理样本中的可用样本包括:当所述处理结果中目标对象的类别与所述初次标注目标对象的类别不一致时,将对应的所述待处理样本作为所述所述可用样本。
[0015]根据本公开实施例的第二方面,提供了一种样本数据处理装置,可以包括模型训练模块、样本标注模块、数据筛选模块以及样本数据确定模块。
[0016]其中,模型训练模块,用于利用包含标注的训练数据集训练获得筛选模型;样本标注模块,用于获取待处理样本数据,对所述待处理样本数据进初次标注;数据筛选模块,用于通过所述筛选模型输出所述待处理样本数据的处理结果,其中,所述处理结果包括置信度,根据所述处理结果提取所述待处理样本中的可用样本,其中所述筛选模型对所述可用样本输出的置信度小于第一阈值;样本数据确定模块,用于利用所述初次标注对所述可用样本进行二次标注,将所述包含二次标注的可用样本扩充所述训练数据集。
[0017]在本公开的示例性实施方式中,所述样本数据处理装置还包括数据更新模块以及循环模块。
[0018]其中,数据更新模块,用于通过扩充后的所述训练数据集对所述筛选模型进行更新,并更新所述待处理样本数据。
[0019]循环模块,用于通过更新后的所述筛选模型、所述更新后的待处理样本数据循环所述模型训练模块、样本标注模块、数据筛选模块、样本数据确定模块以及数据更新模块。
[0020]在本公开的示例性实施方式中,所述循环模块可以被配置为:当所述筛选模型的评价指标满足预设条件时,停止执行循环。
[0021]在本公开的示例性实施方式中,所述处理结果还包括所述待处理样本数据中目标对象的位置或轮廓。
[0022]在本公开的示例性实施方式中,所述初次标注包括对所述待处理样本数据中目标对象的位置进行标注,当所述处理结果包括所述待处理样本数据中目标对象的位置时,所述数据筛选模块用于:提取所述筛选模型输出的处理结果的位置和所述初次标注的位置的偏差大于第二阈值的待处理样本数据作为所述可用样本。
[0023]在本公开的示例性实施方式中,所述初次标注包括对所述待处理样本数据中目标
对象的轮廓进行标注,当所述处理结果包括所述待处理样本数据中目标对象的轮廓时,数据筛选模块用于:提取所述筛选模型输出的处理结果的轮廓和所述初次标注的轮廓的偏差大于第三阈值的待处理样本数据作为所述可用样本。
[0024]在本公开的示例性实施方式中,所述处理结果包括所述待处理样本数据中目标对象的类别;所述样本数据确定模块可以用于:根据所述目标对象的类别获取所述目标对象对应的模板;对所述可用样本进行二次标注,获取二次标注结果;计算所述模板与所述二次标注结果的相似度评价指标,将所述相似度评价指标大于第四阈值的可用样本扩充所述训练数据集。
[0025]在本公开的示例性实施方式中,所述初次标注包括对所述待处理样本数据中目标对象的类别进行标注,所述数据筛选模块用于:当所述处理结果中目标对象的类别与所述初次标注目标对象的类别不一致时,将对应的所述待处理样本作为所述所述可用样本。
[0026]根据本公开实施例的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本数据处理方法,其特征在于,包括:步骤S1:利用包含标注的训练数据集训练获得筛选模型;步骤S2:获取待处理样本数据,对所述待处理样本数据进行初次标注;步骤S3:通过所述筛选模型输出所述待处理样本数据的处理结果,其中,所述处理结果包括置信度,根据所述处理结果提取所述待处理样本中的可用样本,其中所述筛选模型对所述可用样本输出的置信度小于第一阈值;步骤S4:利用所述初次标注对所述可用样本进行二次标注,将所述包含二次标注的可用样本扩充所述训练数据集。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:步骤S5:通过扩充后的所述训练数据集对所述筛选模型进行更新,并更新所述待处理样本数据;步骤S6:通过更新后的所述筛选模型、所述更新后的待处理样本数据循环执行所述步骤S3-S5。3.根据权利要求1所述的方法,其特征在于,所述步骤S6中,当所述筛选模型的评价指标满足预设条件时,停止执行循环。4.根据权利要求1所述的方法,其特征在于,步骤S3中的所述处理结果还包括所述待处理样本数据中目标对象的位置或轮廓。5.根据权利要求4所述的方法,其特征在于,所述初次标注包括对所述待处理样本数据中目标对象的位置进行标注,当所述处理结果包括所述待处理样本数据中目标对象的位置时,所述根据所述处理结果提取所述待处理样本中的可用样本,包括:提取所述筛选模型输出的处理结果的位置和所述初次标注的位置的偏差大于第二阈值的待处理样本数据作为所述可用样本。6.根据权利要求4所述的方法,其特征在于,所述初次标注包括对所述待处理样本数据中目标对象的轮廓进行标注,当所述处理结果包括所述待处理样本数据中目标对象的轮廓时,所述根据所述处理结果提取所述待处理样本中的可用样本,包括:提取所述筛选模型输出的处理结果的轮廓和所述初次标注的轮廓的偏差大于第三阈值的待处理样...

【专利技术属性】
技术研发人员:赵一欣李雨朋金砺耀
申请(专利权)人:千寻位置网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1