【技术实现步骤摘要】
数据标注方法、装置及数据处理设备
本申请涉及数据处理
,具体而言,涉及一种数据标注方法、装置及数据处理设备。
技术介绍
随着计算机技术的发展,机器学习算法的应用越来越广泛,监督学习算法是其中常用的一种算法。监督学习算法通常需要采用大批量的标注数据来对预先建立的识别模型进行训练,标注数据的数量和准确性直接影响着训练得到的识别模型的准确性。目前,标注数据主要通过人工添加标签的方式获得,效率低下,且容易出错,导致最终训练得到的模型的准确度较低。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种数据标注方法、装置及数据处理设备,能够在提高标注准确度的情况下,实现对批量数据的自动标注。根据本申请的一个方面,提供一种数据标注方法,所述方法包括:对预设的分类模型进行至少一次迭代处理,以使所述分类模型的准确度符合预设条件,得到训练完成的分类模型;采用所述训练完成的分类模型对多条待标注数据的至少一部分进行处理,得到自动标注结果;其中,每次所述迭代处理包括:将所述多 ...
【技术保护点】
1.一种数据标注方法,其特征在于,所述方法包括:/n对预设的分类模型进行至少一次迭代处理,以使所述分类模型的准确度符合预设条件,得到训练完成的分类模型;/n采用所述训练完成的分类模型对多条待标注数据的至少一部分进行处理,得到自动标注结果;/n其中,每次所述迭代处理包括:/n将所述多条待标注数据中除一目标数据集之外的其他待标注数据分别输入所述分类模型,获得所述其他待标注数据各自的分类结果;根据分类结果的置信度,从所述其他待标注数据中选择置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中;根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型。/n
【技术特征摘要】
1.一种数据标注方法,其特征在于,所述方法包括:
对预设的分类模型进行至少一次迭代处理,以使所述分类模型的准确度符合预设条件,得到训练完成的分类模型;
采用所述训练完成的分类模型对多条待标注数据的至少一部分进行处理,得到自动标注结果;
其中,每次所述迭代处理包括:
将所述多条待标注数据中除一目标数据集之外的其他待标注数据分别输入所述分类模型,获得所述其他待标注数据各自的分类结果;根据分类结果的置信度,从所述其他待标注数据中选择置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中;根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型。
2.根据权利要求1所述的方法,其特征在于,所述分类结果包括一个类别标签及该类别标签的置信度;
根据分类结果的置信度从所述其他待标注数据中选取置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中,包括:
从所述其他待标注数据中选取置信度低于预设阈值的待标注数据,并将选取的待标注数据中的至少部分添加到所述目标数据集中。
3.根据权利要求2所述的方法,其特征在于,将选取的待标注数据中的至少部分添加到所述目标数据集中,包括:
按照分类结果的置信度的大小对所述选取的待标注数据进行排序;
根据所述排序结果,从所述选取的待标注数据中按照置信度从小到大的顺序依次选择预设数量条待标注数据,添加到所述目标数据集中。
4.根据权利要求1所述的方法,其特征在于,所述分类结果包括多个类别标签及各类别标签的置信度,所述多个类别标签的置信度之和为1;
根据分类结果的置信度从所述其他待标注数据中选取置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中,包括:
从所述其他待标注数据中选取具有预设分类结果的待标注数据,并将选取的待标注数据中的至少部分添加到所述目标数据集中;其中,所述预设分类结果是指其中至少一个类别标签的置信度处于40%-60%的分类结果。
5.根据权利要求4所述的方法,其特征在于,将选取的待标注数据中的至少部分添加到所述目标数据集中,包括:
从选取的待标注数据中随机选取预设数量条待标注数据,添加到所述目标数据集中。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,每次所述迭代处理,还包括:
在根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型之前,获取所述至少部分待标注数据的人工标注结果。
7.根据权利要求6所述的方法,其特征在于,获取所述至少部分待标注数据的人工标注结果,包括:
针对所述至少部分待标注数据中的每一待标注数据,获取不同用户输入的该待标注数据的多个类别标签;
从所述多个标签中选择出现次数最多的类别标签,将该类别标签添加到该待标注数据上,得到该待标注数据的人工标注结果。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
将所述至少部分待标注数据的人工标注结果保存到支持可视化工具的搜索引擎中;
将所述自动标注结果保存到所述搜索引擎中。
9.根据权利要求1-5中任意一项所述的方法,其特征在于,在对预先建立的分类模型进行第一次所述迭代处理之前,所述方法还包括:
将一空集确定为所述目标数据集;或者,
从所述多条待标注数据中选取一部分作为目标数据集,并根据所述目标数据集中的待标注数据的人工标注结果对预先建立的分类模型进行训练,得到所述预设的分类模型。
10.根据权利要求1-5中任意一项所述的方法,其特征在于,每次所述迭代处理,还包括:
在根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型之后,通过预设的测试集对所述分类模型进行测试,得到一测试准确度;
若所述测试准确度符合所述预设条件,则将所述分类模型作为所述训练完成的分类模型。
11.根据权利要求1-5中任意一项所述的方法,其特征在于,采用所述训练完成的分类模型对多条待标注数据的至少一部分进行处理,包括:
采用所述训练完成的分类模型对每条所述待标注数据进行处理;或者,
采用所述训练完成的分类模型对所述多条待标注数据中除所述目标数据集之外的其他待标注数据进行处理。
12.一种数据标注装置,其特征在于,所述装置包括:
训练模块,用于对预设的分类模型进行至少一次迭代处理,以使所述分类模型的准确度符合预设条件,得到训练完成的分类模型;
自动标注模块,用于采用所述训练完成的分类模型对所述待标注数据的至少一部分进行处理,得到自动标注结果;
其...
【专利技术属性】
技术研发人员:冯浩,徐江,王鹏,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。