【技术实现步骤摘要】
一种标注数据的处理方法、装置和介质
本申请涉及大数据领域,特别是涉及一种标注数据的处理方法、装置和介质。
技术介绍
随着通信技术的发展,人工智能等领域对标注数据的需求日益增长,无论是在图像识别领域还是文字分类领域,都对标注数据的正确率有较高的要求。目前对于标注数据的方法是通过标注工作人员对数据进行人工标注,从一批标注数据中抽取部分标注数据进行审核检验,并计算审核检验后的标注数据的正确率,若该正确率不达标,则判断该批标注数据的正确率不合格,则需要标注人员重新对该批数据进行重标注,直到正确率合格。以上过程存在以下问题:首先经过审核校验后的标注数据得不到进一步利用,数据的利用率较低;此外,正确率不合格的标注数据返回给标注人员后,标注人员不知道哪些标注数据是错误的,因此只能对所有数据重新进行标注,因此对标注数据进行重标注的效率比较低。本公开的实施例提供了一种标注数据的处理方法、装置和介质,以提高审核后的标注数据的利用率以及对标注数据进行重标注的标注效率。
技术实现思路
本公开的实施例提供了 ...
【技术保护点】
1.一种标注数据的处理方法,其特征在于,包括:/n获取经标注人员标注的标注数据;/n根据所述标注数据利用预先构建的标注数据审核模型,确定所述标注数据中的错误标注数据,其中所述标注数据审核模型是利用经过审核的标注数据训练的;将所述错误标注数据发送至所述标注人员。/n
【技术特征摘要】
1.一种标注数据的处理方法,其特征在于,包括:
获取经标注人员标注的标注数据;
根据所述标注数据利用预先构建的标注数据审核模型,确定所述标注数据中的错误标注数据,其中所述标注数据审核模型是利用经过审核的标注数据训练的;将所述错误标注数据发送至所述标注人员。
2.根据权利要求1所述的方法,其特征在于,根据所述标注数据利用预先构建的标注数据审核模型,确定所述标注数据中的错误标注数据,包括:
将所述标注数据代入预先构建的标注数据审核模型中,得到所述标注数据的错误概率;
根据所述标注数据的错误概率和预设判断条件,确定所述标注数据中的错误标注数据。
3.根据权利要求2所述的方法,其特征在于,根据所述标注数据的错误概率和预设判断条件,确定所述标注数据中的错误标注数据,包括:
将所述标注数据按照所述错误概率从大到小的顺序排列;
根据预设比例计算所述标注数据中的所述错误标注数据的预设数量;
将排列后的所述标注数据中的前所述预设数量的所述标注数据确定为所述错误标注数据。
4.根据权利要求2所述的方法,其特征在于,根据所述标注数据的错误概率和预设判断条件,确定所述标注数据中的错误标注数据,包括:
从所述标注数据中筛选预定数量的所述标注数据进行审核,得到所述标注数据的错误率;
根据所述标注数据的错误率和所述标注数据的预设正确率,确定所述标注数据达到所述预设正确率需要审核标注的错误标注数据的数量;
将所述标注数据按照所述错误概率从大到小的顺序排列;
对排列后的所述标注数据依次进行审核标注,直到确定所述错误标注数据的数量达到所述需要审核标注的错误标注数据的数量。
5.根据权利要求1所述的方法,其特征在于,在获取经标注人员标注的标注数据之前,包括:...
【专利技术属性】
技术研发人员:刘睿,靳丁南,罗欢,权圣,
申请(专利权)人:北京中关村科金技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。