【技术实现步骤摘要】
标注数据的自动选取方法、系统、设备和存储介质
本专利技术涉及数据处理
,尤其涉及一种标注数据的自动选取方法、系统、设备和存储介质。
技术介绍
目前针对标注数据的审核选取,主流的做法是原始数据经人工标注后提报,数据接收方人员逐条审核数据质量。具体地,上述主流做法包括以下步骤:准备标注工具;登陆标注工具开始人工标注;标注完成后提交标注数据审核;数据接收方人工逐条审核。这种审核选取标注数据的方法,面对简单的审核场景,人工逐条审核的方式消耗了大量的人力成本;面对复杂的审核场景(例如,对一句话的分词及词性进行标注),由普通人员进行审核难以保障标注数据质量。此外,由于标注数据最终要提供给模型算法使用,标注数据需求量较大,人工逐条审核的方式消耗了大量的时间成本和人力成本。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中人工逐条审核以选取标注数据的方式既费时又耗力的缺陷,提供一种标注数据的自动选取方法、系统、设备和存储介质。本专利技术是通过下述技术方案来解决上述技术问题:一种标注数据的自动选取方法,其特点在于,所述自动选取方法包括:获取待标注数据;判断所述待标注数 ...
【技术保护点】
1.一种标注数据的自动选取方法,其特征在于,所述自动选取方法包括:获取待标注数据;判断所述待标注数据是结构化数据还是非结构化数据;若是结构化数据,则获取对所述待标注数据进行多次标注后的多份已标注数据;选择所述多份已标注数据中重复次数最多的已标注数据作为目标标注数据;若是非结构化数据,则获取对所述待标注数据进行标注后的已标注数据;根据参考标注数据库判断所述已标注数据是否通过审核,所述参考标注数据库中存储有多个参考标注数据;若通过审核,则选择所述已标注数据作为目标标注数据。
【技术特征摘要】
1.一种标注数据的自动选取方法,其特征在于,所述自动选取方法包括:获取待标注数据;判断所述待标注数据是结构化数据还是非结构化数据;若是结构化数据,则获取对所述待标注数据进行多次标注后的多份已标注数据;选择所述多份已标注数据中重复次数最多的已标注数据作为目标标注数据;若是非结构化数据,则获取对所述待标注数据进行标注后的已标注数据;根据参考标注数据库判断所述已标注数据是否通过审核,所述参考标注数据库中存储有多个参考标注数据;若通过审核,则选择所述已标注数据作为目标标注数据。2.如权利要求1所述的标注数据的自动选取方法,其特征在于,所述根据参考标注数据库判断所述已标注数据是否通过审核的步骤包括:判断所述已标注数据与参考标注数据之间的相似度是否在第一阈值范围内;若是,则所述已标注数据通过审核。3.如权利要求2所述的标注数据的自动选取方法,其特征在于,当所述待标注数据是非结构化数据时,所述获取对所述待标注数据进行标注后的已标注数据的步骤包括:从所述参考标注数据库中抽取参考标注数据;获取所述参考标注数据被标注之前的参考待标注数据;获取对所述待标注数据进行标注以及对所述参考待标注数据重新进行标注后的已标注数据;所述判断所述已标注数据与预设的参考标注数据之间的相似度是否在第一阈值范围内的步骤具体包括:判断对所述参考待标注数据重新进行标注后的已标注数据与所述参考标注数据之间的相似度是否在第一阈值范围内。4.如权利要求2所述的标注数据的自动选取方法,其特征在于,当所述相似度在所述第一阈值范围内时,所述自动选取方法还包括:判断所述相似度是否在第二阈值范围内,其中,所述第二阈值范围的最小值不小于所述第一阈值范围的最小值;若是,则将所述目标标注数据作为新的参考标注数据增加到所述参考标注数据库中。5.如权利要求1所述的标注数据的自动选取方法,其特征在于,所述自动选取方法还包括:将所述目标标注数据存储至训练数据库;所述训练数据库用于为算法模型提供训练数据,其中,所述算法模型包括:文本识别模型、图像识别模型、语音识别模型、视频识别模型中的至少一种。6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的标注数据的自动选取方法。7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时...
【专利技术属性】
技术研发人员:王科,郭鹏,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。