标注数据的自动选取方法、系统、设备和存储介质技术方案

技术编号:19822030 阅读:26 留言:0更新日期:2018-12-19 14:47
本发明专利技术公开了一种标注数据的自动选取方法、系统、设备和存储介质,其中,自动选取方法包括:获取待标注数据;判断待标注数据是结构化数据还是非结构化数据;若是结构化数据,则获取对待标注数据进行多次标注后的多份已标注数据;选择多份已标注数据中重复次数最多的已标注数据作为目标标注数据;若是非结构化数据,则获取对待标注数据进行标注后的已标注数据;根据参考标注数据库判断已标注数据是否通过审核,参考标注数据库中存储有多个参考标注数据;若通过审核,则选择已标注数据作为目标标注数据。本发明专利技术针对结构化与非结构化的待标注数据采用不同方式来自动选取符合预设规则的已标注数据作为目标标注数据,节约了成本,提高了效率和质量。

【技术实现步骤摘要】
标注数据的自动选取方法、系统、设备和存储介质
本专利技术涉及数据处理
,尤其涉及一种标注数据的自动选取方法、系统、设备和存储介质。
技术介绍
目前针对标注数据的审核选取,主流的做法是原始数据经人工标注后提报,数据接收方人员逐条审核数据质量。具体地,上述主流做法包括以下步骤:准备标注工具;登陆标注工具开始人工标注;标注完成后提交标注数据审核;数据接收方人工逐条审核。这种审核选取标注数据的方法,面对简单的审核场景,人工逐条审核的方式消耗了大量的人力成本;面对复杂的审核场景(例如,对一句话的分词及词性进行标注),由普通人员进行审核难以保障标注数据质量。此外,由于标注数据最终要提供给模型算法使用,标注数据需求量较大,人工逐条审核的方式消耗了大量的时间成本和人力成本。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中人工逐条审核以选取标注数据的方式既费时又耗力的缺陷,提供一种标注数据的自动选取方法、系统、设备和存储介质。本专利技术是通过下述技术方案来解决上述技术问题:一种标注数据的自动选取方法,其特点在于,所述自动选取方法包括:获取待标注数据;判断所述待标注数据是结构化数据还是非结构化数据;若是结构化数据,则获取对所述待标注数据进行多次标注后的多份已标注数据;选择所述多份已标注数据中重复次数最多的已标注数据作为目标标注数据;若是非结构化数据,则获取对所述待标注数据进行标注后的已标注数据;根据参考标注数据库判断所述已标注数据是否通过审核,所述参考标注数据库中存储有多个参考标注数据;若通过审核,则选择所述已标注数据作为目标标注数据。较佳地,所述根据参考标注数据库判断所述已标注数据是否通过审核的步骤包括:判断所述已标注数据与参考标注数据之间的相似度是否在第一阈值范围内;若是,则所述已标注数据通过审核。较佳地,当所述待标注数据是非结构化数据时,所述获取对所述待标注数据进行标注后的已标注数据的步骤包括:从所述参考标注数据库中抽取参考标注数据;获取所述参考标注数据被标注之前的参考待标注数据;获取对所述待标注数据进行标注以及对所述参考待标注数据重新进行标注后的已标注数据;所述判断所述已标注数据与预设的参考标注数据之间的相似度是否在第一阈值范围内的步骤具体包括:判断对所述参考待标注数据重新进行标注后的已标注数据与所述参考标注数据之间的相似度是否在第一阈值范围内。较佳地,当所述相似度在所述第一阈值范围内时,所述自动选取方法还包括:判断所述相似度是否在第二阈值范围内,其中,所述第二阈值范围的最小值不小于所述第一阈值范围的最小值;若是,则将所述目标标注数据作为新的参考标注数据增加到所述参考标注数据库中。较佳地,所述自动选取方法还包括:将所述目标标注数据存储至训练数据库;所述训练数据库用于为算法模型提供训练数据,其中,所述算法模型包括:文本识别模型、图像识别模型、语音识别模型、视频识别模型中的至少一种。一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特点在于,所述处理器执行所述计算机程序时实现上述任一种标注数据的自动选取方法。一种计算机可读存储介质,其上存储有计算机程序,其特点在于,所述计算机程序被处理器执行时实现上述任一种标注数据的自动选取方法的步骤。一种标注数据的自动选取系统,其特点在于,所述自动选取系统包括:第一获取模块,用于获取待标注数据;第一判断模块,用于判断所述待标注数据是结构化数据还是非结构化数据;第二获取模块,用于当所述待标注数据是结构化数据时,获取对所述待标注数据进行多次标注后的多份已标注数据;第一选取模块,用于当所述待标注数据是结构化数据时,选择所述多份已标注数据中重复次数最多的已标注数据作为目标标注数据;第三获取模块,用于当所述待标注数据是非结构化数据时,获取对所述待标注数据进行标注后的已标注数据;第二判断模块,用于当所述待标注数据是非结构化数据时,根据参考标注数据库判断所述已标注数据是否通过审核,所述参考标注数据库中存储有多个参考标注数据;第二选取模块,用于当所述第二判断模块判断为是时,选择所述已标注数据作为目标标注数据。较佳地,所述第二判断模块具体用于:判断所述已标注数据与参考标注数据之间的相似度是否在第一阈值范围内;若是,则所述已标注数据通过审核。较佳地,所述第三获取模块包括:抽取单元,用于从所述参考标注数据库中抽取参考标注数据;第一获取单元,用于获取所述参考标注数据被标注之前的参考待标注数据;第二获取单元,用于获取对所述待标注数据进行标注以及对所述参考待标注数据重新进行标注后的已标注数据;所述第二判断模块具体用于:判断对所述参考待标注数据重新进行标注后的已标注数据与所述参考标注数据之间的相似度是否在第一阈值范围内。较佳地,当所述第二判断单元判断为是时,所述自动选取系统还包括:第三判断模块,用于当所述第二判断模块判断为是时,判断所述相似度是否在第二阈值范围内,其中,所述第二阈值范围的最小值不小于所述第一阈值范围的最小值;扩展模块,用于当所述第三判断模块判断为是时,将所述目标标注数据作为新的参考标注数据增加到所述参考标注数据库中。较佳地,所述自动选取系统还包括:存储模块,用于将所述目标标注数据存储至训练数据库;所述训练数据库用于为算法模型提供训练数据,其中,所述算法模型包括:文本识别模型、图像识别模型、语音识别模型、视频识别模型中的至少一种。本专利技术的积极进步效果在于:本专利技术针对待标注数据是结构化数据还是非结构化数据,分别采用了不同的方式来自动选取符合预设规则的已标注数据作为目标标注数据,这种自动选取标注数据的方式,既节约了人工审核选取标注数据的成本,提高了审核选取标注数据的效率,又能够避免人工审核选取过程中的误操作,提高了审核选取标注数据的质量。附图说明图1为根据本专利技术实施例1的标注数据的自动选取方法的流程图。图2为根据本专利技术实施例1的标注数据的自动选取方法中步骤S5的具体流程图。图3为根据本专利技术实施例2的电子设备的硬件结构示意图。图4为根据本专利技术实施例4的标注数据的自动选取系统的模块示意图。具体实施方式下面通过实施例的方式进一步说明本专利技术,但并不因此将本专利技术限制在所述的实施例范围之中。实施例1本实施例提供一种标注数据的自动选取方法,用于从人工标注的标注数据中自动选取符合审核要求的标注数据作为最终的目标标注数据。图1示出了本实施例的流程图,参见图1,本实施例的自动选取方法包括:S1、获取待标注数据;具体地,待标注数据可以包括但不限于文本数据、图像数据、语音数据、视频数据。S2、判断待标注数据是结构化数据还是非结构化数据;若是结构化数据,则转至步骤S3;若是非结构化数据,则转至步骤S5;具体地,结构化数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。例如,若结构化的待标注数据可以是对象的类别等属性。非结构化数据是指没有固定结构的数据。例如,非结构化的待标注数据可以是人脸点位、路况等。S3、获取对待标注数据进行多次标注后的多份已标注数据;S4、选择多份已标注数据中重复次数最多的已标注数据作为目标标注数据,并转至步骤S8;在步骤S3和S4中,当待标注数据是结构化数据时,将该待标注数据交由多人进行人工标注,可以获得多份对该待标注数据的已标注数据,例如,待标本文档来自技高网...

【技术保护点】
1.一种标注数据的自动选取方法,其特征在于,所述自动选取方法包括:获取待标注数据;判断所述待标注数据是结构化数据还是非结构化数据;若是结构化数据,则获取对所述待标注数据进行多次标注后的多份已标注数据;选择所述多份已标注数据中重复次数最多的已标注数据作为目标标注数据;若是非结构化数据,则获取对所述待标注数据进行标注后的已标注数据;根据参考标注数据库判断所述已标注数据是否通过审核,所述参考标注数据库中存储有多个参考标注数据;若通过审核,则选择所述已标注数据作为目标标注数据。

【技术特征摘要】
1.一种标注数据的自动选取方法,其特征在于,所述自动选取方法包括:获取待标注数据;判断所述待标注数据是结构化数据还是非结构化数据;若是结构化数据,则获取对所述待标注数据进行多次标注后的多份已标注数据;选择所述多份已标注数据中重复次数最多的已标注数据作为目标标注数据;若是非结构化数据,则获取对所述待标注数据进行标注后的已标注数据;根据参考标注数据库判断所述已标注数据是否通过审核,所述参考标注数据库中存储有多个参考标注数据;若通过审核,则选择所述已标注数据作为目标标注数据。2.如权利要求1所述的标注数据的自动选取方法,其特征在于,所述根据参考标注数据库判断所述已标注数据是否通过审核的步骤包括:判断所述已标注数据与参考标注数据之间的相似度是否在第一阈值范围内;若是,则所述已标注数据通过审核。3.如权利要求2所述的标注数据的自动选取方法,其特征在于,当所述待标注数据是非结构化数据时,所述获取对所述待标注数据进行标注后的已标注数据的步骤包括:从所述参考标注数据库中抽取参考标注数据;获取所述参考标注数据被标注之前的参考待标注数据;获取对所述待标注数据进行标注以及对所述参考待标注数据重新进行标注后的已标注数据;所述判断所述已标注数据与预设的参考标注数据之间的相似度是否在第一阈值范围内的步骤具体包括:判断对所述参考待标注数据重新进行标注后的已标注数据与所述参考标注数据之间的相似度是否在第一阈值范围内。4.如权利要求2所述的标注数据的自动选取方法,其特征在于,当所述相似度在所述第一阈值范围内时,所述自动选取方法还包括:判断所述相似度是否在第二阈值范围内,其中,所述第二阈值范围的最小值不小于所述第一阈值范围的最小值;若是,则将所述目标标注数据作为新的参考标注数据增加到所述参考标注数据库中。5.如权利要求1所述的标注数据的自动选取方法,其特征在于,所述自动选取方法还包括:将所述目标标注数据存储至训练数据库;所述训练数据库用于为算法模型提供训练数据,其中,所述算法模型包括:文本识别模型、图像识别模型、语音识别模型、视频识别模型中的至少一种。6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的标注数据的自动选取方法。7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时...

【专利技术属性】
技术研发人员:王科郭鹏
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1