一种数据标注方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:26598862 阅读:21 留言:0更新日期:2020-12-04 21:21
本发明专利技术公开了一种数据标注方法、装置、存储介质及计算机设备,涉及自然语言处理技术领域,主要目的在于解决现有技术中通过人工对数据进行一次性标注,降低标注效率和准确性,浪费人力资源的问题。方法包括:获取预先定义的多个一级标签以及与所述一级标签相对应的多个二级标签;利用获取的第一样本数据训练第一标注模型,对当前还未标注一级标签的待标注数据进行标注,得到第一标注数据;依据各目标对象标注数量最多的一级标签,将选取的部分第一标注数据配置给相应的目标对象进行二级标签的标注,得到第二样本数据;利用第二样本数据训练第二标注模型,对当前还未标注二级标签的第一标注数据进行标注,得到第二标注数据。本发明专利技术适用于数据的标注。

【技术实现步骤摘要】
一种数据标注方法、装置、存储介质及计算机设备
本专利技术涉及自然语言处理
,特别是涉及一种数据标注方法、装置、存储介质及计算机设备。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)需要对文本进行标注,由于标注复杂度高,单个标注任务标签数量大,标注人员无法很好的记忆多个标签的含义,降低标注效率,影响标注速度。对于大规模的算法建模非常重要,在NLP的文本分类、序列标注和命名实体识别任务中,都会遇到类似标注任务复杂度高,标注任务标签数量多的情况。目前,现有标注系统和方法,无论是单机版,还是平台型的支持多人实时标注的系统,都是一次性倒入标注数据,交给标注人员标注。然而,由于标注任务复杂度高,标注标签数量多,所以标注人员需要记忆很多个标签,并且标签之间可能会存在类似的情况,所以需要标注人员对标签有很高的熟练度。这导致标注人员需要很长的记忆时间来适应复杂的标注任务,影响标注效率,浪费宝贵的人力资源。
技术实现思路
有鉴于此,本专利技术提供一种数据标注方法、装置、存储介质及计算机设备,主要目的在于能够解决现有技术中通过人工对数据进行一次性标注,降低标注效率和准确性,浪费人力资源的问题。依据本专利技术一个方面,提供了一种数据标注方法,包括:获取预先定义的数据标签,其中,所述数据标签包括多个一级标签以及与所述一级标签相对应的多个二级标签;利用获取的第一样本数据训练第一标注模型,对当前还未标注一级标签的待标注数据进行自动标注,得到第一标注数据,其中,所述第一样本数据为各目标对象对选取的部分待标注数据进行一级标签的标注而得到的;依据各目标对象标注数量最多的一级标签,将选取的部分第一标注数据配置给相应的目标对象进行二级标签的标注,得到第二样本数据;利用所述第二样本数据训练第二标注模型,对当前还未标注二级标签的第一标注数据进行自动标注,得到第二标注数据。进一步地,所述利用获取的第一样本数据训练第一标注模型,对当前还未标注一级标签的待标注数据进行自动标注,得到第一标注数据,包括:获取各目标对象利用所述一级标签对选取的部分待标注数据进行标注得到的第一样本数据;根据预设的深度学习模型、所述第一样本数据以及所述一级标签,训练第一标注模型;利用所述第一标注模型对当前还未标注一级标签的待标注数据进行自动标注处理,得到第一标注数据。可选地,所述利用所述第一标注模型对当前还未标注一级标签的待标注数据进行自动标注处理,得到第一标注数据之后,所述方法还包括:分别统计并提取各目标对象标注数量最多的K个一级标签;按照各目标对象对应的所述K个一级标签,将所述第一标注数据配置给相应的目标对象进行复检。进一步地,所述利用所述第二样本数据训练第二标注模型,对当前还未标注二级标签的第一标注数据进行自动标注,得到第二标注数据,包括:获取各目标对象利用所述二级标签对选取的部分第一标注数据进行标注得到的第二样本数据;根据预设的深度学习模型、所述第二样本数据以及所述二级标签,训练第二标注模型;利用所述第二标注模型对当前还未标注二级标签的第一标注数据进行自动标注处理,得到第二标注数据。可选地,所述利用所述第二标注模型对当前还未标注二级标签的第一标注数据进行自动标注处理,得到第二标注数据之后,所述方法还包括:分别统计并提取各目标对象标注数量最多的K个二级标签;按照各目标对象对应的所述K个二级标签,将所述第二标注数据配置给相应的目标对象进行复检。进一步地,所述获取各目标对象利用所述一级标签对选取的部分待标注数据进行标注得到的第一样本数据,包括:对待标注数据进行随机抽样处理,得到第一抽样数据;将所述第一抽样数据随机配置给各目标对象进行标注处理;接收所述各目标对象反馈的标注处理结果,并将所述标注处理结果确定为第一样本数据。进一步地,所述获取各目标对象利用所述二级标签对所述第一标注数据进行标注得到的第二样本数据,包括:对第一标注数据进行随机抽样处理,得到第二抽样数据;分别统计并提取各目标对象标注数量最多的一级标签;按照各目标对象对应的所述一级标签,将所述第二抽样数据配置给相应的目标对象进行标注处理;接收所述各目标对象反馈的标注处理结果,并将所述标注处理结果确定为第二样本数据。可选地,所述获取预先定义的数据标签之前,所述方法还包括:根据待标注数据,定义一级标签;根据所述一级标签,定义与所述一级标签相关联的二级标签;将所述一级标签、二级标签以及所述一级标签与所述二级标签的映射关系保存至预先建立的标签数据库中。依据本专利技术二个方面,提供了一种数据标注装置,包括:获取单元,用于获取预先定义的数据标签,其中,所述数据标签包括多个一级标签以及与所述一级标签相对应的多个二级标签;第一标注单元,用于利用获取的第一样本数据训练第一标注模型,对当前还未标注一级标签的待标注数据进行自动标注,得到第一标注数据,其中,所述第一样本数据为各目标对象对选取的部分待标注数据进行一级标签的标注而得到的;配置单元,用于依据各目标对象标注数量最多的一级标签,将选取的部分第一标注数据配置给相应的目标对象进行二级标签的标注,得到第二样本数据;第二标注单元,用于利用所述第二样本数据训练第二标注模型,对当前还未标注二级标签的第一标注数据进行自动标注,得到第二标注数据。进一步地,所述第一标注单元,包括:第一获取模块,用于获取各目标对象利用所述一级标签对选取的部分待标注数据进行标注得到的第一样本数据;第一训练模块,用于根据预设的深度学习模型、所述第一样本数据以及所述一级标签,训练第一标注模型;第一标注模块,用于利用所述第一标注模型对当前还未标注一级标签的待标注数据进行自动标注处理,得到第一标注数据。可选地,所述所述装置还包括:提取单元,用于分别统计并提取各目标对象标注数量最多的K个一级标签;配置单元,用于按照各目标对象对应的所述K个一级标签,将所述第一标注数据配置给相应的目标对象进行复检。进一步地,所述第二标注单元,包括:第二获取模块,用于获取各目标对象利用所述二级标签对选取的部分第一标注数据进行标注得到的第二样本数据;第二训练模块,用于根据预设的深度学习模型、所述第二样本数据以及所述二级标签,训练第二标注模型;第二标注模块,用于利用所述第二标注模型对当前还未标注二级标签的第一标注数据进行自动标注处理,得到第二标注数据。可选地,所述提取单元具体还用于分别统计并提取各目标对象标注数量最多的K个二级标签;所述配置单元具体还用于按照各目标对象对应的所述K个二级标签,将所述第二标注数据配置给相应的目标对象进行复检。进一步地,所述第一获取单元具体还用于对待标注数据进行随机抽样处理,得到第一抽样数据;将所述第一抽样数据随机配置给各本文档来自技高网...

【技术保护点】
1.一种数据标注方法,其特征在于,包括:/n获取预先定义的数据标签,其中,所述数据标签包括多个一级标签以及与所述一级标签相对应的多个二级标签;/n利用获取的第一样本数据训练第一标注模型,对当前还未标注一级标签的待标注数据进行自动标注,得到第一标注数据,其中,所述第一样本数据为各目标对象对选取的部分待标注数据进行一级标签的标注而得到的;/n依据各目标对象标注数量最多的一级标签,将选取的部分第一标注数据配置给相应的目标对象进行二级标签的标注,得到第二样本数据;/n利用所述第二样本数据训练第二标注模型,对当前还未标注二级标签的第一标注数据进行自动标注,得到第二标注数据。/n

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:
获取预先定义的数据标签,其中,所述数据标签包括多个一级标签以及与所述一级标签相对应的多个二级标签;
利用获取的第一样本数据训练第一标注模型,对当前还未标注一级标签的待标注数据进行自动标注,得到第一标注数据,其中,所述第一样本数据为各目标对象对选取的部分待标注数据进行一级标签的标注而得到的;
依据各目标对象标注数量最多的一级标签,将选取的部分第一标注数据配置给相应的目标对象进行二级标签的标注,得到第二样本数据;
利用所述第二样本数据训练第二标注模型,对当前还未标注二级标签的第一标注数据进行自动标注,得到第二标注数据。


2.根据权利要求1所述的方法,其特征在于,所述利用获取的第一样本数据训练第一标注模型,对当前还未标注一级标签的待标注数据进行自动标注,得到第一标注数据,包括:
获取各目标对象利用所述一级标签对选取的部分待标注数据进行标注得到的第一样本数据;
根据预设的深度学习模型、所述第一样本数据以及所述一级标签,训练第一标注模型;
利用所述第一标注模型对当前还未标注一级标签的待标注数据进行自动标注处理,得到第一标注数据。


3.根据权利要求2所述的方法,其特征在于,所述利用所述第一标注模型对当前还未标注一级标签的待标注数据进行自动标注处理,得到第一标注数据之后,所述方法还包括:
分别统计并提取各目标对象标注数量最多的K个一级标签;
按照各目标对象对应的所述K个一级标签,将所述第一标注数据配置给相应的目标对象进行复检。


4.根据权利要求1所述的方法,其特征在于,所述利用所述第二样本数据训练第二标注模型,对当前还未标注二级标签的第一标注数据进行自动标注,得到第二标注数据,包括:
获取各目标对象利用所述二级标签对选取的部分第一标注数据进行标注得到的第二样本数据;
根据预设的深度学习模型、所述第二样本数据以及所述二级标签,训练第二标注模型;
利用所述第二标注模型对当前还未标注二级标签的第一标注数据进行自动标注处理,得到第二标注数据。


5.根据权利要求4所述的方法,其特征在于,所述利用所述第二标注模型对当前还未标注二级标签的第一标注数据进行自动标注处理,得到第二标...

【专利技术属性】
技术研发人员:刘一鹏
申请(专利权)人:大箴杭州科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1