一种数据标注方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：26598862 阅读：21 留言：0更新日期：2020-12-04 21:21

本发明专利技术公开了一种数据标注方法、装置、存储介质及计算机设备，涉及自然语言处理技术领域，主要目的在于解决现有技术中通过人工对数据进行一次性标注，降低标注效率和准确性，浪费人力资源的问题。方法包括：获取预先定义的多个一级标签以及与所述一级标签相对应的多个二级标签；利用获取的第一样本数据训练第一标注模型，对当前还未标注一级标签的待标注数据进行标注，得到第一标注数据；依据各目标对象标注数量最多的一级标签，将选取的部分第一标注数据配置给相应的目标对象进行二级标签的标注，得到第二样本数据；利用第二样本数据训练第二标注模型，对当前还未标注二级标签的第一标注数据进行标注，得到第二标注数据。本发明专利技术适用于数据的标注。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据标注方法、装置、存储介质及计算机设备
本专利技术涉及自然语言处理
，特别是涉及一种数据标注方法、装置、存储介质及计算机设备。
技术介绍
自然语言处理(NaturalLanguageProcessing，NLP)需要对文本进行标注，由于标注复杂度高，单个标注任务标签数量大，标注人员无法很好的记忆多个标签的含义，降低标注效率，影响标注速度。对于大规模的算法建模非常重要，在NLP的文本分类、序列标注和命名实体识别任务中，都会遇到类似标注任务复杂度高，标注任务标签数量多的情况。目前，现有标注系统和方法，无论是单机版，还是平台型的支持多人实时标注的系统，都是一次性倒入标注数据，交给标注人员标注。然而，由于标注任务复杂度高，标注标签数量多，所以标注人员需要记忆很多个标签，并且标签之间可能会存在类似的情况，所以需要标注人员对标签有很高的熟练度。这导致标注人员需要很长的记忆时间来适应复杂的标注任务，影响标注效率，浪费宝贵的人力资源。
技术实现思路
有鉴于此，本专利技术提供一种数据标注方法、装置、存储介质及计算机设备，主要目的在于能够解决现有技术中通过人工对数据进行一次性标注，降低标注效率和准确性，浪费人力资源的问题。依据本专利技术一个方面，提供了一种数据标注方法，包括：获取预先定义的数据标签，其中，所述数据标签包括多个一级标签以及与所述一级标签相对应的多个二级标签；利用获取的第一样本数据训练第一标注模型，对当前还未标注一级标签的待标注数据进行自动标注，得到第一标注数据...

【技术保护点】
1.一种数据标注方法，其特征在于，包括：/n获取预先定义的数据标签，其中，所述数据标签包括多个一级标签以及与所述一级标签相对应的多个二级标签；/n利用获取的第一样本数据训练第一标注模型，对当前还未标注一级标签的待标注数据进行自动标注，得到第一标注数据，其中，所述第一样本数据为各目标对象对选取的部分待标注数据进行一级标签的标注而得到的；/n依据各目标对象标注数量最多的一级标签，将选取的部分第一标注数据配置给相应的目标对象进行二级标签的标注，得到第二样本数据；/n利用所述第二样本数据训练第二标注模型，对当前还未标注二级标签的第一标注数据进行自动标注，得到第二标注数据。/n

【技术特征摘要】
1.一种数据标注方法，其特征在于，包括：
获取预先定义的数据标签，其中，所述数据标签包括多个一级标签以及与所述一级标签相对应的多个二级标签；
利用获取的第一样本数据训练第一标注模型，对当前还未标注一级标签的待标注数据进行自动标注，得到第一标注数据，其中，所述第一样本数据为各目标对象对选取的部分待标注数据进行一级标签的标注而得到的；
依据各目标对象标注数量最多的一级标签，将选取的部分第一标注数据配置给相应的目标对象进行二级标签的标注，得到第二样本数据；
利用所述第二样本数据训练第二标注模型，对当前还未标注二级标签的第一标注数据进行自动标注，得到第二标注数据。

2.根据权利要求1所述的方法，其特征在于，所述利用获取的第一样本数据训练第一标注模型，对当前还未标注一级标签的待标注数据进行自动标注，得到第一标注数据，包括：
获取各目标对象利用所述一级标签对选取的部分待标注数据进行标注得到的第一样本数据；
根据预设的深度学习模型、所述第一样本数据以及所述一级标签，训练第一标注模型；
利用所述第一标注模型对当前还未标注一级标签的待标注数据进行自动标注处理，得到第一标注数据。

3.根据权利要求2所述的方法，其特征在于，所述利用所述第一标注模型对当前还未标注一级标签的待标注数据进行自动标注处理，得到第一标注数据之后，所述方法还包括：
分别统计并提取各目标对象标注数量最多的K个一级标签；
按照各目标对象对应的所述K个一级标签，将所述第一标注数据配置给相应的目标对象进行复检。

4.根据权利要求1所述的方法，其特征在于，所述利用所述第二样本数据训练第二标注模型，对当前还未标注二级标签的第一标注数据进行自动标注，得到第二标注数据，包括：
获取各目标对象利用所述二级标签对选取的部分第一标注数据进行标注得到的第二样本数据；
根据预设的深度学习模型、所述第二样本数据以及所述二级标签，训练第二标注模型；
利用所述第二标注模型对当前还未标注二级标签的第一标注数据进行自动标注处理，得到第二标注数据。

5.根据权利要求4所述的方法，其特征在于，所述利用所述第二标注模型对当前还未标注二级标签的第一标注数据进行自动标注处理，得到第二标...

【专利技术属性】
技术研发人员：刘一鹏，
申请(专利权)人：大箴杭州科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人