一种数据标注方法及装置制造方法及图纸

技术编号:29285567 阅读:11 留言:0更新日期:2021-07-16 23:52
一种数据标注方法及装置,包括:服务器获取待标注的M条数据;所述M为大于1的整数;所述服务器在所述M条数据中抽取N条数据,并针对所述N条数据进行统计分析得到至少一个模板;每个所述模板中包括至少一个槽位,每一个槽位用于填写至少一个关键信息;所述N为大于1的整数,且N<M;所述服务器将存储的多个关键信息,分别代入所述至少一个模板,得到P条数据;所述服务器利用所述P条数据中的部分数据进行训练,得到数据标注模型;所述服务器利用所述数据标注模型对所述M条数据除所述N条数据之外的数据进行标注。通过本申请的方法,可以减少人工参与数据标注的过程,提高数据标注效率和准确率。准确率。准确率。

A data annotation method and device

【技术实现步骤摘要】
一种数据标注方法及装置


[0001]本申请涉及数据处理
,尤其涉及一种数据标注方法及装置。

技术介绍

[0002]近年来,随着互联网技术和计算机科学技术的不断发展,人工智能愈演愈烈,而对于数据的标注需求也变得越来越迫切。
[0003]目前,对于数据的标注完全是通过人工的方法来进行。即标注人员需要对上万条甚至更多的数据进行人工标注,由于数据量的增大,这种人工标注的方法需要的人力成本比较高,并且在数据量比较大的情况下,人工标注的准确度也难以保证。

技术实现思路

[0004]本申请提供一种数据标注方法及装置,用以提高数据标注的准确度。
[0005]第一方面,本申请提供一种数据标注方法,该方法包括:服务器获取待标注的M条数据;所述M为大于1的整数;所述服务器在所述M条数据中抽取N条数据,并针对所述N条数据进行统计分析得到至少一个模板;每个所述模板中包括至少一个槽位,每一个槽位用于填写至少一个关键信息;所述N为大于1的整数,且N<M;所述服务器将存储的多个关键信息,分别代入所述至少一个模板,得到P条数据;所述服务器利用所述P条数据中的部分数据进行训练,得到数据标注模型;所述服务器利用所述数据标注模型对所述M条数据除所述N条数据之外的数据进行标注。
[0006]在上述技术方案中,利用一部分数据进行训练得到数据标注模型,再利用训练得到的数据标注模型对未标注的数据进行标注,这样可减少人工参与,提高数据标注的准确度和效率。并且,该方法中对抽取出的数据进行统计分析,在槽位填充关键词,得到P条数据,可以理解为对抽取除的数据进行扩充,得到更多的数据,然后利用扩充后的数据进行训练,得到数据标注模型,这样可提高数据标注模型的标注准确度。
[0007]在一种可能的设计中,在所述M条数据中抽取N条数据包括:对所述M条数据进行分类,得到Q类数据;所述Q为正整数;从所述Q类数据中分别抽取部分数据,得到所述N条数据。
[0008]在上述技术方案中,可对待标注的数据进行分类,然后从分类后的每一类数据中分别抽取部分数据,作为样本数据,这样抽取出的数据能够包括更多类别的数据,便于后续进行数据标注模型的训练,能够提高数据标注模型训练的准确度。
[0009]在一种可能的设计中,对所述M条数据进行分类,包括:将所述M条数据分别转换为各自对应的特征向量,得到M个特征向量;将所述M个特征向量中,特征向量相同或相近的特征向量对应的数据作为一类数据。
[0010]在一种可能的设计中,所述服务器利用所述P条数据中的部分数据进行训练,得到数据标注模型,包括:所述服务器利用所述P条数据中的部分数据对预设的初始模型进行训练,得到数据标注模型。
[0011]在一种可能的设计中,所述服务器得到数据标注模型之后,所述方法还包括所述
fidelity,wifi)热点网络、蓝牙(bluetooth,BT)网络或近距离无线通信技术(near field communication,NFC)网络等近距离通信网络。当该通信网络为广域网时,示例性的,该通信网络可以是第三代移动通信技术(3rd-generation wireless telephone technology,3G)网络、第四代移动通信技术(the 4th generation mobile communication technology,4G)网络、第五代移动通信技术(5th-generation mobile communication technology,5G)网络、未来演进的公共陆地移动网络(public land mobile network,PLMN)或因特网等。
[0028]需要说明的是,数据标注平台可以是服务器等,数据标注人员所使用的电子设备可以是手机、平板、笔记本电脑等具有显示屏的电子设备,本申请实施例对此不做限定。
[0029]可以理解的是,进行数据标注的标注人员可以包括多个,上述示意图中仅是以三个为例进行说明,本申请并不限于此。
[0030]目前,现有技术中通常都是人工标注的方法对数据进行标注,由于数据量的增大,人工标注会使得成本比较高,而且标注人员在大量、长时间的重复工作下,也难以保证标注的准确度。
[0031]有鉴于此,本申请实施例提供了一种数据标注方法,通过训练数据得到标注模型,然后利用数据标注模型对数据进行自动标注,从而减少人工参与标注的过程,降低成本,并且提高数据标注的准确度。
[0032]本申请实施例涉及的多个,是指大于或等于两个。需要说明的是,在本申请实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
[0033]需要说明的是,本申请中所涉及到的数据可以为文本、图片、视频等,本申请对此不作限定。在实施例中仅以文本为例进行说明,图片、视频等其它形式的数据与其实现过程类似。
[0034]参阅图2所示,首先对本申请的数据标注方法的流程进行简单介绍。示例性的,可包括数据收集201、提取句式202、人工标注实体203、收集实体词汇204、自造数据205、标注模型训练206、数据标注207、校验矫正208几个过程。其中,人工标注实体203和校验矫正208两个步骤由人工完成,数据标注207由模型来完成,通过模型来完成数据标注,从而减少人工参与的过程,降低成本。
[0035]以下数据标注平台以服务器为例,对图2所示的数据标注方法进行详细介绍。如图3所示为本申请实施例提供的一种数据标注方法流程图,参阅图3所示,该方法可包括如下步骤:
[0036]S301:服务器获取原始数据。
[0037]本申请实施例中,数据标注人员可将待标注的数据上传到服务器。示例性的,本申请中以原始数据四万条,数据标注人员为两名为例,例如数据标注人员A和数据标注人员B,数据标注人员A和数据标注人员B可分别将待标注的数据上传到服务器。
[0038]需要说明的是,本申请中的原始数据可以为用户在电子设备的用户界面上手动输入的问题或者用户通过语音输入的指令等。当然,可以理解的是,原始数据也可以是图片、视频等其它形式的数据,本申请对此不作限定。
[0039]S302:服务器对原始数据进行预处理,并对预处理后的数据进行分类。
[0040]需要说明的是,本申请实施例中以下以文本数据为例,对数据标注过程进行介绍。
[0041]当数据标注人员利用电子设备将待标注的数据上传到服务器之后,服务器可对待标注的数据进行预处理,例如,服务器可对原始数据进行去重、去空、去噪等操作,得到预处理之后的数据。
[0042]其中,去重操作可以理解为对原始数据中相同的、重复的句子进行筛选,并剔除其中任意的一条。
[0043]由于原始数据中可能会包括特殊符号或者表情符号等,当原始数据上传到服务器时,服务器侧可能不支持表情符号等,可能会将原始数据中包括的特殊符号或者表情符号等以空格的形式显示,因此本申请中可对原始本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:服务器获取待标注的M条数据;所述M为大于1的整数;所述服务器在所述M条数据中抽取N条数据,并针对所述N条数据进行统计分析得到至少一个模板;每个所述模板中包括至少一个槽位,每一个槽位用于填写至少一个关键信息;所述N为大于1的整数,且N<M;所述服务器将存储的多个关键信息,分别代入所述至少一个模板,得到P条数据;所述服务器利用所述P条数据中的部分数据进行训练,得到数据标注模型;所述服务器利用所述数据标注模型对所述M条数据除所述N条数据之外的数据进行标注。2.如权利要求1所述的方法,其特征在于,在所述M条数据中抽取N条数据包括:对所述M条数据进行分类,得到Q类数据;所述Q为正整数;从所述Q类数据中分别抽取部分数据,得到所述N条数据。3.如权利要求2所述的方法,其特征在于,对所述M条数据进行分类,包括:将所述M条数据分别转换为各自对应的特征向量,得到M个特征向量;将所述M个特征向量中,特征向量相同或相近的特征向量对应的数据作为一类数据。4.如权利要求1至3任一项所述的方法,其特征在于,所述服务器利用所述P条数据中的部分数据进行训练,得到数据标注模型,包括:所述服务器利用所述P条数据中的部分数据对预设的初始模型进行训练,得到数据标注模型。5.如权利要求4所述的方法,其特征在于,所述服务器得到数据标注模型之后,所述方法还包括:所述服务器利用所述P条数据中除所述部分数据之外的剩余数据,对所述数据标注模型进行校验。6.一种数据标注装置,其特征在于,包括:存储器,用于存储指令;通信接口,用于接收和发送数据;处理器,用于调用所述存储器中的程序指令以执行:获取待标注的M条数据;所述M为大于1的整数;在所述M条数据中抽取N条数据,并针对...

【专利技术属性】
技术研发人员:胥安东闫鹏程
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1