一种数据标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32435620 阅读:18 留言:0更新日期:2022-02-24 19:09
本申请实施例提供一种数据标注方法、装置、电子设备及存储介质,其中,该方法包括:获取文本数据;对文本数据进行标注,得到标注数据;根据正则式规则对标注数据进行处理,得到误标注结果;对误标注结果进行修复,得到修复标注结果。实施本申请实施例,可以有效提高数据标注效率,减少人力物力。减少人力物力。减少人力物力。

【技术实现步骤摘要】
一种数据标注方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能数据处理
,具体而言,涉及一种数据标注方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]目前,有监督的深度学习是人工智能领域普遍采用的机器学习方法,而采用深度学习的模型则需要大量准确、高质量的训练数据进行训练。其中,训练数据的数量、训练数据的质量对深度学习模型的训练起到了关键性作用。
[0003]训练数据是指用于训练模型的带有标注的数据,目前,数据的标注主要包括人工标注和使用工具进行标注,然而,人工进行数据标注是一个单调、枯燥的密集型重复劳动,要想获得大量的训练数据,需要耗费大量的人力进行数据标注,付出较高的人工成本,而使用工具标注的方法误标率很高,标注准确率低。

技术实现思路

[0004]本申请实施例的目的在于提供一种数据标注方法、装置、电子设备及计算机可读存储介质,不需要耗费大量人力物力即可完成标注,且标注的准确率和效率得到有效提升。
[0005]第一方面,本申请实施例提供了一种数据标注方法,所述方法包括:
[0006]获取文本数据;
[0007]对所述文本数据进行标注,得到标注数据;
[0008]根据正则式规则对所述标注数据进行处理,得到误标注结果;
[0009]对所述误标注结果进行修复,得到修复标注结果。
[0010]在上述实现过程中,克服了标注数据的过程中需要耗费大量的人力、付出较高的人工成本的技术问题,进而达到用低成本获得大量且类型丰富的训练数据的技术效果。
[0011]进一步地,所述根据正则式规则对所述标注数据进行处理,得到误标注结果的步骤,包括:
[0012]对所述标注数据进行清洗处理,得到有效标注数据;
[0013]根据正则式规则对所述有效数据进行解析,得到所述误标注结果。
[0014]在上述实现过程中,对标注数据进行清洗处理,可以只保留标注数据中的有效标注数据,使得对数据的标注更加准确。
[0015]进一步地,所述根据正则式规则对所述有效数据进行解析,得到所述误标注结果的步骤,包括:
[0016]获取所述正则式规则中的规则列表;
[0017]根据所述规则列表对所述有效标注数据进行遍历,标注所述有效标注数据中的误标数据和漏标数据,得到所述误标注结果。
[0018]在上述实现过程中,通过正则式规则可以准确的将有效数据中的误标数据和漏标数据标注出来,对误标数据和漏标数据进行修复,使得正确的有效数据增多,增加有效标注
数据的数量和可用性。
[0019]进一步地,所述获取文本数据的步骤,包括:
[0020]获取语音数据;
[0021]将所述语音数据转换为文本数据。
[0022]在上述实现过程中,文本数据比语音数据更方便进行标注,将语音数据转换称文本数据可以提高标注速度和标注效率。
[0023]第二方面,本申请实施例还提供了一种数据标注装置,所述装置包括:
[0024]获取模块,用于获取文本数据;
[0025]标注模块,用于对所述文本数据进行标注,得到标注数据;
[0026]处理模块,用于根据正则式规则对所述标注数据进行处理,得到误标注结果;
[0027]修复模块,用于对所述误标注结果进行修复,得到修复标注结果。
[0028]在上述实现过程中,克服了训练数据的标注过程中需要耗费大量的人力、付出较高的人工成本的技术问题,进而达到用低成本获得大量且类型丰富的训练数据的技术效果。
[0029]进一步地,所述处理模块用于:
[0030]对所述标注数据进行清洗处理,得到有效标注数据;
[0031]根据正则式规则对所述有效数据进行解析,得到误标注结果。
[0032]在上述实现过程中,对标注数据进行清洗处理,可以只保留标注数据中的有效标注数据,使得对数据的标注更加准确。
[0033]进一步地,所述处理模块还用于:
[0034]获取所述正则式规则中的规则列表;
[0035]根据所述规则列表对所述有效标注数据进行遍历,标注所述有效标注数据中的误标数据和漏标数据,得到所述误标注结果。
[0036]在上述实现过程中,通过正则式规则可以准确的将有效数据中的误标数据和漏标数据标注出来,对误标数据和漏标数据进行修复,使得正确的有效数据增多,增加有效标注数据的数量和可用性。
[0037]进一步地,所述获取模块还用于获取语音数据;将所述语音数据转换为文本数据。
[0038]在上述实现过程中,文本数据比语音数据更方便进行标注,将语音数据转换称文本数据可以提高标注速度和标注效率。
[0039]第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
[0040]第四方面,本申请实施例提供的一种计算机可读存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
[0041]第五方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
[0042]本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
[0043]并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
[0044]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0045]图1为本申请实施例提供的数据标注方法的流程示意图;
[0046]图2为本申请实施例提供的数据标注装置的结构组成示意图;
[0047]图3为本申请实施例提供的电子设备的结构组成示意图。
具体实施方式
[0048]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
[0049]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0050]下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
[0051]实施例一
[0052]图1是本申请实施例提供的数据标注方法的流程示意图,如图1所示,该方法包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,所述方法包括:获取文本数据;对所述文本数据进行标注,得到标注数据;根据正则式规则对所述标注数据进行处理,得到误标注结果;对所述误标注结果进行修复,得到修复标注结果。2.根据权利要求1所述的数据标注方法,其特征在于,所述根据正则式规则对所述标注数据进行处理,得到误标注结果的步骤,包括:对所述标注数据进行清洗处理,得到有效标注数据;根据正则式规则对所述有效数据进行解析,得到所述误标注结果。3.根据权利要求2所述的数据标注方法,其特征在于,所述根据正则式规则对所述有效数据进行解析,得到所述误标注结果的步骤,包括:获取所述正则式规则中的规则列表;根据所述规则列表对所述有效标注数据进行遍历,标注所述有效标注数据中的误标数据和漏标数据,得到所述误标注结果。4.根据权利要求1所述的数据标注方法,其特征在于,所述获取文本数据的步骤,包括:获取语音数据;将所述语音数据转换为文本数据。5.一种数据标注装置,其特征在于,所述装置包括:获取模块,用于获取文本数据;标注模块,用于对所述文本数据进行标注,得到标注数据;处...

【专利技术属性】
技术研发人员:郑志敏王建辉吕超杜新凯
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1