一种数据标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36088450 阅读:18 留言:0更新日期:2022-12-24 11:04
本发明专利技术提供了一种数据标注、装置、电子设备及存储介质,应用于人工智能技术领域,所述数据标注方法先获取数据,所述数据包括:已标注数据和未标注数据;再根据表达式分析所述已标注数据和所述未标注数据,所述表达式包括正则表达式和/或逻辑表达式;最后根据分析结果对所述已标注数据进行评估及对所述未标注数据进行标注。本发明专利技术通过对数据采用渐进式的标注方式,在对新数据分析标注的时候也对已经标注的数据进行分析评估,可以提高数据标注的准确性,提高用户对于标注数据的满意度,不需要人工进行重复的标注,节省人力资源。节省人力资源。节省人力资源。

【技术实现步骤摘要】
一种数据标注方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种数据标注、装置、电子设备及存储介质。

技术介绍

[0002]目前,移动用户进入存量经营阶段,用户的留存率、满意度面临着重要的挑战,需要深入业务场景,对大量的数据进行分析和标注,从中挖掘出对客户有价值的数据,但是目前对于数据的分析和标注需要花费大量的人力物力,而且数据是实时更新的,因此数据的分析和标注也需要实时的更新,否则之前的数据就会不准确,导致用户的流失。

技术实现思路

[0003]本专利技术提供了一种数据标注、装置、电子设备及存储介质,通过对数据采用渐进式的标注方式,在对新数据分析标注的时候也对已经标注的数据进行分析评估,可以提高数据标注的准确性,提高用户对于标注数据的满意度,不需要人工进行重复的标注,节省人力资源。
[0004]第一方面,本专利技术的实施例提供了一种数据标注方法,包括:
[0005]获取数据,数据包括:已标注数据和未标注数据;
[0006]根据表达式分析已标注数据和未标注数据,所述表达式包括正则表达式和/或逻辑表达式;
[0007]根据分析结果对已标注数据进行评估;
[0008]根据分析结果对未标注数据进行标注。
[0009]通过上述技术方案,可以对数据采用渐进式的标注方式,在对新数据分析标注的时候也对已经标注的数据进行分析评估,可以提高数据标注的准确性,提高用户对于标注数据的满意度,不需要人工进行重复的标注,节省人力资源。
[0010]可选地,获取数据,包括:
[0011]根据用户需求获取对应的初始数据,用户需求包括如下一项或多项:数据格式、数据量、数据类型、或数据来源;
[0012]根据智能标注模型和/或规则模型对初始数据进行标注,得到已标注数据。
[0013]通过上述技术方案,可以节省人力资源,可以通过已经训练好的模型实现数据的自动标注。
[0014]可选地,根据表达式分析已标注数据和未标注数据,包括:
[0015]获取关键字符,关键字符用于确定表达式;
[0016]根据表达式确定第一匹配率和第二匹配率;第一匹配率为表达式与已标注数据的匹配率,第二匹配率为表达式与未标注数据的匹配率。
[0017]可选地,根据分析结果对未标注数据进行标注,包括:
[0018]若第一匹配率大于等于第一数值阈值且第二匹配率大于等于第二数值阈值,则使
用表达式对应的标签对未标注数据进行标注;
[0019]若第一匹配率小于第一数值阈值和/或第二匹配率小于第二数值阈值,则重新获取关键字符。
[0020]可选地,数据标注方法还包括:
[0021]获取标注方案,标注方案包括:标注方式和标注的时间,标注方式包括如下一项或多项:智能模型标注、规则模型标注、或人工标注,标注的时间通过cron表达式设定;
[0022]根据标注方式和标注的时间,对初始数据进行标注。
[0023]可选地,根据分析结果对已标注数据进行评估,包括:
[0024]根据评估规则对已标注数据进行评估,评估规则包括敏感词评估规则和标签匹配率评估规则;
[0025]根据评估结果确定对已标注数据的处理方式,所述处理方式包括:删除标签、增加标签或修改标签。
[0026]第二方面,本专利技术的实施例提供了一种数据标注装置,包括:
[0027]获取模块,用于获取数据,数据包括:已标注数据和未标注数据;
[0028]分析模块,用于根据表达式分析已标注数据和未标注数据,表达式包括正则表达式和/或逻辑表达式;
[0029]评估模块,根据分析结果对已标注数据进行评估;
[0030]标注模块,用于根据分析结果对未标注数据进行标注。
[0031]可选地,评估模块还用于,根据评估规则对已标注数据进行评估,再根据评估结果确定对已标注数据的处理方式;评估规则包括敏感词评估规则和标签匹配率评估规则,处理方式包括:删除标签、增加标签或修改标签。
[0032]第三方面,本专利技术的实施例提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如第一方面中任一实现方式所述的方法。
[0033]第四方面,本专利技术的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一实现方式所述的方法。
[0034]本专利技术提供了一种数据标注、装置、电子设备及存储介质,所述数据标注方法先获取数据,所述数据包括:已标注数据和未标注数据;再根据表达式分析所述已标注数据和所述未标注数据,所述表达式包括正则表达式和/或逻辑表达式;最后根据分析结果对所述已标注数据进行评估及对所述未标注数据进行标注。本专利技术通过对数据采用渐进式的标注方式,在对新数据分析标注的时候也对已经标注的数据进行分析评估,可以提高数据标注的准确性,提高用户对于标注数据的满意度,不需要人工进行重复的标注,节省人力资源。
[0035]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本专利技术的实施例的关键或重要特征,亦非用于限制本专利技术的范围。本专利技术的其它特征将通过以下的描述变得容易理解。
附图说明
[0036]结合附图并参考以下详细说明,本专利技术各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素。
[0037]图1为本专利技术实施例的一种数据标注方法的流程图;
[0038]图2为本专利技术实施例的一种数据标注装置的结构示意图;
[0039]图3为本专利技术实施例的一种电子设备的结构图。
具体实施方式
[0040]为了使本
的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
[0041]需要说明的是,本专利技术实施例描述的仅仅是为了更加清楚的说明本专利技术实施例的技术方案,并不构成对本专利技术实施例提供的技术方案的限定。
[0042]图1为本专利技术实施例的一种数据标注方法的流程图。如图1所示,包括:
[0043]S101、获取数据。
[0044]可选地,数据包括:已标注数据和未标注数据。
[0045]可选地,获取数据,包括:
[0046]根据用户需求获取对应的初始数据,用户需求包括如下一项或多项:数据格式、数据量、数据类型、或数据来源;
[0047]根据智能标注模型和/或规则模型对初始数据进行标注,得到已标注数据;
[0048]其中,初始数据剩余待标注的数据为所述未标注数据。
[0049]可选地,可以通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:获取数据,所述数据包括:已标注数据和未标注数据;根据表达式分析所述已标注数据和所述未标注数据,所述表达式包括正则表达式和/或逻辑表达式;根据分析结果对所述已标注数据进行评估;根据分析结果对所述未标注数据进行标注。2.根据权利要求1所述的数据标注方法,其特征在于,所述获取数据,包括:根据用户需求获取对应的初始数据,所述用户需求包括如下一项或多项:数据格式、数据量、数据类型、或数据来源;根据智能标注模型和/或规则模型对所述初始数据进行标注,得到所述已标注数据。3.根据权利要求1所述的数据标注方法,其特征在于,所述根据表达式分析所述已标注数据和所述未标注数据,包括:获取关键字符,所述关键字符用于确定所述表达式;根据所述表达式确定第一匹配率和第二匹配率;所述第一匹配率为所述表达式与所述已标注数据的匹配率,所述第二匹配率为所述表达式与所述未标注数据的匹配率。4.根据权利要求3所述的数据标注方法,其特征在于,所述根据分析结果对所述未标注数据进行标注,包括:若所述第一匹配率大于等于第一数值阈值且所述第二匹配率大于等于第二数值阈值,则使用所述表达式对应的标签对所述未标注数据进行标注;若所述第一匹配率小于所述第一数值阈值和/或所述第二匹配率小于所述第二数值阈值,则重新获取所述关键字符。5.根据权利要求2所述的数据标注方法,其特征在于,还包括:获取标注方案,所述标注方案包括:标注方式和标注的时间,所述标注方式包括如下一项或多项:智能模型标注、规则模型标...

【专利技术属性】
技术研发人员:曲道俊陈瑶
申请(专利权)人:北京合力亿捷科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1