一种数据标注方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:26689780 阅读:14 留言:0更新日期:2020-12-12 02:39
本申请提供了一种数据标注方法、装置、电子设备和计算机可读介质,属于标注技术领域。方法包括:获取目标数据和所述目标数据的样本标签信息;通过初始标注系统,得到所述目标数据的标注标签信息;通过所述样本标签信息、目标标注条件和通过所述初始标注系统得到的标注标签信息,对所述初始标注系统进行迭代,直至所述样本标签信息和所述标注标签信息的差值小于预设阈值,得到迭代完成后的目标标注系统;通过所述目标标注系统进行数据标注。本申请提高了目标标注系统标注的规范性和准确性。

【技术实现步骤摘要】
一种数据标注方法、装置、电子设备和计算机可读介质
本申请涉及标注
,尤其涉及一种数据标注方法、装置、电子设备和计算机可读介质。
技术介绍
目前某些行业为了加强对客户或业务的了解,可以收集与客户之间的对话,然后通过标注员对对话进行标注并整理成有效数据以供参考。但标注员在标注过程中具有很强的主观性,且对于缺乏经验的标注员来说,其难以把控标注重点,导致标注结果难以进行统一,标注数据的质量难以保证。
技术实现思路
本申请实施例的目的在于提供一种数据标注方法、装置、电子设备和计算机可读介质,以解决标注不规范的问题。具体技术方案如下:第一方面,本申请提供了一种数据标注方法,所述方法包括:获取目标数据和所述目标数据的样本标签信息;通过初始标注系统,得到所述目标数据的标注标签信息;通过所述样本标签信息、目标标注条件和通过所述初始标注系统得到的标注标签信息,对所述初始标注系统进行迭代,直至所述样本标签信息和所述标注标签信息的差值小于预设阈值,得到迭代完成后的目标标注系统;通过所述目标标注系统进行数据标注。可选地,所述通过所述目标标注系统进行数据标注之后,所述方法还包括:在获取到的样本数据的数量达到预设数值的情况下,获取所述样本数据和所述样本标签信息,其中,所述样本数据包括相同类别的多个所述目标数据;将所述样本数据输入初始标注模型,得到所述初始标注模型输出的标注结果;在所述样本标签信息与所述标注结果不一致的情况下,调整所述初始标注模型的模型参数,得到目标标注模型,其中,所述目标标注模型输出的所述标注结果与所述样本标签信息一致;通过所述目标标注模型进行数据标注,得到所述样本数据的标注标签信息。可选地,所述得到迭代完成后的目标标注系统之前,所述方法还包括:分析所述目标数据的情感倾向和语气句式;根据所述情感倾向和所述语气句式训练所述初始标注系统。可选地,所述获取目标数据之前,所述方法还包括:获取第一文本数据,其中,所述第一文本数据为清洗后的文本数据;通过聚类操作将所述第一文本数据进行分类,得到多类文本数据;根据所述目标标注条件,选取所述多类文本数据中的一类文本数据作为所述目标数据。可选地,所述获取第一文本数据之前,所述方法还包括:获取第二文本数据,其中,所述第二文本数据为待清洗的文本数据;将所述第二文本数据进行数据清洗,得到第三文本数据;将所述第三文本数据作为所述第一文本数据。可选地,所述将所述第三文本数据作为所述第一文本数据包括:将所述第三文本数据进行数据平滑操作,以保留所述第三文本数据中多个重复数据中的一条数据;将进行所述数据平滑操作后的第三文本数据作为所述第一文本数据。可选地,所述获取第二文本数据包括:获取目标语音信息;通过语音识别将所述目标语音信息转换为所述第二文本数据。第二方面,本申请提供了一种数据标注装置,所述装置包括:获取模块,用于获取目标数据和所述目标数据的样本标签信息;生成模块,用于通过初始标注系统,得到所述目标数据的标注标签信息;迭代模块,用于通过所述样本标签信息、目标标注条件和通过所述初始标注系统得到的标注标签信息,对所述初始标注系统进行迭代,直至所述样本标签信息和所述标注标签信息的差值小于预设阈值,得到迭代完成后的目标标注系统;标注模块,用于通过所述目标标注系统进行数据标注。第三方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现任一所述的方法步骤。第四方面,本申请提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的方法步骤。本申请实施例有益效果:本申请实施例提供了一种数据标注方法,目标设备获取目标数据和目标数据的样本标签信息,然后通过初始标注系统,得到目标数据的标注标签信息,再通过样本标签信息、目标标注条件和通过初始标注系统得到的标注标签信息,得到迭代完成后的目标标注系统,通过目标标注系统进行数据标注。本申请采用目标标注系统对数据进行标注,由于样本标签数据是在专家人员的协助下构建的,因此样本标签数据减少了标注人员的主观因素,通过样本标签信息得到的目标标注系统也更为规范。当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种数据标注的方法流程图;图2为本申请实施例提供的生成目标标注模型的方法流程图;图3为本申请实施例提供的一种数据标注方法的流程示意图;图4为本申请实施例提供的数据标注装置的结构示意图;图5为本申请实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请实施例提供了一种数据标注方法,可以应用于目标设备,用于建立统一的标注系统。下面将结合具体实施方式,对本申请实施例提供的一种数据标注方法进行详细的说明,如图1所示,具体步骤如下:步骤101:获取目标数据和目标数据的样本标签信息。在本申请实施例中,垂直行业的技术人员为了得到规范化的样本标签信息,可以在专家人员的协助下预先构建样本标签信息,其中,垂直行业可以为汽车餐饮、家具等行业,标签信息包括关键词、话题信息、主题内容等。业务人员在与客户会面谈话时,可以携带该目标设备,目标设备获取业务人员和客户之间的语音谈话内容,并标注该语音谈话内容中的有效信息。技术人员获取目标数据和该目标数据对应的样本标签信息,并根据目标数据和该样本标签信息构建初始标注系统,初始标注系统用于建立目标数据和样本标签信息之间的对应关系。在构建该初始标注系统后,目标设备获取目标数据和目标数据的样本标签信息。示例性地,技术人员可以采用J2EE(Java2PlatformEnterpriseEdition,J2EE平台企业版)构建初始标注系统。步骤102:通过初始标注系统,得到目标数据的标注标签信息。在本申请实施例中,目标设备获取目标数据和目标数据的样本标签信息后,将目标数据输入初始标注系统,初始标注系统输本文档来自技高网...

【技术保护点】
1.一种数据标注方法,其特征在于,所述方法包括:/n获取目标数据和所述目标数据的样本标签信息;/n通过初始标注系统,得到所述目标数据的标注标签信息;/n通过所述样本标签信息、目标标注条件和通过所述初始标注系统得到的标注标签信息,对所述初始标注系统进行迭代,直至所述样本标签信息和所述标注标签信息的差值小于预设阈值,得到迭代完成后的目标标注系统;/n通过所述目标标注系统进行数据标注。/n

【技术特征摘要】
1.一种数据标注方法,其特征在于,所述方法包括:
获取目标数据和所述目标数据的样本标签信息;
通过初始标注系统,得到所述目标数据的标注标签信息;
通过所述样本标签信息、目标标注条件和通过所述初始标注系统得到的标注标签信息,对所述初始标注系统进行迭代,直至所述样本标签信息和所述标注标签信息的差值小于预设阈值,得到迭代完成后的目标标注系统;
通过所述目标标注系统进行数据标注。


2.根据权利要求1所述的方法,其特征在于,所述通过所述目标标注系统进行数据标注之后,所述方法还包括:
在获取到的样本数据的数量达到预设数值的情况下,获取所述样本数据和所述样本标签信息,其中,所述样本数据包括相同类别的多个所述目标数据;
将所述样本数据输入初始标注模型,得到所述初始标注模型输出的标注结果;
在所述样本标签信息与所述标注结果不一致的情况下,调整所述初始标注模型的模型参数,得到目标标注模型,其中,所述目标标注模型输出的所述标注结果与所述样本标签信息一致;
通过所述目标标注模型进行数据标注,得到所述样本数据的标注标签信息。


3.根据权利要求1所述的方法,其特征在于,所述得到迭代完成后的目标标注系统之前,所述方法还包括:
分析所述目标数据的情感倾向和语气句式;
根据所述情感倾向和所述语气句式训练所述初始标注系统。


4.根据权利要求1所述的方法,其特征在于,所述获取目标数据之前,所述方法还包括:
获取第一文本数据,其中,所述第一文本数据为清洗后的文本数据;
通过聚类操作将所述第一文本数据进行分类,得到多类文本数据;
根据所述目标标注条件,选取所述多类文本数据中的一类文本数据作为所述目标数据。


5.根据权利要求4所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:吴涛梁志婷徐世超徐浩
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1