System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理方法、装置、电子设备及存储介质制造方法及图纸_技高网

数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41180098 阅读:7 留言:0更新日期:2024-05-07 22:14
本申请实施例提供了数据处理方法、装置、电子设备及存储介质,在获取到待检测文本标签集合后,对待检测文本标签集合进行标签质量检测,得到标签质量检测结果;再基于标签质量检测结果确定目标文本标签集合;并非直接将人为或自动构建的初始文本标签集合作为用于对文本进行打标签的目标文本标签集合,而是通过对目标文本分类任务所用到的文本标签集合进行质量检测,这样实现只有在标签质量检测结果满足预设约束条件的情况下,才将待检测文本标签集合作为最终的目标文本标签集合,从而确保各文本标签数据的命名准确性,进而提高基于目标文本标签集合对文本数据进行打标签得到的标注文本数据的文本标签的可参考性。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种数据处理方法、装置、电子设备及存储介质


技术介绍

1、目前,随着人工智能技术的快速发展,对话机器人的应用越来越广泛,其中,以智能客服为例,在智能客服与目标用户进行多轮对话的过程中,通常情况下,需要先基于预先构建的意图标签体系(包括用于对文本数据进行打标签的多个意图标签),确定目标用户的提问语句的意图标签,即识别用户意图;再基于意图标签从回复语句库中查找对应的回复语句,因此,意图标签体系中的意图标签的命名准确度会直接影响到回复语句的准确度,即意图标签体系的质量起着至关重要的作用。


技术实现思路

1、本申请实施例的目的是提供一种数据处理方法、装置、电子设备及存储介质,能够确保各文本标签数据的命名准确性,进而提高基于目标文本标签集合对文本数据进行打标签得到的标注文本数据的文本标签的可参考性。

2、为了实现上述技术方案,本申请实施例是这样实现的:

3、第一方面,本申请实施例提供的一种数据处理方法,所述方法包括:

4、获取与目标文本分类任务关联的待检测文本标签集合;所述待检测文本标签集合包括多个第一文本标签数据;

5、对所述多个第一文本标签数据进行标签质量检测,得到所述待检测文本标签集合的标签质量检测结果;

6、基于所述标签质量检测结果,确定与所述目标文本分类任务关联的目标文本标签集合。

7、第二方面,本申请实施例提供的一种数据处理装置,所述装置包括:

8、标签获取模块,用于获取与目标文本分类任务关联的待检测文本标签集合;所述待检测文本标签集合包括多个第一文本标签数据;

9、标签检测模块,用于对所述多个第一文本标签数据进行标签质量检测,得到所述待检测文本标签集合的标签质量检测结果;

10、标签确定模块,用于基于所述标签质量检测结果,确定与所述目标文本分类任务关联的目标文本标签集合。

11、第三方面,本申请实施例提供的一种电子设备,所述设备包括:

12、处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行如第一方面中所述的方法中的步骤。

13、第四方面,本申请实施例提供的一种计算机可读存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如第一方面中所述的方法中的步骤。

14、可以看出,在本申请实施例中,在获取到待检测文本标签集合后,对待检测文本标签集合进行标签质量检测,得到标签质量检测结果;再基于标签质量检测结果确定目标文本标签集合;并非直接将人为或自动构建的初始文本标签集合作为用于对文本进行打标签的目标文本标签集合,而是目标文本分类任务所用到的目标文本标签集合是经过标签质量检测的,基于标签质量检测结果决定是否将待检测文本标签集合作为最终的目标文本标签集合(例如,如果标签质量检测结果不满足预设约束条件,则提示人为执行标签纠正或者触发自动标签纠正,即待检测文本标签集合可以是最初构建的初始文本标签集合或者初始文本标签集合经过至少一次标签自动纠正的纠正文本标签集合),这样能够实现对目标文本标签集合的标签质量进行管控,从而确保最终使用的文本标签数据的命名准确性,进而提高目标标注文本(即基于目标文本标签集合对文本数据进行打标签得到的)的文本标签的可参考性。

本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述多个第一文本标签数据进行标签质量检测,得到所述待检测文本标签集合的标签质量检测结果,包括:

3.根据权利要求2所述的方法,其特征在于,所述对每个所述第一文本标签数据进行多维度表征提取处理,得到每个所述第一文本标签数据的多维度标签表征向量,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于每个所述多维度标签表征向量进行标签质量检测,得到第一质量检测结果,包括:

5.根据权利要求3所述的方法,其特征在于,所述标签表征向量拼接序列包括基于所述义素维度表征向量得到的义素表征向量拼接序列和基于所述语体维度表征向量得到的语体表征向量拼接序列;

6.根据权利要求2所述的方法,其特征在于,所述第一质量检测结果包括每个所述第一文本标签数据的单个标签质量得分,所述第二质量检测结果包括所述待检测文本标签集合的标签整体质量得分;

7.根据权利要求6所述的方法,其特征在于,所述第一质量检测结果还包括所述第一文本标签数据的标准文本标签数据;

8.根据权利要求7所述的方法,其特征在于,所述基于所述标准文本标签数据,确定新的待检测文本标签集合,包括:

9.一种数据处理装置,其特征在于,所述装置包括:

10.一种电子设备,其特征在于,所述设备包括:

11.一种计算机可读存储介质,其特征在于,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如权利要求1至8任一项所述的方法。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述多个第一文本标签数据进行标签质量检测,得到所述待检测文本标签集合的标签质量检测结果,包括:

3.根据权利要求2所述的方法,其特征在于,所述对每个所述第一文本标签数据进行多维度表征提取处理,得到每个所述第一文本标签数据的多维度标签表征向量,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于每个所述多维度标签表征向量进行标签质量检测,得到第一质量检测结果,包括:

5.根据权利要求3所述的方法,其特征在于,所述标签表征向量拼接序列包括基于所述义素维度表征向量得到的义素表征向量拼接序列和基于所述语体维度表征向量得到的语体表征向量拼接序列;

...

【专利技术属性】
技术研发人员:白安琪
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1