数据处理方法、装置及电子设备制造方法及图纸

技术编号:38496082 阅读:9 留言:0更新日期:2023-08-15 17:06
本公开提供了一种数据处理方法、装置及电子设备,所述方法包括:获取待处理数据组;将所述待处理数据组与数据集合进行语义聚类,得到多个第一数据簇;确定所述第一数据簇中不同于所述第二数据簇的至少一个第三数据簇;对所述第三数据簇中的第一数据进行实体识别,以确定所述第三数据簇中的第一数据对应的三元组;基于推理模型,通过所述第三数据簇中第一数据对应的三元组,确定所述第三数据簇对应的意图。确定所述第三数据簇对应的意图。确定所述第三数据簇对应的意图。

【技术实现步骤摘要】
数据处理方法、装置及电子设备


[0001]本公开涉及数据意图识别技术,尤其涉及一种数据处理方法、装置及电子设备。

技术介绍

[0002]在智能客服场景中,传统意图一般是单一类别,而结构化意图是把意图理解拆分,进行细粒度的意图识别,从而更详细地理解用户的语音数据的语义。在识别结构化意图时,通常需要预定义一套提纲(schema)体系,包括三个子分类体系:主体、动作和具体内容,但不能识别体系外的新意图。通常的解决方案是通过人工质检反馈错误数据(Case)来发现新意图,这种方法的问题在于:由于结构化意图更复杂,需要从相似的case中出总结归纳合理的新意图标签,当意图体系很大时,耗费人力和时间较大。

技术实现思路

[0003]本公开提供了一种数据处理方法、装置及电子设备。
[0004]根据本公开的第一方面,提供一种数据处理方法,包括:
[0005]获取待处理数据组,所述待处理数据组包括至少一个未知意图的第一数据,所述数据为语音数据或者文本数据;
[0006]将所述待处理数据组与数据集合进行语义聚类,得到多个第一数据簇,所述数据集合包括多个具有已知意图的第二数据,所述多个第二数据基于语义聚类为至少一个第二数据簇;
[0007]确定所述第一数据簇中不同于所述第二数据簇的至少一个第三数据簇,所述第三数据簇包括至少一个所述第一数据;
[0008]对所述第三数据簇中的第一数据进行实体识别,以确定所述第三数据簇中第一数据对应的三元组;
[0009]基于推理模型,通过所述第三数据簇中第一数据对应的三元组,确定所述第三数据簇对应的意图。
[0010]在一可实施方式中,在确定所述第三数据簇对应的意图之前,还包括:
[0011]基于指定知识图谱对所述第三数据簇中第一数据对应的三元组进行实体归一化处理,得到所述第三数据簇中第一数据对应的候选意图。
[0012]在一可实施方式中,所述确定所述第三数据簇对应的意图,包括:
[0013]基于推理模型,将所述第三数据簇中的每一第一数据对应的候选意图转换为语义向量,基于所述第三数据簇中的各第一数据的语义向量确定各候选意图之间的语义相似度;
[0014]将所述语义相似度满足条件的候选意图作为所述第三数据簇的意图。
[0015]在一可实施方式中,所述方法还包括:
[0016]将语义相似度达到设定阈值的两个以上的候选意图作为候选意图组,确定所述候选意图组中候选意图数量最多的候选意图组对应的候选意图满足语义相似度条件。
[0017]在一可实施方式中,所述确定所述第三数据簇中第一数据对应的三元组,包括:
[0018]通过开放信息抽取序列标注方法,基于词性、依存句法、语义角色、从句中的至少之一,无监督地抽取所述第一数据的主语、谓词、宾语三元组。
[0019]在一可实施方式中,在确定所述第三数据簇对应的意图之后,所述方法还包括:
[0020]确定所述第三数据簇中第一数据的意图为所述第三数据簇对应的意图;
[0021]其中,所述第一数据变更为已知意图的数据。
[0022]在一可实施方式中,所述方法还包括:
[0023]如果未知意图的第一数据基于语义聚类至第二数据簇,将所述第二数据簇对应的意图作为所述第一数据的意图。
[0024]在一可实施方式中,所述方法还包括:将所述第一数据添加至所述数据集合中。
[0025]根据本公开的第二方面,提供一种数据处理装置,包括:
[0026]获取单元,用于获取待处理数据组;所述待处理数据组包括至少一个具有未知意图的第一数据,所述数据为语音数据或者文本数据;
[0027]聚类单元,用于将所述待处理数据组与数据集合进行语义聚类,得到多个第一数据簇,所述数据集合包括多个具有已知意图的第二数据,所述多个第二数据基于语义聚类为至少一个第二数据簇;
[0028]第一确定单元,用于确定所述第一数据簇中不同于所述第二数据簇的至少一个第三数据簇,所述第三数据簇包括至少一个所述第一数据;
[0029]第二确定单元,用于对所述第三数据簇中的第一数据进行实体识别,以确定所述第三数据簇中的第一数据对应的三元组;
[0030]第三确定单元,用于基于推理模型,通过所述第三数据簇中第一数据对应的三元组,确定所述第三数据簇对应的意图。
[0031]根据本公开的第三方面,提供了一种电子设备,包括:
[0032]至少一个处理器;以及
[0033]与所述至少一个处理器通信连接的存储器;其中,
[0034]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的数据处理方法的步骤。
[0035]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开所述的数据处理方法的步骤。
[0036]本公开的数据处理方法、装置及电子设备,通过对待处理数据和已知数据集合进行语义聚类,能够确定出其中的第三数据簇,即新的数据簇,新的数据簇中包含第一数据,即未知意图的数据。基于对该新的的数据簇中未知意图的数据进行实体识别,确定未知意图的数据对应的三元组,进而基于推理模型可以确定新的数据簇对应的意图。
[0037]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0038]通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若
干实施方式,其中:
[0039]在附图中,相同或对应的标号表示相同或对应的部分。
[0040]图1示出了本公开实施例的数据处理方法的实现流程示意图一;
[0041]图2示出了本公开实施例的数据处理方法的实现流程示意图二;
[0042]图3示出了本公开实施例语句的结构化描述示意图;
[0043]图4示出了本公开实施例的数据处理方法的实现示意图;
[0044]图5示出了本公开实施例的数据处理装置的组成结构示意图;
[0045]图6示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
[0046]为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0047]图1示出了本公开实施例的数据处理方法的实现流程示意图一,如图1所示,本公开实施例的数据处理方法包括以下处理步骤:
[0048]步骤101,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:获取待处理数据组,所述待处理数据组包括至少一个未知意图的第一数据,所述数据为语音数据或者文本数据;将所述待处理数据组与数据集合进行语义聚类,得到多个第一数据簇,所述数据集合包括多个具有已知意图的第二数据,所述多个第二数据基于语义聚类为至少一个第二数据簇;确定所述第一数据簇中不同于所述第二数据簇的至少一个第三数据簇,所述第三数据簇包括至少一个所述第一数据;对所述第三数据簇中的第一数据进行实体识别,以确定所述第三数据簇中第一数据对应的三元组;基于推理模型,通过所述第三数据簇中第一数据对应的三元组,确定所述第三数据簇对应的意图。2.根据权利要求1所述的数据处理方法,在确定所述第三数据簇对应的意图之前,还包括:基于指定知识图谱对所述第三数据簇中第一数据对应的三元组进行实体归一化处理,得到所述第三数据簇中第一数据对应的候选意图。3.根据权利要求2所述的数据处理方法,所述确定所述第三数据簇对应的意图,包括:基于推理模型,将所述第三数据簇中的每一第一数据对应的候选意图转换为语义向量,基于所述第三数据簇中的各第一数据的语义向量确定各候选意图之间的语义相似度;将所述语义相似度满足条件的候选意图作为所述第三数据簇的意图。4.根据权利要求2所述的数据处理方法,所述方法还包括:将语义相似度达到设定阈值的两个以上的候选意图作为候选意图组,确定所述候选意图组中候选意图数量最多的候选意图组对应的候选意图满足语义相似度条件。5.根据权利要求1所述的方法,其特征在于,所述确定所述第三数据簇中第一数据对应的三元组,包括:通过开放信息抽取序列标注方法,基于词性、依存句法、语义角色、从句中的至少之一,无监督地抽取所述第一数据的主语、谓词、...

【专利技术属性】
技术研发人员:李彤李让
申请(专利权)人:联想诺谛北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1