一种新意图类别的确定方法及装置制造方法及图纸

技术编号:36086308 阅读:11 留言:0更新日期:2022-12-24 11:01
本申请公开了一种新意图类别的确定方法及装置,在该方法中,将待识别语音数据通过双层实体识别模型进行识别,获得目标实体组合;若目标实体组合不属于实体库,将目标实体组合输入至预训练语言模型,获得目标实体组合对应的目标实体向量;将目标实体向量与多个已有意图类别向量分别进行距离计算,获得多个向量距离,多个意图类别向量由实体库中多个已有实体组合对应的多个已有实体向量聚类得到;若多个向量距离均大于预设阈值,根据待识别语音数据确定新意图类别。可见,该方法避免进行人工分析,以避免新意图类别确定的过程中存在主观性的问题,使得新意图类别的确定结果更加客观,从而提高新意图类别确定结果的准确性。从而提高新意图类别确定结果的准确性。从而提高新意图类别确定结果的准确性。

【技术实现步骤摘要】
一种新意图类别的确定方法及装置


[0001]本申请涉及自然语言处理
,尤其涉及一种新意图类别的确定方法及装置。

技术介绍

[0002]随着人工智能的快速发展,智能语音服务广泛应用于智能家居、医疗保健、语音支付以及保险服务等各种场景。当客户有需求时,拨打相关电话热线,利用语音表达其诉求,智能语音服务系统会根据语音数据识别客户意图,进行相应地智能应答或指引操作,满足客户的需求。
[0003]现有技术中,通常采用基于文本分类的方法进行新意图识别,该方法具体为:首先,对大量语音数据进行标注,再提取特征训练分类模型,得到意图识别模型;然后,将待识别语音数据通过意图识别模型进行识别,若输出结果为无法将其分到已有意图类别,则对其进行人工分析,考虑是否需要确定为新意图类别;最后,若通过待识别语音数据确定新意图类别,则需标注新意图类别重新进行意图识别模型的训练。
[0004]然而,上述通过人工对不属于已有意图类别的语音数据进行分析,在新意图类别确定的过程中存在主观性较强,新意图类别的确定结果存在客观性不足的问题,导致新意图类别确定结果的准确性较低。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种新意图类别的确定方法及装置,旨在提高新意图类别确定结果的准确性。。
[0006]第一方面,本申请实施例提供了一种新意图类别的确定方法,所述方法包括:
[0007]将待识别语音数据通过双层实体识别模型进行识别,获得目标实体组合;
[0008]若所述目标实体组合不属于实体库,将所述目标实体组合输入至预训练语言模型,获得所述目标实体组合对应的目标实体向量;
[0009]将所述目标实体向量与多个已有意图类别向量分别进行距离计算,获得多个向量距离,所述多个已有意图类别向量由所述实体库中多个已有实体组合对应的多个已有实体向量聚类得到;
[0010]若所述多个向量距离均大于预设阈值,根据所述待识别语音数据确定新意图类别。
[0011]可选地,所述将待识别语音数据通过双层实体识别模型进行识别,获得目标实体组合,包括:
[0012]将待识别语音数据通过所述双层实体识别模型中基于多个第一预设实体类别的第一层模型进行识别,获得所述待识别语音数据对应的第一目标实体类别和所述第一目标实体类别对应的实体;
[0013]将待识别语音数据通过所述双层实体识别模型中基于多个第二预设实体类别的
第二层模型进行识别,获得所述待识别语音数据对应的第二目标实体类别、所述第二目标实体类别对应的实体和未识别实体,所述多个第二预设实体类别是所述多个第一预设实体类别的子类别;
[0014]根据所述第二目标实体类别、所述第二目标实体类别对应的实体和所述未识别实体,获得目标实体组合。
[0015]可选地,所述根据所述第二目标实体类别、所述第二目标实体类别对应的实体和所述未识别实体,获得目标实体组合,包括:
[0016]若所述未识别实体在所述第一目标实体类别对应的实体中,将所述未识别实体确定为新的第二预设实体类别;
[0017]根据所述新的第二预设实体类别,对所述第二目标实体类别、所述第二目标实体类别对应的实体和所述未识别实体进行更新,获得更新后的第二目标实体类别和所述更新后的第二目标实体类别对应的实体;
[0018]将所述更新后的第二目标实体类别与所述更新后的第二目标实体类别对应的实体进行叠加,获得所述目标实体组合。
[0019]可选地,所述双层实体识别模型的训练步骤,包括:
[0020]获取多个语音样本数据和每个语音样本数据的第一标注数据和第二标注数据,所述第一标注数据用于标注所述多个第一预设实体类别,所述第二标注数据用于标注所述多个第二预设实体类别;
[0021]将所述语音样本数据输入双层识别网络进行识别,获得所述语音样本数据的第一识别数据和第二识别数据,所述第一识别数据包括基于所述多个第一预设实体类别的识别数据,所述第二识别数据包括基于所述多个第二预设实体类别的识别数据;
[0022]根据所述第一识别数据、所述第二识别数据、所述第一标注数据、所述第二标注数据以及所述双层识别网络的损失函数,训练所述双层识别网络的模型参数;
[0023]将训练完成的所述双层识别网络确定为所述双层实体识别模型。
[0024]可选地,所述实体库的构建步骤,包括:
[0025]根据所述第二识别数据,获得所述多个已有实体组合;
[0026]根据所述多个已有实体组合构建所述实体库。
[0027]可选地,所述根据所述多个已有实体组合构建所述实体库,包括:
[0028]将所述多个已有实体组合通过关联规则挖掘算法进行挖掘,获得目标关联规则;
[0029]根据所述目标关联规则对所述多个已有实体组合进行加工,获得加工后的多个已有实体组合;
[0030]根据所述加工后的多个已有实体组合构建所述实体库。
[0031]可选地,所述多个第一预设实体类别包括:动作词,专有名词,疑问词以及待处理的问题词。
[0032]可选地,所述若所述目标实体组合不属于实体库之后,还包括:
[0033]按照预设规则对所述目标实体组合进行加工,获得加工后的目标实体组合;
[0034]所述将所述目标实体组合输入至预训练语言模型,获得所述目标实体组合对应的目标实体向量,包括:
[0035]将所述加工后的目标实体组合输入至所述预训练语言模型,获得所述目标实体向
量。
[0036]可选地,所述多个已有意图类别向量的聚类步骤,包括:
[0037]对每个已有实体向量分别与所述多个已有实体向量中剩余实体向量之间的相近关系进行标注,获得多个标注实体向量;
[0038]根据所述多个标注实体向量的标注数量对所述多个标注实体向量进行排序,获得实体向量序列;
[0039]根据所述实体向量序列的顺序依次对标注相近关系的已有实体向量进行聚类,获得多个已有意图类别向量。
[0040]第二方面,本申请实施例提供了一种新意图类别的确定装置,所述装置包括:
[0041]识别模块,用于将待识别语音数据通过双层实体识别模型进行识别,获得目标实体组合;
[0042]获得模块,用于若所述目标实体组合不属于实体库,将所述目标实体组合输入至预训练语言模型,获得所述目标实体组合对应的目标实体向量;
[0043]计算模块,用于将所述目标实体向量与多个已有意图类别向量分别进行距离计算,获得多个向量距离,所述多个意图类别向量由所述实体库中多个已有实体组合对应的多个已有实体向量聚类得到;
[0044]确定模块,用于若所述多个向量距离均大于预设阈值,根据所述待识别语音数据确定新意图类别。
[0045]第三方面,本申请实施例提供了一种新意图类别的确定设备,所述设备包括:
[0046]存储器,用于存储计算机程序;
[0047]处理器,用于执行所述计算机程序,以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新意图类别的确定方法,其特征在于,所述方法包括:将待识别语音数据通过双层实体识别模型进行识别,获得目标实体组合;若所述目标实体组合不属于实体库,将所述目标实体组合输入至预训练语言模型,获得所述目标实体组合对应的目标实体向量;将所述目标实体向量与多个已有意图类别向量分别进行距离计算,获得多个向量距离,所述多个已有意图类别向量由所述实体库中多个已有实体组合对应的多个已有实体向量聚类得到;若所述多个向量距离均大于预设阈值,根据所述待识别语音数据确定新意图类别。2.根据权利要求1所述的方法,其特征在于,所述将待识别语音数据通过双层实体识别模型进行识别,获得目标实体组合,包括:将待识别语音数据通过所述双层实体识别模型中基于多个第一预设实体类别的第一层模型进行识别,获得所述待识别语音数据对应的第一目标实体类别和所述第一目标实体类别对应的实体;将待识别语音数据通过所述双层实体识别模型中基于多个第二预设实体类别的第二层模型进行识别,获得所述待识别语音数据对应的第二目标实体类别、所述第二目标实体类别对应的实体和未识别实体,所述多个第二预设实体类别是所述多个第一预设实体类别的子类别;根据所述第二目标实体类别、所述第二目标实体类别对应的实体和所述未识别实体,获得目标实体组合。3.根据权利要求2所述的方法,其特征在于,所述根据所述第二目标实体类别、所述第二目标实体类别对应的实体和所述未识别实体,获得目标实体组合,包括:若所述未识别实体在所述第一目标实体类别对应的实体中,将所述未识别实体确定为新的第二预设实体类别;根据所述新的第二预设实体类别,对所述第二目标实体类别、所述第二目标实体类别对应的实体和所述未识别实体进行更新,获得更新后的第二目标实体类别和所述更新后的第二目标实体类别对应的实体;将所述更新后的第二目标实体类别与所述更新后的第二目标实体类别对应的实体进行叠加,获得所述目标实体组合。4.根据权利要求2或3所述的方法,其特征在于,所述双层实体识别模型的训练步骤,包括:获取多个语音样本数据和每个语音样本数据的第一标注数据和第二标注数据,所述第一标注数据用于标注所述多个第一预设实体类别,所述第二标注数据用于标注所述多个第二预设实体类别;将所述语音样本数据输入双层识别网络进行识别,获得所述语音样本数据的第一识别数据和第二识别数据,所述第一识别数据包括基于所述多个第一预设实体类别的识别数据,所述第二识别数据包括基于所述多...

【专利技术属性】
技术研发人员:尹陆鋆
申请(专利权)人:太保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1