一种新意图类别的确定方法及装置制造方法及图纸

技术编号：36086308 阅读：11 留言：0更新日期：2022-12-24 11:01

本申请公开了一种新意图类别的确定方法及装置，在该方法中，将待识别语音数据通过双层实体识别模型进行识别，获得目标实体组合；若目标实体组合不属于实体库，将目标实体组合输入至预训练语言模型，获得目标实体组合对应的目标实体向量；将目标实体向量与多个已有意图类别向量分别进行距离计算，获得多个向量距离，多个意图类别向量由实体库中多个已有实体组合对应的多个已有实体向量聚类得到；若多个向量距离均大于预设阈值，根据待识别语音数据确定新意图类别。可见，该方法避免进行人工分析，以避免新意图类别确定的过程中存在主观性的问题，使得新意图类别的确定结果更加客观，从而提高新意图类别确定结果的准确性。从而提高新意图类别确定结果的准确性。从而提高新意图类别确定结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种新意图类别的确定方法及装置

[0001]本申请涉及自然语言处理
，尤其涉及一种新意图类别的确定方法及装置。

技术介绍

[0002]随着人工智能的快速发展，智能语音服务广泛应用于智能家居、医疗保健、语音支付以及保险服务等各种场景。当客户有需求时，拨打相关电话热线，利用语音表达其诉求，智能语音服务系统会根据语音数据识别客户意图，进行相应地智能应答或指引操作，满足客户的需求。
[0003]现有技术中，通常采用基于文本分类的方法进行新意图识别，该方法具体为：首先，对大量语音数据进行标注，再提取特征训练分类模型，得到意图识别模型；然后，将待识别语音数据通过意图识别模型进行识别，若输出结果为无法将其分到已有意图类别，则对其进行人工分析，考虑是否需要确定为新意图类别；最后，若通过待识别语音数据确定新意图类别，则需标注新意图类别重新进行意图识别模型的训练。
[0004]然而，上述通过人工对不属于已有意图类别的语音数据进行分析，在新意图类别确定的过程中存在主观性较强，新意图类别的确定结果存在客观性不足的问题，导致新意图类别确定结果的准确性较低。

技术实现思路

[0005]有鉴于此，本申请实施例提供了一种新意图类别的确定方法及装置，旨在提高新意图类别确定结果的准确性。。
[0006]第一方面，本申请实施例提供了一种新意图类别的确定方法，所述方法包括：
[0007]将待识别语音数据通过双层实体识别模型进行识别，获得目标实体组合；
[0008]若所述目标实体组合不属于实体库，...

【技术保护点】

【技术特征摘要】
1.一种新意图类别的确定方法，其特征在于，所述方法包括：将待识别语音数据通过双层实体识别模型进行识别，获得目标实体组合；若所述目标实体组合不属于实体库，将所述目标实体组合输入至预训练语言模型，获得所述目标实体组合对应的目标实体向量；将所述目标实体向量与多个已有意图类别向量分别进行距离计算，获得多个向量距离，所述多个已有意图类别向量由所述实体库中多个已有实体组合对应的多个已有实体向量聚类得到；若所述多个向量距离均大于预设阈值，根据所述待识别语音数据确定新意图类别。2.根据权利要求1所述的方法，其特征在于，所述将待识别语音数据通过双层实体识别模型进行识别，获得目标实体组合，包括：将待识别语音数据通过所述双层实体识别模型中基于多个第一预设实体类别的第一层模型进行识别，获得所述待识别语音数据对应的第一目标实体类别和所述第一目标实体类别对应的实体；将待识别语音数据通过所述双层实体识别模型中基于多个第二预设实体类别的第二层模型进行识别，获得所述待识别语音数据对应的第二目标实体类别、所述第二目标实体类别对应的实体和未识别实体，所述多个第二预设实体类别是所述多个第一预设实体类别的子类别；根据所述第二目标实体类别、所述第二目标实体类别对应的实体和所述未识别实体，获得目标实体组合。3.根据权利要求2所述的方法，其特征在于，所述根据所述第二目标实体类别、所述第二目标实体类别对应的实体和所述未识别实体，获得目标实体组合，包括：若所述未识别实体在所述第一目标实体类别对应的实体中，将所述未识别实体确定为新的第二预设实体类别；根据所述新的第二预设实体类别，对所述第二目标实体类别、所述第二目标实体类别对应的实体和所述未识别实体进行更新，获得更新后的第二目标实体类别和所述更新后的第二目标实体类别对应的实体；将所述更新后的第二目标实体类别与所述更新后的第二目标实体类别对应的实体进行叠加，获得所述目标实体组合。4.根据权利要求2或3所述的方法，其特征在于，所述双层实体识别模型的训练步骤，包括：获取多个语音样本数据和每个语音样本数据的第一标注数据和第二标注数据，所述第一标注数据用于标注所述多个第一预设实体类别，所述第二标注数据用于标注所述多个第二预设实体类别；将所述语音样本数据输入双层识别网络进行识别，获得所述语音样本数据的第一识别数据和第二识别数据，所述第一识别数据包括基于所述多个第一预设实体类别的识别数据，所述第二识别数据包括基于所述多...

【专利技术属性】
技术研发人员：尹陆鋆，
申请(专利权)人：太保科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人