语音意图识别模型的训练方法、装置及电子设备制造方法及图纸

技术编号：35447379 阅读：11 留言：0更新日期：2022-11-03 12:00

本公开关于一种语音意图识别模型的训练方法、装置及电子设备，涉及语音识别技术领域。本公开中，获取带有意图标签的第一语音样本及对应的第一文本样本。获取经训练的利由第二语音样本及对应的第二文本样本训练得到的第一多模态提取网络。基于带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型。语音意图识别模型中的第二多模态提取网络与第一多模态提取网络的网络结构相同、且继承经训练的第一多模态提取网络的网络参数，语音意图识别模型中的意图识别网络基于第二多模态提取网络提取的各模态特征得到预估语音意图。这样，可以降低训练样本获取成本，降低模型训练的实现难度。练的实现难度。练的实现难度。

全部详细技术资料下载

【技术实现步骤摘要】
语音意图识别模型的训练方法、装置及电子设备

[0001]本公开涉及语音识别
，尤其涉及一种语音意图识别模型的训练方法、装置及电子设备。

技术介绍

[0002]目前，语音意图识别的应用越来越广泛，例如，通过对直播中产生的语音进行语音意图识别，来确定直播过程中当前所处的环节。
[0003]在相关技术中，往往是基于带有意图标签的语音样本，直接训练获取语音意图识别模型，以基于该语音意图识别模型进行意图识别。这种方式中，需要大量带有意图标签的语音样本才能实现训练，而带有意图标签的语音样本需要人工标注，获取成本较高。因此，模型训练的实现难度较大。

技术实现思路

[0004]本公开提供一种语音意图识别模型的训练方法、装置及电子设备，以至少解决相关技术中模型训练的实现难度较大的问题。本公开的技术方案如下：
[0005]根据本公开实施例的第一方面，提供了一种语音意图识别模型的训练方法，包括：
[0006]获取第一训练样本集，所述第一训练样本集包括带有意图标签的第一语音样本及对应的第一文本样本；
[0007]获取经训练的第一多模态提取网络，所述第一多模态提取网络至少包括用于提取语音语义特征的语音提取子网络、和用于提取文本语义特征的文本提取子网络，所述第一多模态提取网络是利用由第二语音样本及对应的第二文本样本所构成的第二训练样本集进行训练得到；
[0008]基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型；
>[0009]其中，所述语音意图识别模型包括第二多模态提取网络和意图识别网络，所述第二多模态提取网络与所述第一多模态提取网络的网络结构相同、且继承经训练的所述第一多模态提取网络的网络参数，所述意图识别网络基于所述第二多模态提取网络提取的各模态特征得到预估语音意图。
[0010]可选的，所述获取经训练的第一多模态提取网络，包括：
[0011]将N个所述第二语音样本输入所述语音提取子网络进行语义特征提取，得到N个所述语音语义特征，以及，将N个所述第二语音样本对应的N个所述第二文本样本输入所述文本提取子网络进行语义特征提取，得到N个所述文本语义特征；所述N为大于等于2的正整数；
[0012]计算N个所述语音语义特征中各所述语音语义特征与N个所述文本语义特征中各所述文本语义特征之间的语义相似度；
[0013]基于所述语义相似度，调整所述语音提取子网络以及所述文本提取子网络的网络
参数，以得到经训练的所述第一多模态提取网络。
[0014]可选的，所述基于所述语义相似度，调整所述语音提取子网络以及所述文本提取子网络的网络参数，包括：
[0015]基于所述语义相似度，构建相似度矩阵；其中，所述相似度矩阵的行数及列数均为所述N，所述相似度矩阵中的一个元素表示所述元素所在行对应的第一语义特征与所在列对应的第二语义特征之间的相似度，在所述第一语义特征和所述第二语义特征中，两者择一为所述语音语义特征，另一为所述文本语义特征；
[0016]根据所述相似度矩阵中的各行元素以及各列元素，计算第一目标损失值；
[0017]根据所述第一目标损失值调整所述语音提取子网络以及所述文本提取子网络的网络参数。
[0018]可选的，所述根据所述相似度矩阵中的各行元素以及各列元素，计算第一目标损失值，包括：
[0019]对于所述相似度矩阵中的任一行，基于所述行中位于对角线上的元素以及所述行中位于非对角线上的元素计算所述行对应的第一损失值；所述第一损失值与所述行中对角线上的元素负相关，且所述第一损失值与所述行中非对角线上的元素正相关；
[0020]对于所述相似度矩阵中的任一列，基于所述列中位于对角线上的元素以及所述列中位于非对角线上的元素计算所述列对应的第二损失值；所述第二损失值与所述列中对角线上的元素负相关，且所述第二损失值与所述列中非对角线上的元素正相关；
[0021]基于各所述行对应的第一损失值以及各所述列对应的第二损失值，确定所述第一目标损失值。
[0022]可选的，所述计算N个所述语音语义特征中各所述语音语义特征与N个所述文本语义特征中各所述文本语义特征之间的语义相似度之前，所述方法还包括：
[0023]对于N个所述第二语音样本中的任一所述第二语音样本，对所述第二语音样本的语音语义特征进行时间维度上的池化处理，得到所述语音语义特征的语音表示向量；
[0024]所述计算N个所述语音语义特征中各所述语音语义特征与N个所述文本语义特征中各所述文本语义特征之间的语义相似度，包括：
[0025]计算各所述语音语义特征的语音表示向量与各所述文本语义特征的文本表示向量之间的语义相似度。
[0026]可选的，所述基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型，包括：
[0027]将所述第一语音样本以及所述第一文本样本分别输入所述第二多模态提取网络中的语音提取子网络及文本提取子网络进行语义特征提取，得到目标语音语义特征及目标文本语义特征；
[0028]将所述目标语音语义特征及目标文本语义特征输入所述意图识别网络，得到所述预估语音意图；
[0029]根据所述预估语音意图和所述意图标签，确定第二目标损失值；
[0030]基于所述第二目标损失值，调整所述意图识别网络的网络参数，或调整所述意图识别网络、所述第二多模态提取网络中语音提取子网络及文本提取子网络的网络参数，以得到经训练的所述语音意图识别模型。
[0031]根据本公开实施例的第二方面，提供了一种语音意图识别模型的训练装置，包括：
[0032]第一获取模块，被配置为执行获取第一训练样本集，所述第一训练样本集包括带有意图标签的第一语音样本及对应的第一文本样本；
[0033]第二获取模块，被配置为执行获取经训练的第一多模态提取网络，所述第一多模态提取网络至少包括用于提取语音语义特征的语音提取子网络、和用于提取文本语义特征的文本提取子网络，所述第一多模态提取网络是利用由第二语音样本及对应的第二文本样本所构成的第二训练样本集进行训练得到；
[0034]训练模块，被配置为执行基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型；
[0035]其中，所述语音意图识别模型包括第二多模态提取网络和意图识别网络，所述第二多模态提取网络与所述第一多模态提取网络的网络结构相同、且继承经训练的所述第一多模态提取网络的网络参数，所述意图识别网络基于所述第二多模态提取网络提取的各模态特征得到预估语音意图。
[0036]可选的，所述第二获取模块，具体被配置为执行：
[0037]将N个所述第二语音样本输入所述语音提取子网络进行语义特征提取，得到N个所述语音语义特征，以及，将N个所述第二语音样本对应的N个所述第二文本样本输本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音意图识别模型的训练方法，其特征在于，所述方法包括：获取第一训练样本集，所述第一训练样本集包括带有意图标签的第一语音样本及对应的第一文本样本；获取经训练的第一多模态提取网络，所述第一多模态提取网络至少包括用于提取语音语义特征的语音提取子网络、和用于提取文本语义特征的文本提取子网络，所述第一多模态提取网络是利用由第二语音样本及对应的第二文本样本所构成的第二训练样本集进行训练得到；基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型；其中，所述语音意图识别模型包括第二多模态提取网络和意图识别网络，所述第二多模态提取网络与所述第一多模态提取网络的网络结构相同、且继承经训练的所述第一多模态提取网络的网络参数，所述意图识别网络基于所述第二多模态提取网络提取的各模态特征得到预估语音意图。2.根据权利要求1所述的方法，其特征在于，所述获取经训练的第一多模态提取网络，包括：将N个所述第二语音样本输入所述语音提取子网络进行语义特征提取，得到N个所述语音语义特征，以及，将N个所述第二语音样本对应的N个所述第二文本样本输入所述文本提取子网络进行语义特征提取，得到N个所述文本语义特征；所述N为大于等于2的正整数；计算N个所述语音语义特征中各所述语音语义特征与N个所述文本语义特征中各所述文本语义特征之间的语义相似度；基于所述语义相似度，调整所述语音提取子网络以及所述文本提取子网络的网络参数，以得到经训练的所述第一多模态提取网络。3.根据权利要求2所述的方法，其特征在于，所述基于所述语义相似度，调整所述语音提取子网络以及所述文本提取子网络的网络参数，包括：基于所述语义相似度，构建相似度矩阵；其中，所述相似度矩阵的行数及列数均为所述N，所述相似度矩阵中的一个元素表示所述元素所在行对应的第一语义特征与所在列对应的第二语义特征之间的相似度，在所述第一语义特征和所述第二语义特征中，两者择一为所述语音语义特征，另一为所述文本语义特征；根据所述相似度矩阵中的各行元素以及各列元素，计算第一目标损失值；根据所述第一目标损失值调整所述语音提取子网络以及所述文本提取子网络的网络参数。4.根据权利要求3所述的方法，其特征在于，所述根据所述相似度矩阵中的各行元素以及各列元素，计算第一目标损失值，包括：对于所述相似度矩阵中的任一行，基于所述行中位于对角线上的元素以及所述行中位于非对角线上的元素计算所述行对应的第一损失值；所述第一损失值与所述行中对角线上的元素负相关，且所述第一损失值与所述行中非对角线上的元素正相关；对于所述相似度矩阵中的任一列，基于所述列中位于对角线上的元素以及所述列中位于非对角线上的元素计算所述列对应的第二损失值；所述第二损失值与所述列中对角线上的元素负相关，且所述第二损失值与所述列中非对角线上的元素正相关；
基于各所述行对应的第一损失值以及各所述列对应的第二损失值，确定所述第一目标损失值。5.根据权利要求2
‑<...

【专利技术属性】
技术研发人员：付嘉懿，周鹏，李昊，王晓瑞，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人