机器学习模型的训练方法、意图识别方法及相关装置、设备制造方法及图纸

技术编号：24122885 阅读：40 留言：0更新日期：2020-05-13 03:38

本申请实施例公开了人工智能领域中的一种机器模型训练方法、意图识别方法及相关装置，该方法包括：根据训练样本对胶囊网络模型进行训练，训练过程包括：根据第一激活向量与第一预测向量的相似度迭代调整第一预测向量所对应的当前权重系数；其中，第一激活向量为多个预测向量加权相加，表示训练文本的意图预测为第一真实意图的概率；第一预测向量表示第一语义特征对第一真实意图的贡献。进而，使得与第一激活向量相似度大的预测向量所对应的权重系数变大，进而筛选出与第一激活向量相似度大的预测向量对应的语义特征，过滤与第一激活向量相似度小的预测向量对应的语义特征，实现筛选出关联度高的语义特征构成意图，提高模型的意图识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
机器学习模型的训练方法、意图识别方法及相关装置、设备
本申请涉及机器学习
，尤其涉及一种用于识别意图的胶囊网络模型的训练方法、用于识别意图的组合机器学习模型的训练方法、意图识别方法及相关装置、设备。
技术介绍
随着人工智能技术的发展，对话系统已经应用在越来越多的电子设备中，如手机、智能助手、智能音箱、智能车载设备、智能机器人等。对话系统为用户提供了一种通过语音直接和机器进行对话的交互方式，比传统的点击或触摸方式更具便利性和灵活性。在与机器的通过对话进行交互的过程中，准确识别用户话语背后的意图是对话流程正确执行的关键。如果意图识别有误，机器会出现答非所问或者执行错误的指令。现有的意图识别方法可以包括两类：基于检索的方案和基于分类的方案。基于检索的意图识别方法的基本原理是：针对每个意图，人工枚举其可能的说法，构造一个意图说法数据库；当介绍到用户输入待识别话语时，从意图说法数据库中检索出与待识别话语最相似的说法；确定该最相似的说法对应的意图即为用户的意图。然而，由于意图表达的多样性，人工很难以枚举各个意图的所有可能说法。短文本检索以及短文本相似度计算准确度较低，进而导致意图识别准确性低。基于分类器的意图识别方法的基本原理是：构造一些训练样本，即对于每个意图，构造一些示例说法；用训练样本来训练训练分类器，得到训练后的分类器；进而，通过训练后的分类器对待识别话语进行意图预测。该方法通过应用机器学习模型，泛化能力能更好，不需要枚举所有可能的说法，可直接预测意图分类类别，但其意图识别的准确性差。>
技术实现思路
本申请实施例提供一种用于识别意图的胶囊网络模型的训练方法、用于识别意图的组合机器学习模型的训练方法、意图识别方法及相关装置、设备，可提高意图识别的准确性。第一方面，本申请实施例提供了一种用于识别意图的胶囊网络模型的训练方法，所述方法包括：计算设备接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；从所述训练文本中提取多个语义特征；根据胶囊网络模型的当前模型参数对所述多个语义特征进行处理，得到所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率；所述处理包括：根据多个预测向量的加权和得到第一激活向量；根据所述第一激活向量与第一预测向量的相似度调整所述第一预测向量所对应的当前权重系数；其中，所述多个预测向量中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对所述第一真实意图的贡献，所述第一预测向量表示第一语义特征对所述第一真实意图的贡献，所述第一语义特征为所述多个语义特征中的任意一个语义特征；所述第一激活向量表示所述训练文本的意图预测为所述第一真实意图的概率；所述第一真实意图为所述真实意图集合中的任意一个真实意图；将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数。可见，执行上述方法，在模型训练的过程中，根据第一激活向量与第一预测向量的相似度迭代调整第一预测向量所对应的当前权重系数，使得与第一激活向量相似度大的预测向量所对应的权重系数变大，进而筛选出该与第一激活向量相似度大的预测向量对应的语义特征，以及，使得与第一激活向量相似度小的预测向量所对应的权重系数变小，进而过滤掉与第一激活向量相似度小的预测向量对应的语义特征，实现筛选出关联度高的语义特征构成意图，提高模型的意图识别的准确性。在本申请实施例一种可能的实现中，所述将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数，包括：根据第一误差和第二误差确定损失函数；其中，所述第一误差为正类间隔与所述训练文本的意图预测为所述训练样本的真实意图的概率之间的误差，所述第二误差包括负类间隔分别与所述训练文本的意图预测不为所述训练样本的真实意图的概率之间的误差；根据所述损失函数所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数。可选地，所述损失函数为：其中，L为所述损失函数，m+-||vk||为所述第一误差，||vk||-m-为所述第二误差，y为所述训练文本的真实意图，k为所述真实意图集合中真实意图的索引，yk为所述真实意图集合中的真实意图k；当y＝yk时，[[y＝yk]]＝1；当y≠yk时，[[y＝yk]]＝0；当y≠yk时，[[y≠yk]]＝1；当y＝yk时，[[y≠yk]]＝0；m+为正类间隔，m-为负类间隔，||vk||为所述训练文本的意图预测为所述真实意图k的概率。在本申请实施例一种可能的实现中，所述根据多个预测向量的加权和得到第一激活向量之前，所述处理还包括：所述根据胶囊网络模型的当前模型参数和所述多个语义特征得到所述多个预测向量；所述根据多个预测向量的加权和得到第一激活向量，具体包括：对所述多个预测向量依次进行加权求和以及挤压(squash)操作得到所述第一激活向量。在本申请实施例一种可能的实现中，所述方法还包括：计算所述真实意图集合中每一个真实意图和零样本意图集合中每一个零样本意图的相似度，得到意图相似度矩阵；其中，所述零样本意图集合与所述真实意图集合的交集为空集；所述意图相似度矩阵包括第一相似度集合；所述第一相似度集合包括所述真实意图集合中每一个真实意图分别与第一零样本意图的相似度，用于计算所述多个语义特征分别对所述第一零样本意图的贡献；所述第一语义特征对所述第一零样本意图的贡献为根据所述第一语义特征分别对所述真实意图集合中每一个真实意图的贡献和所述第一相似度集合得到。第二方面，本申请实施例提供了一种用于识别意图的组合机器学习模型的训练方法，所述组合机器学习模型包括语义特征提取模型和胶囊网络模型，所述方法包括：接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；根据所述语义特征提取模型的当前模型参数对所述训练文本进行特征提取，得到多个语义特征；根据所述胶囊网络模型的当前模型参数对所述多个语义特征进行处理，得到所述训练文本的意图预测为真实意图集合中每一个真实意图的概率；所述处理包括：根据多个预测向量的加权和得到第一激活向量；根据所述第一激活向量与第一预测向量的相似度调整所述第一预测向量所对应的当前权重系数；其中，所述多个预测向量中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对所述第一真实意图的贡献，所述第一预测向量表示第一语义特征对所述第一真实意图的贡献，所述第一语义特征为所述多个语义特征中的任意一个语义特征；所述第一激活向量表示所述训练文本的意图预测为第一真实意图的概率；所述第一真实意图为所述真实意图集合中的任意一个真实意图；将根据所述训练文本的真实意图与所述本文档来自技高网...

【技术保护点】
1.一种用于识别意图的胶囊网络模型的训练方法，其特征在于，所述方法包括：/n接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；/n从所述训练文本中提取多个语义特征；/n根据胶囊网络模型的当前模型参数对所述多个语义特征进行处理，得到所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率；/n所述处理包括：根据多个预测向量的加权和得到第一激活向量；根据所述第一激活向量与第一预测向量的相似度调整所述第一预测向量所对应的当前权重系数；其中，所述多个预测向量中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对所述第一真实意图的贡献，所述第一预测向量表示第一语义特征对所述第一真实意图的贡献，所述第一语义特征为所述多个语义特征中的任意一个语义特征；所述第一激活向量表示所述训练文本的意图预测为所述第一真实意图的概率；所述第一真实意图为所述真实意图集合中的任意一个真实意图；/n将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数。/n...

【技术特征摘要】
1.一种用于识别意图的胶囊网络模型的训练方法，其特征在于，所述方法包括：
接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；
从所述训练文本中提取多个语义特征；
根据胶囊网络模型的当前模型参数对所述多个语义特征进行处理，得到所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率；
所述处理包括：根据多个预测向量的加权和得到第一激活向量；根据所述第一激活向量与第一预测向量的相似度调整所述第一预测向量所对应的当前权重系数；其中，所述多个预测向量中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对所述第一真实意图的贡献，所述第一预测向量表示第一语义特征对所述第一真实意图的贡献，所述第一语义特征为所述多个语义特征中的任意一个语义特征；所述第一激活向量表示所述训练文本的意图预测为所述第一真实意图的概率；所述第一真实意图为所述真实意图集合中的任意一个真实意图；
将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数。

2.根据权利要求1所述的方法，其特征在于，所述将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数，包括：
根据第一误差和第二误差确定损失函数；其中，所述第一误差为正类间隔与所述训练文本的意图预测为所述训练样本的真实意图的概率之间的误差，所述第二误差包括负类间隔分别与所述训练文本的意图预测不为所述训练样本的真实意图的概率之间的误差；
根据所述损失函数所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数。

3.根据权利要求2所述的方法，其特征在于，所述损失函数为：

其中，L为所述损失函数，m+-||vk||为所述第一误差，||vk||-m-为所述第二误差，y为所述训练文本的真实意图，k为所述真实意图集合中真实意图的索引，yk为所述真实意图集合中的真实意图k；当y＝yk时，[[y＝yk]]＝1；当y≠yk时，[[y＝yk]]＝0；当y≠yk时，[[y≠yk]]＝1；当y＝yk时，[[y≠yk]]＝0；m+为正类间隔，m-为负类间隔，||vk||为所述训练文本的意图预测为所述真实意图k的概率。

4.根据权利要1-3任一项所述的方法，其特征在于，所述根据多个预测向量的加权和得到第一激活向量之前，所述处理还包括：所述根据胶囊网络模型的当前模型参数和所述多个语义特征得到所述多个预测向量；
所述根据多个预测向量的加权和得到第一激活向量，具体包括：对所述多个预测向量依次进行加权求和以及挤压(squash)操作得到所述第一激活向量。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：
计算所述真实意图集合中每一个真实意图和零样本意图集合中每一个零样本意图的相似度，得到意图相似度矩阵；
其中，所述零样本意图集合与所述真实意图集合的交集为空集；所述意图相似度矩阵包括第一相似度集合；所述第一相似度集合包括所述真实意图集合中每一个真实意图分别与第一零样本意图的相似度，用于计算所述多个语义特征分别对所述第一零样本意图的贡献；所述第一语义特征对所述第一零样本意图的贡献为根据所述第一语义特征分别对所述真实意图集合中每一个真实意图的贡献和所述第一相似度集合得到。

6.一种用于识别意图的组合机器学习模型的训练方法，其特征在于，所述组合机器学习模型包括语义特征提取模型和胶囊网络模型，所述方法包括：
接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；
根据所述语义特征提取模型的当前模型参数对所述训练文本进行特征提取，得到多个语义特征；
根据所述胶囊网络模型的当前模型参数对所述多个语义特征进行处理，得到所述训练文本的意图预测为真实意图集合中每一个真实意图的概率；
所述处理包括：根据多个预测向量的加权和得到第一激活向量；根据所述第一激活向量与第一预测向量的相似度调整所述第一预测向量所对应的当前权重系数；其中，所述多个预测向量中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对所述第一真实意图的贡献，所述第一预测向量表示第一语义特征对所述第一真实意图的贡献，所述第一语义特征为所述多个语义特征中的任意一个语义特征；所述第一激活向量表示所述训练文本的意图预测为第一真实意图的概率；所述第一真实意图为所述真实意图集合中的任意一个真实意图；
将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型和语义特征提取模型，调节所述意图网络模型的当前模型参数和所述语义特征提取模型的当前模型参数。

7.根据权利要求6所述的方法，其特征在于，所述语义特征提取模型为自注意机制神经网络模型，所述根据所述语义特征提取模型的当前模型参数，通过所述语义特征提取模型对所述训练文本进行处理，得到多个语义特征，具体包括：
M＝A·H；
A＝softmax(Ws2tanh(Ws1HT))
其中，M为所述多个语义特征的向量组成的矩阵，H为所述训练文本中所有的文字的向量组成的矩阵，A为权重矩阵，Ws1、Ws2为所述语义特征提取模型的当前模型参数。

8.根据权利要求6或7所述的方法，其特征在于，所述将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率所确定的梯度反向传播到所述胶囊网络模型，调节所述胶囊网络模型的当前模型参数，包括：
根据第一误差和第二误差确定损失函数；其中，所述第一误差为正类间隔与所述训练文本的意图预测为所述训练样本的真实意图的概率的误差，所述第二误差包括负类间隔分别与所述训练文本的意图预测不为所述训练样本的真实意图的概率的误差；
根据所述损失函数所确定的梯度反向传播到所述胶囊网络模型和语义特征提取模型，调节所述意图网络模型的当前模型参数和所述语义特征提取模型的当前模型参数。

9.根据权利要求8所述的方法，其特征在于，所述损失函数：

其中，L为所述损失函数，m+-||vk||为所述第一误差，||vk||-m-为所述第二误差，y为所述训练文本的真实意图，k为所述真实意图集合中真实意图的索引，yk为所述真实意图集合中的真实意图k；当y＝yk时，[[y＝yk]]＝1；当y≠yk时，[[y＝yk]]＝0；当y≠yk时，[[y≠yk]]＝1；当y＝yk时，[[y≠yk]]＝0；m+为正类间隔，m-为负类间隔，||vk||为所述训练文本的意图预测为所述真实意图k的概率。

10.根据权利要求6-9任一项所述的方法，其特征在于，所述根据多个预测向量的加权和得到第一激活向量之前，所述处理还包括：所述根据胶囊网络模型的当前模型参数和所述多个语义特征得到所述多个预测向量；
所述根据多个预测向量的加权和得到第一激活向量，具体包括：对所述多个预测向量依次进行加权求和以及挤压(squash)操作得到所述第一激活向量。

11.根据权利要求6-10任一项所述的方法，其特征在于，所述组合机器学习模型还包括意图关联层，所述方法还包括：
计算所述真实意图集合中每一个真实意图和零样本意图集合中每一个零样本意图的相似度，得到意图相似度矩阵；
其中，所述零样本意图集合与所述真实意图集合的交集为空集；所述意图相似度矩阵包括第一相似度集合；所述第一相似度集合包括所述真实意图集合中每一个真实意图分别与第一零样本意图的相似度，用于计算所述多个语义特征分别对所述第一零样本意图的贡献；所述第一语义特征对所述第一零样本意图的贡献为根据所述第一语义特征分别对所述真实意图集合中每一个真实意图的贡献和所述第一相似度集合得到。

12.一种意图识别方法，其特征在于，包括：
从待识别文本中提取多个语义特征；
通过胶囊网络模型对所述多个语义特征进行处理，得到所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率；
所述处理过程包括：根据第一预测向量集合中的每一个预测向量的加权和得到第一激活向量；根据所述第一激活向量与第一预测向量的相似度调整所述第一预测向量所对应的当前权重系数；其中，所述第一预测向量集合中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对所述第一真实意图的贡献，所述第一预测向量表示第一语义特征对所述第一真实意图的贡献，所述第一语义特征为所述多个语义特征中的任意一个语义特征；所述第一激活向量表示所述待识别文本的意图预测为所述第一真实意图的概率；所述第一真实意图为所述真实意图集合中的任意一个真实意图；所述真实意图集合为所有训练样本中的真实意图的集合，所述训练样本用于训练所述胶囊网络模型；
根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果。

13.根据权利要求12所述的方法，其特征在于，所述根据第一预测向量集合中的每一个预测向量加权和得到第一激活向量之前，所述处理还包括：所述根据所述胶囊网络模型的模型参数和所述多个语义特征得到所述第一预测向量集合；
所述根据第一预测向量集合中的预测向量的加权和得到第一激活向量，具体包括：对所述第一预测向量集合中的预测向量进行依次加权和以及挤压(squash)操作得到所述第一激活向量。

14.根据权利要求12或13所述的方法，其特征在于，所述根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果，包括：
确定概率最大值对应的真实意图为所述待识别文本的意图识别结果。

15.根据权利要求12或13所述的方法，其特征在于，所述方法还包括：
计算所述待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率，所述零样本意图集合与所述真实意图集合的交集为空集；
所述根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果，包括：确定所述真实意图集合和所述零样本意图集合中概率最大值对应的的意图为所述待识别文本的意图识别结果。

16.根据权利要求12或13所述的方法，其特征在于，所述根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果，包括：
在第一概率集合中的概率最大值大于第一阈值时，确定所述概率最大值对应的真实意图为所述待识别文本的意图识别结果，其中，所述第一概率集合为所述待识别文本的意图预测为所述真实意图集合中的每一个真实意图的概率组成的集合。

17.根据权利要求16所述的方法，其特征在于，所述根据所述待识别文本的意图预测为真实意图集合中的每一个真实意图的概率确定所述待识别文本的意图识别结果，还包括：
在所述第一概率集合中的概率最大值不大于第一阈值时，计算所述待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率，其中，所述零样本意图集合与所述真实意图集合的交集为空集；
在第二概率集合中的概率最大值大于第二阈值时，确定所述概率最大值对应的零样本意图为所述待识别文本的意图识别结果，其中，所述第二概率集合为所述待识别文本的意图预测为所述零样本意图集合中的每一个零样本意图的概率组成的集合。

18.根据权利要求14或17所述的方法，其特征在于，所述计算所述待识别文本的意图预测为零样本意图集合中的每一个零样本意图的概率包括：
根据第二预测向量集合中的每一个预测向量的加权和得到第二激活向量，所述第二激活向量与第二预测向量的相似度调整所述第二预测向量对应的当前权重系数；其中，所述第二预测向量集合中的任意一个预测向量用于表示所述多个语义特征中的一个语义特征对所述第一零样本意图的贡献，所述第二预测向量表示所述第一语义特征对第一零样本意图的贡献，所述第二激活向量表示所述待识别文本的意图预测为所述第一零样本意图的概率；所述第一零样本意图为所述零样本意图集合中的任意一个零样本意图。

19.根据权利要求18所述的方法，其特征在于，根据第二预测向量集合中的预测向量的加权和得到第二激活向量之前，所述方法还包括：根据第三预测向量集合中的每一个预测向量，所述第三预测向量集合中每一个预测向量对应权重系数和所述真实意图集合中每一个真实意图与所述第一零样本意图的相似度计算所述第二预测向量；其中，所述第三预测向量集合中的任意一个预测向量表示所述第一语义特征对所述真实意图集合中的一个真实意图的贡献；
所述根据第二预测向量集合中的预测向量的加权和得到第二激活向量，具体包括：对所述第二预测向量集合中的预测向量依次进行加权求和和挤压(squash)操作得到所述第二激活向量。

20.一种模型训练装置，其特征在于，所述模型训练装置包括：
接收单元，用于接收训练样本，所述训练样本包括训练文本和所述训练文本的真实意图，其中，多个所述训练样本中的真实意图组成真实意图集合；
提取单元，用于：从所述训练文本中提取多个语义特征；
预测单元，用于根据胶囊网络模型的当前模型参数对所述多个语义特征进行处理，得到所述训练文本的意图预测为所述真实意图集合中每一个真实意图的概率；
训练单元，用于将根据所述训练文本的真实意图与所述训练文本的意图预测为所述真实意图集合中每一个...

【专利技术属性】
技术研发人员：晏小辉，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人