一种联合实现意图识别和语义槽填充的方法技术

技术编号:35905950 阅读:11 留言:0更新日期:2022-12-10 10:43
本申请提出了一种联合实现意图识别和语义槽填充的方法,该方法可以包括:获取初始词向量序列;基于注意力机制对初始词向量序列进行编码及特征提取,得到的输出包括初始词序列中的初始词分别属于各个意图标签和各个槽位标签的概率;基于分类表征符属于各个意图标签的概率,以及初始文本词属于各个槽位标签的概率,构建备选标签序列;分别计算各个备选标签序列的概率得分,将概率得分最大的备选标签序列确定为目标标签序列;基于目标标签序列确定用户输入的文本信息中包含的意图以及需要填充的语义槽。通过本申请的技术方案,可以将意图分类和语义槽填充统一到一个序列标注的框架下,实现意图识别和语义槽填充的联合学习。实现意图识别和语义槽填充的联合学习。实现意图识别和语义槽填充的联合学习。

【技术实现步骤摘要】
一种联合实现意图识别和语义槽填充的方法


[0001]本申请一个或多个实施例涉及人工智能领域,尤其涉及一种联合实现意图识别和语义槽填充的方法。

技术介绍

[0002]自然语言理解(Natural Language Understanding,NLU)是自然语言处理(Natural Language processing,NLP)领域中的一个重要课题。意图识别和语义槽填充是NLU中两个重要的学习任务。意图识别任务可以视作一个文本分类任务,侧重于基于用户输入信息预测用户意图。语义槽填充任务可以视作一个序列标注任务,侧重于为用户输入信息中的每个单词分配语义标签。每个语义槽代表了意图所缺失的某个属性,语义槽填充就是将意图缺失的属性填充完整。
[0003]相关技术中,经常将意图识别和语义槽填充两个任务分开单独训练,但是两个任务之间关系密切,用户的意图决定了语义槽的数量和类型,不同的语义槽数量和类型也反映了用户的意图。因此,如何将意图识别和语义槽填充两个任务进行联合学习,实现信息共享是亟待解决的问题。

技术实现思路

[0004]本申请提供一种联合实现意图识别和语义槽填充的方法,以解决相关技术中的不足。
[0005]根据本申请一个或多个实施例的第一方面,提供一种联合实现意图识别和语义槽填充的方法,该方法包括:
[0006]获取初始词向量序列,所述初始词向量序列基于初始词序列编码得到;所述初始词序列中的初始词包括初始文本词和分类表征符;所述初始文本词基于用户输入的文本信息分词得到;
[0007]基于注意力机制对所述初始词向量序列进行编码及特征提取,得到的输出包括所述初始词序列中的初始词分别属于各个意图标签和各个槽位标签的概率;
[0008]基于所述分类表征符属于各个意图标签的概率,以及所述初始文本词属于各个槽位标签的概率,构建备选标签序列;每个备选标签序列包含所述分类表征符选取的意图标签、以及每个初始文本词分别选取的槽位标签,且所述每个备选标签序列包含的标签中至少存在一个所述初始词对应的标签不相同;
[0009]分别计算各个备选标签序列的概率得分,将概率得分最大的备选标签序列确定为目标标签序列;基于所述目标标签序列包含的意图标签和槽位标签,确定所述用户输入的文本信息中包含的意图以及需要填充的语义槽。
[0010]根据本申请一个或多个实施例的第二方面,提供一种联合实现意图识别和语义槽填充模型的训练方法,该方法包括:
[0011]获取样本初始词向量序列以及样本文本信息所包含的实际意图和需要填充的实
际语义槽;所述样本初始词向量序列基于样本初始词序列编码得到,所述样本初始词序列中的样本初始词包括样本初始文本词和分类表征符;所述样本初始文本词基于所述样本文本信息分词得到;
[0012]基于注意力机制对所述样本初始词向量序列进行编码及特征提取,得到的输出包括所述样本初始词序列中的样本初始词分别属于各个意图标签和各个槽位标签的概率;
[0013]基于所述分类表征符属于各个意图标签的概率以及所述样本初始文本词属于各个槽位标签的概率,构建样本备选标签序列;每个样本备选标签序列包含所述分类表征符选取的意图标签、以及每个样本初始文本词分别选取的槽位标签,且所述每个样本备选标签序列包含的标签中至少存在一个所述样本初始词对应的标签不相同;
[0014]分别计算各个样本备选标签序列的概率得分,根据所述概率得分对所述联合实现意图识别和语义槽填充模型进行迭代训练,直至迭代次数达到次数上限或损失函数收敛时完成训练;其中,所述损失函数的收敛条件为:样本目标标签序列的概率得分最大化,所述样本目标标签序列由所述分类表征符选取所述实际意图对应的意图标签、所述样本初始文本词分别选取所述实际语义槽对应的槽位标签构建而成。
[0015]根据本申请一个或多个实施例的第三方面,提供一种联合实现意图识别和语义填充的装置,该装置包括:
[0016]获取单元,用于获取初始词向量序列,所述初始词向量序列基于初始词序列编码得到;所述初始词序列中的初始词包括初始文本词和分类表征符;所述初始文本词基于用户输入的文本信息分词得到;
[0017]编码单元,用于基于注意力机制对所述初始词向量序列进行编码及特征提取,得到的输出包括所述初始词序列中的初始词分别属于各个意图标签和各个槽位标签的概率;
[0018]构建单元,用于基于所述分类表征符属于各个意图标签的概率,以及所述初始文本词属于各个槽位标签的概率,构建备选标签序列;每个备选标签序列包含所述分类表征符选取的意图标签、以及每个初始文本词分别选取的槽位标签,且所述每个备选标签序列包含的标签中至少存在一个所述初始词对应的标签不相同;
[0019]确定单元,用于分别计算各个备选标签序列的概率得分,将概率得分最大的备选标签序列确定为目标标签序列;基于所述目标标签序列包含的意图标签和槽位标签,确定所述用户输入的文本信息中包含的意图以及需要填充的语义槽。
[0020]根据本申请一个或多个实施例的第四方面,提供一种联合实现意图识别和语义槽填充模型的训练装置,该装置包括:
[0021]样本获取单元,用于获取样本初始词向量序列以及样本文本信息所包含的实际意图和需要填充的实际语义槽;所述样本初始词向量序列基于样本初始词序列编码得到,所述样本初始词序列中的样本初始词包括样本初始文本词和分类表征符;所述样本初始文本词基于所述样本文本信息分词得到;
[0022]样本编码单元,用于基于注意力机制对所述样本初始词向量序列进行编码及特征提取,得到的输出包括所述样本初始词序列中的样本初始词分别属于各个意图标签和各个槽位标签的概率;
[0023]样本构建单元,用于基于所述分类表征符属于各个意图标签的概率以及所述样本初始文本词属于各个槽位标签的概率,构建样本备选标签序列;每个样本备选标签序列包
含所述分类表征符选取的意图标签、以及每个样本初始文本词分别选取的槽位标签,且所述每个样本备选标签序列包含的标签中至少存在一个所述样本初始词对应的标签不相同;
[0024]迭代单元,用于分别计算各个样本备选标签序列的概率得分,根据所述概率得分对所述联合实现意图识别和语义槽填充模型进行迭代训练,直至迭代次数达到次数上限或损失函数收敛时完成训练;其中,所述损失函数的收敛条件为:样本目标标签序列的概率得分最大化,所述样本目标标签序列由所述分类表征符选取所述实际意图对应的意图标签、所述样本初始文本词分别选取所述实际语义槽对应的槽位标签构建而成。
[0025]根据本申请一个或多个实施例的第五方面,提供一种电子设备,包括:
[0026]处理器;
[0027]用于存储处理器可执行指令的存储器;
[0028]其中,所述处理器通过运行所述可执行指令以实现如上述第一方面/第二方面的实施例中所述的方法。
[0029]根据本申请一个或多个实施例的第六方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合实现意图识别和语义槽填充的方法,其特征在于,所述方法包括:获取初始词向量序列,所述初始词向量序列基于初始词序列编码得到;所述初始词序列中的初始词包括初始文本词和分类表征符;所述初始文本词基于用户输入的文本信息分词得到;基于注意力机制对所述初始词向量序列进行编码及特征提取,得到的输出包括所述初始词序列中的初始词分别属于各个意图标签和各个槽位标签的概率;基于所述分类表征符属于各个意图标签的概率,以及所述初始文本词属于各个槽位标签的概率,构建备选标签序列;每个备选标签序列包含所述分类表征符选取的意图标签、以及每个初始文本词分别选取的槽位标签,且所述每个备选标签序列包含的标签中至少存在一个所述初始词对应的标签不相同;分别计算各个备选标签序列的概率得分,将概率得分最大的备选标签序列确定为目标标签序列;基于所述目标标签序列包含的意图标签和槽位标签,确定所述用户输入的文本信息中包含的意图以及需要填充的语义槽。2.根据权利要求1所述的方法,其特征在于,所述基于注意力机制对所述初始词向量序列进行编码及特征提取,包括:将所述初始词向量序列输入Transformer网络,所述Transformer网络包含编码器单元;获取所述编码器单元对所述初始词向量序列进行编码及特征提取后的输出。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:向所述Transformer网络输入表征所述初始词序列中所有初始词位置的向量,以及表征所述所有初始词之间上下文联系的向量,以用于所述编码器单元对所述初始词向量序列进行编码及特征提取。4.一种联合实现意图识别和语义槽填充模型的训练方法,其特征在于,该方法包括:获取样本初始词向量序列以及样本文本信息所包含的实际意图和需要填充的实际语义槽;所述样本初始词向量序列基于样本初始词序列编码得到,所述样本初始词序列中的样本初始词包括样本初始文本词和分类表征符;所述样本初始文本词基于所述样本文本信息分词得到;基于注意力机制对所述样本初始词向量序列进行编码及特征提取,得到的输出包括所述样本初始词序列中的样本初始词分别属于各个意图标签和各个槽位标签的概率;基于所述分类表征符属于各个意图标签的概率以及所述样本初始文本词属于各个槽位标签的概率,构建样本备选标签序列;每个样本备选标签序列包含所述分类表征符选取的意图标签、以及每个样本初始文本词分别选取的槽位标签,且所述每个样本备选标签序列包含的标签中至少存在一个所述样本初始词对应的标签不相同;分别计算各个样本备选标签序列的概率得分,根据所述概率得分对所述联合实现意图识别和语义槽填充模型进行迭代训练,直至迭代次数达到次数上限或损失函数收敛时完成训练;其中,所述损失函数的收敛条件为:样本目标标签序列的概率得分最大化,所述样本目标标签序列由所述分类表征符选取所述实际意图对应的意图标签、所述样本初始文本词分别选取所述实际语义槽对应的槽位标签构建而成。5.根据权利要求4所述的方法,其特征在于,所述基于注意力机制对所述样本初始词向
量序列进行编码及特征提取,包括:将所述样本初始词向量序列输入Transformer网络,所述Transformer网络包含编码器单元;获取所...

【专利技术属性】
技术研发人员:胡俊佳
申请(专利权)人:浙江吉利控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1