一种基于异步训练多模型的意图识别和槽填充方法及系统技术方案

技术编号：40053431 阅读：5 留言：0更新日期：2024-01-16 21:34

本发明专利技术公开了一种基于异步训练多模型的意图识别和槽填充方法及系统，方法包括：获取样本数据集并进行预处理和清洗操作；以串联方式连接特征编码层、意图识别解码层和槽位填充解码层，得到联合神经网络模型，其中，意图识别解码层包括基于关键词Attention机制和基于TextCNN，槽位填充解码层基于关键词Attention机制和GRU网络解码层；采用PGD对抗训练方法和异步训练策略对联合神经网络模型进行对抗训练；将对话数据输入训练完成的联合神经网络模型，得到对应的意图识别词及槽位填充结果。通过本发明专利技术的技术方案，能够更好地捕捉上下文语义信息的表示，增强了模型的抵御攻击性能，加速了模型训练过程，提高了意图识别和槽填充的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其涉及一种基于异步训练多模型的意图识别和槽填充方法以及一种基于异步训练多模型的意图识别和槽填充系统。

技术介绍

1、在自然语言处理领域中，意图识别和槽位填充是一个非常重要的子任务，意图识别旨在确定用户表达的意图或目的，而槽位填充则涉及从文本中识别并填充特定的槽位信息。传统的意图识别方法主要基于机器学习模型，利用已标注的训练数据进行模型训练，但这种方法需要大量的标注数据，而且对于新领域的意图识别需要重新训练模型。

2、以前的方法更倾向于对两个子任务独立建模，因为分离的子任务可以很容易地逐步训练和优化局部极值。然而，这种建模思想忽略了两个任务的融合信息，导致特征建模不完整或无效。同时，传统的意图识别模型对于攻击具有一定的敏感性，容易受到恶意攻击和欺骗，影响模型的准确性和可信度。另外，受注意方案在自然语言处理和计算机视觉领域成功实现的启发，将注意方案提取的上下文信息用于特征增强，从而使两个子任务的特征设计更加区分。对于同一关键词，不同位置的字词对其信息的贡献不同，这也是当前意图识别领域需要解决的问题之一。

技术实现思路

1、针对上述问题，本专利技术提供了一种基于异步训练多模型的意图识别和槽填充方法及系统，通过以特征编码模型作为基准，增加gru网络解码层和基于textcnn的局部语义信息特征表示层共同构建联合神经网络模型，在时间和空间两个维度上进行特征提取，同时融入关键词attention机制，更好地捕捉上下文语义信息的表示，采用pgb对抗训练方法

2、为实现上述目的，本专利技术提供了一种基于异步训练多模型的意图识别和槽填充方法，包括：

3、获取样本数据集，并对所述样本数据集进行预处理和清洗操作；

4、以串联方式连接特征编码层、意图识别解码层和槽位填充解码层，得到联合神经网络模型，其中，所述意图识别解码层包括基于关键词attention机制的上下文语义信息特征表示层和基于textcnn的局部语义信息特征表示层，所述槽位填充解码层基于关键词attention机制，且通过gru网络解码层用于时间特征对齐；

5、基于所述样本数据集，采用pgd(projected gradient descent)对抗训练方法对所述联合神经网络模型进行对抗训练，同时，采用异步训练策略分别对所述意图识别解码层和所述槽位填充解码层进行参数更新，直至预设的损失函数收敛则训练完成；

6、将对话数据输入训练完成的所述联合神经网络模型，得到对应的意图识别词及槽位填充结果。

7、在上述技术方案中，优选地，所述对所述样本数据集进行预处理和清洗操作的具体方式包括：

8、采用信息抽取技术对所述样本数据集进行特征提取，得到结构化的文本数据；

9、根据意图和槽位标签对所述文本数据进行bio标注。

10、在上述技术方案中，优选地，所述特征编码层采用bert模型，所述bert模型包括词向量嵌入层、bert编码器、意图检测编码器和槽位填充编码器；

11、所述词向量嵌入层用于对输入的所述文本数据转换为对应的词向量，所述bert编码器用于提取所述词向量中每个时刻的隐藏状态顺序，所述意图检测编码器用于由所述隐藏状态顺序中捕获用于所述意图识别解码层的隐藏状态，所述槽位填充编码器用于由所述隐藏状态顺序中捕获用于所述槽位填充解码层的隐藏状态。

12、在上述技术方案中，优选地，所述意图识别解码层中，所述局部语义信息特征表示层用于根据所述bert模型的输出提取得到所述文本数据的局部特征，所述上下文语义信息特征表示层用于提取所述文本数据的上下文重要语义信息特征，所述局部特征与所述上下文重要语义信息特征相拼接后通过全连接层实现意图识别。

13、在上述技术方案中，优选地，所述槽位填充解码层中，所述gru网络解码层根据所述bert模型的输出提取得到所述文本数据的时间特征表示，从时间维度对上下文信息进行捕捉，并对特征进行对齐；

14、所述槽位填充解码层还引入crf模型，利用所述crf模型中的状态转移矩阵，根据所述上下文信息中的前后语义标签建模相邻标签件的关系，从而确定当前词的含义，以全局方式为对应的句子定义标签链。

15、在上述技术方案中，优选地，在所述意图识别解码层和所述槽位填充解码层中，所基于的所述关键词attention机制，计算每个关键词的权重，对所有的隐藏状态进行加权，得到上下文的语义信息特征表示，通过与所述特征编码层的输出向量进行拼接，生成样本数据的最终向量表示，并分别由所述意图识别解码层和所述槽位填充解码层输入至全连接神经网络。

16、在上述技术方案中，优选地，所述关键词attention机制的具体过程包括：

17、将文本切分为词语序列，计算文本中每个词语的tf-idf权重，将权重排序靠前预设量的相邻词语合并为关键碎片词，再将相邻的关键碎片词进行融合并重新计算权重，筛选得到所述文本中的关键词；

18、根据输入信号与预训练权值的相似度，并采用softmax函数对所述相似度进行归一化，得到权值；

19、根据所述权值对原始值进行重新加权，将加权后的原始值进行求和得到注意力值。

20、在上述技术方案中，优选地，所述采用pgd对抗训练方法对所述联合神经网络模型进行对抗训练的具体过程包括：

21、备份原有梯度信息；

22、对所述词向量嵌入层进行k次干扰操作，并在第一次干扰操作时备份所述词向量嵌入层的权重参数；

23、在前k-1次干扰操作时清空梯度，在第k次干扰操作时恢复所备份的原有梯度信息；

24、在完成k次干扰操作并将最后一次干扰操作产生的梯度累加到原有梯度之后，恢复原有的词向量嵌入层参数。

25、在上述技术方案中，优选地，所述采用异步训练策略分别对所述意图识别解码层和所述槽位填充解码层进行参数更新的具体过程包括：

26、向所述意图识别解码层和所述槽位填充编码器中输入一个序列，进行前向传播，分别得到两组隐藏状态；

27、冻结所述槽位填充编码器的编码层，解冻所述意图识别解码层的编码层，得到上下文的语义信息特征向量和局部语义特征向量，将其两者相连接并通过全连接层输出意图检测结果，通过反向传播优化所述意图识别解码层；

28、冻结所述意图识别解码层的编码层，解冻所述槽位填充编码器的编码层，输出槽位填充结果；

29、重复所述意图识别解码层和所述槽位填充编码器的冻结和解冻操作，进行参数更新，直至所述联合神经网络模型的损失函数收敛，异步训练完成。

30、本专利技术还提出一种基于异步训练多模型的意图识别和槽填充系统，应用如上述技术方案中任一项公开的基于异步训练多模型的意图识别和槽填本文档来自技高网...

【技术保护点】

1.一种基于异步训练多模型的意图识别和槽填充方法，其特征在于，包括：

2.根据权利要求1所述的基于异步训练多模型的意图识别和槽填充方法，其特征在于，所述对所述样本数据集进行预处理和清洗操作的具体方式包括：

3.根据权利要求2所述的基于异步训练多模型的意图识别和槽填充方法，其特征在于，所述特征编码层采用BERT模型，所述BERT模型包括词向量嵌入层、BERT编码器、意图检测编码器和槽位填充编码器；

4.根据权利要求3所述的基于异步训练多模型的意图识别和槽填充方法，其特征在于，所述意图识别解码层中，所述局部语义信息特征表示层用于根据所述BERT模型的输出提取得到所述文本数据的局部特征，所述上下文语义信息特征表示层用于提取所述文本数据的上下文重要语义信息特征，所述局部特征与所述上下文重要语义信息特征相拼接后通过全连接层实现意图识别。

5.根据权利要求4所述的基于异步训练多模型的意图识别和槽填充方法，其特征在于，所述槽位填充解码层中，所述GRU网络解码层根据所述BERT模型的输出提取得到所述文本数据的时间特征表示，从时间维度对上下文信息进行捕捉，并对特征进行对齐；

6.根据权利要求5所述的基于异步训练多模型的意图识别和槽填充方法，其特征在于，在所述意图识别解码层和所述槽位填充解码层中，所基于的所述关键词Attention机制，计算每个关键词的权重，对所有的隐藏状态进行加权，得到上下文的语义信息特征表示，通过与所述特征编码层的输出向量进行拼接，生成样本数据的最终向量表示，并分别由所述意图识别解码层和所述槽位填充解码层输入至全连接神经网络。

7.根据权利要求6所述的基于异步训练多模型的意图识别和槽填充方法，其特征在于，所述关键词Attention机制的具体过程包括：

8.根据权利要求7所述的基于异步训练多模型的意图识别和槽填充方法，其特征在于，所述采用PGD对抗训练方法对所述联合神经网络模型进行对抗训练的具体过程包括：

9.根据权利要求8所述的基于异步训练多模型的意图识别和槽填充方法，其特征在于，所述采用异步训练策略分别对所述意图识别解码层和所述槽位填充解码层进行参数更新的具体过程包括：

10.一种基于异步训练多模型的意图识别和槽填充系统，其特征在于，应用如权利要求1至9中任一项所述的基于异步训练多模型的意图识别和槽填充方法，包括：

...

【技术特征摘要】

1.一种基于异步训练多模型的意图识别和槽填充方法，其特征在于，包括：

2.根据权利要求1所述的基于异步训练多模型的意图识别和槽填充方法，其特征在于，所述对所述样本数据集进行预处理和清洗操作的具体方式包括：

3.根据权利要求2所述的基于异步训练多模型的意图识别和槽填充方法，其特征在于，所述特征编码层采用bert模型，所述bert模型包括词向量嵌入层、bert编码器、意图检测编码器和槽位填充编码器；

4.根据权利要求3所述的基于异步训练多模型的意图识别和槽填充方法，其特征在于，所述意图识别解码层中，所述局部语义信息特征表示层用于根据所述bert模型的输出提取得到所述文本数据的局部特征，所述上下文语义信息特征表示层用于提取所述文本数据的上下文重要语义信息特征，所述局部特征与所述上下文重要语义信息特征相拼接后通过全连接层实现意图识别。

5.根据权利要求4所述的基于异步训练多模型的意图识别和槽填充方法，其特征在于，所述槽位填充解码层中，所述gru网络解码层根据所述bert模型的输出提取得到所述文本数据的时间特征表示，从时间维度对上下文信息进行捕捉，并对特征进行对齐；

...

【专利技术属性】
技术研发人员：张丽，杨明明，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人