一种基于波动阈值与分割化的多意图口语理解方法技术

技术编号:39651763 阅读:15 留言:0更新日期:2023-12-09 11:20
本发明专利技术涉及一种口语理解方法,具体是一种基于波动阈值与分割化的多意图口语理解方法,该方法包括:对于一段输入的话语将其编码为隐藏状态序列后得到预测的意图和槽值,将预测的槽值与意图转化为向量形式嵌入到模型中;利用

【技术实现步骤摘要】
一种基于波动阈值与分割化的多意图口语理解方法
[0001]本专利技术涉及一种口语理解方法,尤其涉及一种基于波动阈值与分割化的多意图口语理解方法


技术介绍

[0002]自然语言理解由两个子任务组成,包括意图检测(
ID
)和槽填充(
SF
),这两个子任务允许对话系统创建一个语义框架来总结用户的请求;其中多意图口语理解(
SLU
)作为一种新型的

更为复杂的口语理解场景,越来越受到人们的关注

[0003]目前,在多意图口语理解的研究中已经解决了很大一部分问题,并且也取得了很高的精度,但与简单的
SLU
不同,此场景中的每个意图都有其特定的语义范围,超出范围的语义信息会干扰或者误导预测,而且大多数工作都是用阈值预测多个意图,其中常见的做法是估计标签实例概率并选择概率高于阈值的意图标签,因此,如何有效的划定意图范围与增强阈值的鲁棒性是值得研究的问题

[0004]总的来说,提升多意图口语理解的方法主要分为两大类,一种是提升意图和槽之间的相关性,另一种是从其他方面提升模型的鲁棒性;比如一种叫
DGIF
的框架,它首先利用标签的语义信息来给模型增加信号和丰富的先验,然后构建了一个多路的活动图,以模拟意图和槽之间的相关性,具体是利用一种新的方法来构建基于标签语义注入的交互图,它可以自动更新图以更好地减轻错误传播,再如一种基于
Transformer
的无阈值多
nlu
>模型(
TFMN
),并在不依赖阈值的情况下检测多个意图,利用基于转换器的编码器的上层来生成多粒度表示

[0005]然而,在多意图检测中每一个意图都对应着一个具体的作用域,相当于划定了一个具体的语义范围,如果语义信息超出了范围则会导致错误的预测,而且错误的语义信息还可能会在槽填充和意图检测任务交互时进行传播,从而引发错误的扩大;另外,大多数多意图检测任务都是通过一个既定的阈值来判断当前被估计标签是否属于实际意图,这种简单的一分为二的意图输出方式往往会导致在边缘化的意图信息会被错误的认为不属于实际意图


技术实现思路

[0006]本专利技术的目的在于提供一种基于波动阈值与分割化的多意图口语理解方法,旨在解决上述
技术介绍
中所提出的技术问题

[0007]为实现上述目的,本专利技术提供了如下的技术方案:一种基于波动阈值与分割化的多意图口语理解方法,所述的多意图口语理解方法包括以下步骤:对于一段输入的话语将其编码为隐藏状态序列后得到初步预测的意图和槽值,将初步预测的槽值与意图转化为向量形式嵌入到模型中;利用
SD
计算一个范围加权矩阵与输入的意图对应相乘,划定其范围后结合注意力机制融合意图检测和槽位填充结果的语义信息,使用波动阈值进行最终结果的判断输出

[0008]作为本专利技术方案的进一步限定,所述对于一段输入的话语将其编码为隐藏状态序列后得到预测的意图和槽值的步骤包括:将输入的话语送入编码器,利用编码器将文本形式的话语转换成隐藏状态的序列;基于编码器生成的隐藏状态序列,进行初步的槽填充和意图检测操作,得到初步预测的槽值和意图

[0009]作为本专利技术方案的进一步限定,所述利用编码器将文本形式的话语转换成隐藏状态的序列的步骤包括:用一个编码器来将文本形式的话语转换成隐藏状态序列,其中,表示
Transformer
模型的输入和输出维度大小,所述编码器由两个
Transformer
编码器层组成

[0010]作为本专利技术方案的进一步限定,所述将初步预测的槽值与意图转化为向量形式的步骤包括:初步预测的槽值和意图结果表示为:
[0011]ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)通过
softmax
激活函数与全连接矩阵将未规范化的预测结果进行变换,得到槽值的结果向量和意图的结果向量:
ꢀꢀꢀꢀꢀ
(3)
ꢀꢀꢀꢀꢀ
(4)其中,是输出的槽值序列;是输出的意图的预测序列;是输出槽值序列中对应的第
j
个;是槽标签的类别;是意图标签的类别;
b
是偏置矩阵;
E
是一个全连通矩阵;是经过激活函数变换后的第
j
个槽值的结果向量;是经过激活函数变换后的第
j
个意图的结果向量;是输入的隐藏状态序列的第
j
个序列;
softmax
是一个激活函数;
Pool
是指平均轮询操作;表示将数据整合的连接操作;
W
是权重矩阵;
y
是做过平均轮询操作的平均值

[0012]作为本专利技术方案的进一步限定,所述利用
SD
计算一个范围加权矩阵与输入的意图对应相乘,划定其范围后结合注意力机制融合意图检测和槽位填充结果的重要语义信息,使用波动阈值进行输出判断的步骤包括:在
SD
中,计算一个范围加权矩阵,利用所述范围加权矩阵,生成范围敏感的隐藏状态和结果嵌入向量;通过使用注意力机制来指导融合意图检测和槽位填充结果的重要语义信息,将不同任务的结果进行集成,生成一个结果语义向量;通过联合波动阈值的解码器,合并结果语义向量和范围敏感的隐藏状态,生成最终的任务结果并输出

[0013]作为本专利技术方案的进一步限定,所述在
SD
中,计算一个范围加权矩阵,利用所述范围加权矩阵,生成范围敏感的隐藏状态和结果嵌入向量的步骤包括:计算一个权重矩阵,对其进行空间上的线性转换:
ꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
ꢀꢀꢀꢀ
(6)其中,
A
是权重因子;
W
是一个全连通矩阵;
W

I

S
都存在于同一个欧氏空间中,计算范围隐藏状态和获得具有范围敏感结果嵌入的意图和槽值:
ꢀꢀꢀꢀꢀꢀ
(7)
ꢀꢀꢀ
(8)
ꢀꢀꢀꢀꢀꢀꢀ
(9)其中,表示范围敏感的隐藏状态序列,表示范围敏感的结果槽值嵌入向量,表示范围敏感的结果意图嵌入向量;是指在这个隐藏序列周围的所有话语信息向量;是指在当前槽值周围所有的槽值信息向量;是指在当前意图周围所有的意图信息向量;是范围权重矩阵

[0014]作为本专利技术方案的进一步限定,所述合并结果语义向量和范围敏感的隐藏状态的步骤包括:把范围敏感信息融入结果语义向量,利用范围信息获得综合隐藏状态序列:
ꢀꢀꢀ

10
)其中,
R
是指融合了槽值与意图结果嵌入向量的高维度向量,;
FNN
指全连接层;
Norm
是一个规范化本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于波动阈值与分割化的多意图口语理解方法,其特征在于,包括以下步骤:对于一段输入的话语将其编码为隐藏状态序列后得到初步预测的意图和槽值,将初步预测的槽值与意图转化为向量形式嵌入到模型中;利用
SD
计算一个范围加权矩阵与输入的意图对应相乘,划定其范围后结合注意力机制融合意图检测和槽位填充结果的语义信息,使用波动阈值进行最终结果的判断输出
。2.
根据权利要求1所述的基于波动阈值与分割化的多意图口语理解方法,其特征在于,所述对于一段输入的话语将其编码为隐藏状态序列后得到预测的意图和槽值的步骤包括:将输入的话语送入编码器,利用编码器将文本形式的话语转换成隐藏状态的序列;基于编码器生成的隐藏状态序列,进行初步的槽填充和意图检测操作,得到初步预测的槽值和意图
。3.
根据权利要求2所述的基于波动阈值与分割化的多意图口语理解方法,其特征在于,所述利用编码器将文本形式的话语转换成隐藏状态的序列的步骤包括:用编码器将文本形式的话语转换成隐藏状态序列: ;其中,表示
Transformer
模型的输入和输出维度大小,所述编码器由两个
Transformer
编码器层组成
。4.
根据权利要求3所述的基于波动阈值与分割化的多意图口语理解方法,其特征在于,所述将初步预测的槽值与意图转化为向量形式的步骤包括:初步预测的槽值和意图结果表示为:初步预测的槽值和意图结果表示为:
ꢀꢀꢀ
(1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)通过
softmax
激活函数与全连接矩阵将未规范化的预测结果进行变换,得到槽值的结果向量和意图的结果向量:
ꢀꢀꢀꢀꢀꢀ
(3)
ꢀꢀꢀꢀꢀꢀ
(4)其中,是输出的槽值序列;是输出的意图的预测序列;是输出槽值序列中对应的第
j
个;是槽标签的类别;是意图标签的类别;
b
是偏置矩阵;
E
是一个全连通矩阵;是经过激活函数变换后的第
j
个槽值的结果向量;是经过激活函数变换后的第
j
个意图的结果向量;是输入的隐藏状态序列的第
j
个序列;
softmax
是一个激活函数;
Pool
是指平均轮询操作;表示将数据整合的连接操作;
W
是权重矩阵;
y
是做过平均轮询操作的平均值
。5.
根据权利要求4所述的基于波动阈值与分割化的多意图口语理解方法,其特征在于,所述利用
SD
计算一个范围加权矩阵与输入的意图对应相乘,划定其范围后结合注意力机制融合意图检测和槽位填充结果的重要语义信息,使用波动阈值进行输出判断的步骤包括:在
SD
中,计算一个范围加权矩阵,利用所述范围加权矩阵,生成范围敏感的隐藏状态和结果嵌入向量;通过使用注意力机制来指导融合意图检测和槽位填充结果的重要语义信息,将不同任务的结果进行集成,生成一个结果语义向量;通过联合波动阈值的解码器,合并结果语义向量和范围敏感的隐藏状态,生成最终的
任务结果并输出
。6.
根据权利要求5所述的基于波动阈值与分割化的多意图口语理解方法,其特征在于,所述在
SD
中,计算一个范围加权矩阵,利用所述范围加权矩阵,生成范围敏感的隐藏状态和结果嵌入向量的步骤包括:计算一个权重矩阵,对其进行空间上的线性转换:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
ꢀꢀꢀꢀꢀ
(6)其中,
A
是权重因子;
W
是一个全连通矩阵;
W

I

S
都存在于同一个欧氏空间中,计算范围隐藏状态和获得具有范围敏感结果嵌入的意图和槽值:
ꢀꢀꢀꢀꢀꢀꢀ
(7)
ꢀꢀꢀꢀ
(8)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(9)其中,表示范围敏感的隐藏状态序列,表示范围敏感的结果槽值嵌入向量,表示范围敏感的结果意...

【专利技术属性】
技术研发人员:杨光王永梅王芃力杨露张友华郑雪瑞轩亚恒陈文希后睿晗赵雨阳
申请(专利权)人:安徽农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1