当前位置: 首页 > 专利查询>新疆大学专利>正文

一种分层选择槽位相关上下文的对话状态生成方法及装置制造方法及图纸

技术编号:31166348 阅读:19 留言:0更新日期:2021-12-04 11:09
本发明专利技术公开了一种分层选择槽位相关上下文的对话状态生成方法及装置,方法包括:使用门控循环单元编码对话轮向量获得对话轮级隐含状态序列;通过多步选择输出每个对话轮包含槽值的概率;将槽位向量作为门控循环单元的初始输入,在生成槽值的每个时间步中,将上一步生成的单词标签的词向量输入到状态生成器获得当前的隐含状态;采用加权复制机制将对话轮包含槽值的概率和从对话轮复制一个单词的概率分布相乘,获得从对话历史中复制单词的概率分布,进而预测当前时刻的单词标签。装置包括:处理器和存储器。本发明专利技术减少了对话文本中噪声信号的干扰,使槽值的生成结果更加准确。使槽值的生成结果更加准确。使槽值的生成结果更加准确。

【技术实现步骤摘要】
一种分层选择槽位相关上下文的对话状态生成方法及装置


[0001]本专利技术涉及对话状态追踪领域,尤其涉及一种分层选择槽位相关上下文的对话状态生成方法及装置,即从语音识别和自然语言理解模块产生的一系列噪声观测中准确地估计当前对话状态的紧凑表示。

技术介绍

[0002]对话是人工智能计算机科学和人工智能领域长期面临的挑战之一。由于人类对话本质上是复杂和含糊的,学习一个可以执行任意任务的开放域对话AI(对话AI是计算机或程序,它们通过自然语言对话与人进行交互,就像真人一样)仍然是非常困难的,因此,工业应用没有侧重于创建能够达到人类水平智能的对话系统,而是侧重于建立面向任务的对话系统,该系统可以帮助用户完成航班预订和查询公共汽车信息等具体任务。随着用户需求多样性及用户目标复杂性的逐渐增加,构建一个能够跨不同应用领域处理任务的对话系统变得越来越重要。一个相对智能的系统是允许在对话过程中用户对自己的需求进行更改或完善的。因此,系统需要时刻监测对话进行的状况并制定合适的对话策略,保证对话朝着预设的服务目标高效进行。对话状态追踪作为整个对话系统中的核心模块,对于对话系统内部状态的更新以及对话策略的生成起到了至关重要的作用。
[0003]在多领域对话状态追踪中,模型期望预测每个领域中的每个槽的(领域,槽,值)三元组,而不只是预测(槽,值)对。这一任务是一个巨大的挑战,因为随着对话的进行对话文本的长度不断增加,而且不同领域的一些槽位具有相关性。
[0004]当前的解决方案存在以下问题,一方面,现有的工作主要集中在多个粒度级别上将槽位与对话的历史话语匹配,这忽略了过度使用上下文信息的副作用。通常槽位只与少数对话轮次相关,虽然历史话语为提取更多特征提供了丰富的信息,但也带来了噪声信号和不必要的信息;另一方面,不同的槽位之间可能存在联系且不同的槽位通常会在不同的对话轮中被用户或系统提及,所以在处理多轮次推理的情况时很难正确的预测槽值,如用户在对话的开始阶段预定了一家宾馆,在对话要结束时提出预定一辆出租车去往之前预定的宾馆,这时租车的到达点是宾馆的地址,现有的方法通常将话文本拼接成序列作为模型的输入,但是忽略了不同话语之间的交互,也无法记忆远距离信息,导致之前的方法推理能力差。

技术实现思路

[0005]本专利技术提供了一种分层选择槽位相关上下文的对话状态生成方法及装置,本专利技术通过多步推理机制融合与槽位相关的有关信息,并减少对话文本中噪声信号的干扰,使槽值的生成结果更加准确,详见下文描述:
[0006]第一方面,一种分层选择槽位相关上下文的对话状态生成方法,所述方法包括:
[0007]使用门控循环单元编码对话轮向量获得对话轮级隐含状态序列,利用多步选择判断槽值所在的对话轮;
[0008]利用融合门控将槽位感知上下文向量和槽位向量融合获得重新表述的槽位向量;通过多步选择输出每个对话轮包含槽值的概率;
[0009]将槽位向量作为门控循环单元的初始输入,在生成槽值的每个时间步中,将上一步生成的单词标签的词向量输入到状态生成器获得当前的隐含状态;
[0010]采用加权复制机制将对话轮包含槽值的概率和从对话轮复制一个单词的概率分布相乘,获得从对话历史中复制单词的概率分布,进而预测当前时刻的单词标签。
[0011]第二方面,一种分层选择槽位相关上下文的对话状态生成装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
[0012]第三方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
[0013]本专利技术从单词级和对话轮级选择与槽位相关的内容,有效地减少了无关信息对模型的干扰,一个对话轮包含了一个用户话语和一个系统回复。为了避免遗漏重要信息,进一步提出了一个多步选择模块,该模块在每一步收集槽位相关对话轮级信息,并最终推断出每轮对话包含槽值的概率。在解码时使用了一种加权复制机制,它更倾向于从最有可能含有槽值的对话轮复制单词,网络模型的复制能力较强,与现有的状态生成方案相比,本专利技术的优越性在于:
[0014]1、本专利技术从单词级和对话轮级选择与槽位相关的内容,这种分层结构与之前的编码所有对话上下文的方案不同,本专利技术可以选择性记忆更多的有价值信息同时减少了无关信息对模型的干扰;
[0015]2、较传统的序列到序列的状态生成方法的优点在于,本专利技术在状态生成网络中使用了一个多步选择模块,该模块在每一步收集槽位相关信息并结合之前收集的信息用于下一次选择,该种结构可以避免遗漏重要信息,并最终推断出每轮对话包含的槽值概率;
[0016]3、本专利技术中状态生成时采用了一种加权复制机制,该机制从对话历史中复制单词时不仅使用单词级别的权重分数,还使用了之前预测的每轮对话包含槽值的概率,这使得复制单词时模型更倾向于从最有可能含有槽值的对话轮中复制单词,网络模型的复制能力较强。
附图说明
[0017]图1为分层选择槽位相关上下文的对话状态生成网络总体框架的示意图;
[0018]图2多步选择模块的示意图;
[0019]图3解码网络的示意图;
[0020]图4为一种分层选择槽位相关上下文的对话状态生成装置的结构示意图。
具体实施方式
[0021]为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。
[0022]在任务型对话的过程中,只有知晓了当前所处的对话状态,才能为后续的动作选
择任务提供一个准确的判断基础,因此,系统内部对于状态的维护是必要的。在人机交互的过程中,由于在对话系统中用户真实需求的状态是具有不确定性的,这导致对话状态的表示通常是一个概率分布。对话状态追踪模块需要根据对话的历史来实时更新对话状态的概率分布,然后供给对话决策模块,因此对话状态追踪是一个动态的过程,存在于整个对话进行的任意时刻。一个性能好的对话状态追踪模块,能够提高对话成功率,使得系统在提供服务的时候减少与用户交互的轮次数,提高用户的满意度,从而带来更大的收益。
[0023]为了解决上述问题,本专利技术实施例采用了一种基于分层选择槽位相关上下文的对话状态生成方法。该方法将传统的先通过编码器编码全部上下文然后再使用解码器生成槽值的序列到序列生成问题改进为选择性利用与槽位相关的上下文生成槽值,从而实现更鲁棒的对话状态生成。选择性利用与槽位相关的上下文的技术可以减少对话文本中的噪声对模型的影响,避免遗漏重要的信息。
[0024]本专利技术实施例克服了传统序列到序列的状态生成方法在编码阶段无法衡量对话历史的不同部分对预测槽值的贡献,难以区分有价值信息和冗余信息的缺陷和局限性。将传统编码所有对话上下文的方法改进为从单词级和对话轮级选择与槽位相关的上下文的编码方法,然后在解码阶段利用加权复制机制生成槽值,最后形成一个更鲁棒的对话本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分层选择槽位相关上下文的对话状态生成方法,其特征在于,所述方法包括:使用门控循环单元编码对话轮向量获得对话轮级隐含状态序列,利用多步选择判断槽值所在的对话轮;利用融合门控将槽位感知上下文向量和槽位向量融合获得重新表述的槽位向量;通过多步选择输出每个对话轮包含槽值的概率;将槽位向量作为门控循环单元的初始输入,在生成槽值的每个时间步中,将上一步生成的单词标签的词向量输入到状态生成器获得当前的隐含状态;采用加权复制机制将对话轮包含槽值的概率和从对话轮复制一个单词的概率分布相乘,获得从对话历史中复制单词的概率分布,进而预测当前时刻的单词标签。2.根据权利要求1所述的一种分层选择槽位相关上下文的对话状态生成方法,其特征在于,所述多步选择具体为:在第τ步使用注意机制作为选择器,在每一步生成回合级上下文向量:在第τ步使用注意机制作为选择器,在每一步生成回合级上下文向量:在第τ步使用注意机制作为选择器,在每一步生成回合级上下文向量:其中,是可学习的参数,为槽位与每个对话轮之间的匹配分数,为归一化后的槽位与每个对话轮之间的匹配分数;c
τ
为第τ步对话轮级上下文向量,tanh为激活函数;d
h
为隐含状态的维度;s
τ
为槽位向量;为对话轮的句子级表示;使用单向门控循环单元存储对话轮级上下文向量,获得槽位感知上下文向量z
τ
:z
τ

【专利技术属性】
技术研发人员:黄浩谢红岩
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1