【技术实现步骤摘要】
基于知识增强与上下文感知的对话状态追踪方法及系统
[0001]本专利技术属于自然语言处理领域,具体涉及一种基于知识增强与上下文感知的对话状态追踪方法及系统。
技术介绍
[0002]对话状态追踪(Dialogue State Track,DST),是自然语言处理中任务型对话任务流程中的一个重要组成部分,其基本目标是根据对话上下文得到当前对话状态。对话状态是从对话开始到当前对话的用户目标的总结,通常表现为多组槽
‑
值对的组合的形式,有时也会包括对话所属的领域、用户意图等信息。对话状态跟踪是指结合对话历史、当前对话、前一轮对话状态等信息,推断并更新当前对话状态的过程。随着信息技术发展的不断进步使人们能够在任何时间、地点以无线连接的方式几乎瞬时地访问信息、应用程序和服务。如今,诸如智能手机和平板电脑已经被广泛地用于访问网络。然而,内容的获取通常仅限于通过浏览器,其依靠传统的图形化界面(Graphical User Interfaces,GUIs)。更先进的人机交互方式亟需被提出,比如拥有更智能、直观和轻便的界面,能 ...
【技术保护点】
【技术特征摘要】
1.一种基于知识增强与上下文感知的对话状态追踪方法,其特征在于,包括以下步骤:步骤A:采集对话上下文和对话状态数据,构建对话训练集TS;步骤B:使用训练集TS,训练基于知识增强的深度学习网络模型G;步骤C:将用户与系统的对话数据依次输入深度学习网络模型G中,输出当前的对话状态。2.根据权利要求1所述的基于知识增强与上下文感知的对话状态追踪方法,其特征在于,所述步骤B具体包括以下步骤:步骤B1:对于训练集TS中的一个对话样本的第t回合对话进行编码,得到初始表征向量所述第t回合对话当前对话、对话历史以及对话状态的拼接;步骤B2:将对话状态的初始表征向量输入到多头注意力机制模块,得到注意力增强后的对话状态语义表征向量步骤B3:将步骤B2得到的注意力增强后的对话状态语义表征向量与对话历史初始表征向量做交叉注意力门控融合,得到对话历史与对话状态的融合表征向量步骤B4:将当前回合对话的初始表征向量与步骤B3得到的融合表征向量进行词级别拼接,得到对话上下文表征向量步骤B5:将增强后的域
‑
槽描述通过BERT编码得到初始表征向量将增强后的域
‑
槽描述输入知识提取模块得到对应的知识嵌入表征向量然后将得到的初始表征向量和知识嵌入表征向量进行融合,得到知识增强后的域
‑
槽描述表征向量步骤B6:将步骤B4得到的对话上下文表征向量与步骤B5得到的表征向量进行注意力建模,得到包含上下文信息的知识增强的域
‑
槽表征向量步骤B7:将步骤B6得到的所有的域
‑
槽表征向量经过多头注意力建模,得到最终的域
‑
槽表征向量Υ
S
;步骤B8:对步骤B7得到的域
‑
槽表征向量与对应域
‑
槽对的候选槽值通过编码后的表征向量V
′
j
∈V
j
进行相似度匹配,选择最相似的槽值作为预测结果;将预测值与真实值进行比对计算损失,利用反向传播算法计算深度网络中各参数的梯度,并利用随机梯度下降算法更新参数;步骤B9:当深度学习网络模型产生的损失值小于设定的阈值或达到最大的迭代次数时,终止深度学习模型G的训练。3.根据权利要求2所述的基于知识增强与上下文感知的对话状态追踪方法,其特征在于,所述步骤B1具体包括以下步骤:步骤B11:对话训练集表示为其中N表示训练样本数也即多少个多回合对话样本;n表示每一个多回合对话的回合数,(D
t
,B
t
‑1,H
t
)表示对话训练集中的一个回合的训练样本;其中表示当前回合对话,表示除了当前回合对话外的对话历史,B
t
‑1表示当前对话状态且其是模型在预测过程中产生的;因此,
模型的输入为其中[cls]与[sep]为特殊token,用来分隔输入的各个部分;步骤B12:将步骤B12的结果X
t
经过BERT编码后拆分得到对应三个部分初始表征:其中L为当前对话的长度,L
h
为当前对话历史的长度,J表示当前对话状态的长度,d为token表征向量的维度。4.根据权利要求3所述的基于知识增强与上下文感知的对话状态追踪方法,其特征在于,所述步骤B2具体包括以下步骤:步骤B21:将步骤B12输出的历史对话状态部分经过多头注意力建模:经过多头注意力建模:经过多头注意力建模:经过多头注意力建模:经过多头注意力建模:其中,为可学习权重参数,SelfAttention(Q,K,V),MultiHeadAttention(Q,K,V)分别为自注意力与多头注意力机制,Concat(
·
)函数将h个自注意力头的输出拼接起来;步骤B22:将步骤B21的多头输出的拼接结果映射到原空间,得到注意力增强后的对话状态语义表征向量话状态语义表征向量其中,为可学习的参数矩阵。5.根据权利要求4所述的基于知识增强与上下文感知的对话状态追踪方法,其特征在于,所述步骤B3具体包括以下步骤:步骤B31:计算交互注意力矩阵:步骤B31:计算交互注意力矩阵:步骤B31:计算交互注意力矩阵:其中,为分别对应对话历史与对话状态的可学习的权重参数矩阵,A
T
表示矩阵转置,a
b
→
h
,a
h
→
b
分别为对话状态对于对话历史以及对话历史对于对话状态的交互注意力矩阵;步骤B32:根据步骤B31得到的交互注意力矩阵a
h
→
b
,a
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。