当前位置: 首页 > 专利查询>福州大学专利>正文

基于细粒度局部信息增强的对话结构感知对话方法及系统技术方案

技术编号:33453091 阅读:30 留言:0更新日期:2022-05-19 00:36
本发明专利技术涉及一种基于细粒度局部信息增强的对话结构感知对话方法及系统,该方法包括以下步骤:步骤A:获取特定场景的多轮对话文本,并标注每个多轮对话回复所属的类别,构建带正负类别标签的训练集D;步骤B:使用训练集D训练细粒度局部信息增强的对话结构感知深度学习网络模型SAFL,用于选择给定多轮对话上下文对应的回复;步骤C:将多轮对话上下文与回复集输入到训练后的深度学习网络模型SAFL中,得到对应多轮对话上下文最合适的回复。该方法及系统有利于提高提高多轮对话回复选择的精确度。有利于提高提高多轮对话回复选择的精确度。有利于提高提高多轮对话回复选择的精确度。

【技术实现步骤摘要】
基于细粒度局部信息增强的对话结构感知对话方法及系统


[0001]本专利技术属于自然语言处理领域,具体涉及一种基于细粒度局部信息增强的对话结构感知对话方法及系统。

技术介绍

[0002]近些年来,随着机器学习和深度学习网络的发展,人类在与计算机的智能对话中取得了重大进步,对话系统逐渐走进了大家的视野。对话系统对工业界和学术界都有着重要的研究价值,并且可以广泛应用在很多领域。目前的对话系统算法主要有生成式对话和检索式对话两类,其中,生成式对话在推理阶段不依赖任何语料库就能根据一个问题逐字生成一个答案,其生成的答案具有多样性的优点,但获取的答案往往逻辑性不强,有时还会陷入安全回复的陷阱中。而检索式对话是让算法根据特定的一个问题到语料库中找到一个最合适的答案进行回复,能够从问题中提取出与正确回复相关联的信息,依据这些信息推理出合适的答案。检索式对话模型目前已广泛应用于微软小冰等多轮对话系统中,相较于生成式对话模型更加可靠,具有更好的实用性。
[0003]Lowe等人针对检索式多轮对话中的回复选择任务构建了两个基准模型,分别基于循环神经网络(Re本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于细粒度局部信息增强的对话结构感知对话方法,其特征在于,包括以下步骤:步骤A:获取特定场景的多轮对话文本,并标注每个多轮对话回复所属的类别,构建带正负类别标签的训练集D;步骤B:使用训练集D训练细粒度局部信息增强的对话结构感知深度学习网络模型SAFL,用于选择给定多轮对话上下文对应的回复;步骤C:将多轮对话上下文与回复集输入到训练后的深度学习网络模型SAFL中,得到对应多轮对话上下文最合适的回复。2.根据权利要求1所述的基于细粒度局部信息增强的对话结构感知对话方法,其特征在于,所述步骤B具体包括以下步骤:步骤B1:将训练集D的每个三元组形式的训练样本作为SAFL模型的输入,所述三元组形式的训练样本包括多轮对话上下文、回复、标签;SAFL模型使用预训练语言模型BERT作为基础,利用BERT的多层注意力机制学习到结合语境的上下文语义表示;同时SAFL模型采用多任务学习方式挖掘BERT的语义理解能力,主任务是多轮对话回复选择任务,辅助任务是随机滑动窗口回复预测任务以及对话结构感知任务;步骤B2:在辅助任务部分,SAFL模型导出预训练语言模型BERT,利用随机滑动窗口回复预测任务以及对话结构感知任务优化预训练语言模型;随机滑动窗口回复预测任务在多轮对话上下文中采样不同位置、大小的窗口数据,使用预训练语言模型编码对话窗口,加强预训练语言模型对于对话局部信息的理解能力;对话结构感知任务根据对话人说话的先后顺序构造图结构,并使用GCN进行编码,促使预训练语言模型学习正确的对话结构所具备的特征,让预训练语言模型从另一个角度理解对话数据;步骤B3:在主任务,即多轮对话回复选择任务中,SAFL模型采用重点局部信息蒸馏模块从预训练语言模型的输出中提取出细粒度的局部语义信息,通过门控机制对全局信息和局部信息进行进一步的融合筛选,并将筛选得到的融合特征与多粒度局部信息进行融合,输入到分类层中进行多轮对话上下文与回复之间的合理性分数的计算,评估当前回复是否对应给定的多轮对话上下文;最后根据目标损失函数,利用反向传播方法计算深度学习网络模型SAFL中的各参数的梯度,并利用随机梯度下降方法更新参数;步骤B4:当深度学习网络模型SAFL产生的损失值迭代变化小于设定阈值或达到最大迭代次数,终止深度学习网络模型SAFL的训练。3.根据权利要求2所述的基于细粒度局部信息增强的对话结构感知对话方法,其特征在于,所述步骤B1具体包括以下步骤:步骤B11:将u代表上下文中的话语,r代表回复,m代表着话语的个数,将SAFL的输入拼接成如下长序列形式:x={[CLS],u1,[EOT],u2,[EOT],...,[EOT],u
m
,[SEP],r,[SEP]}其中,x为拼接得到的长文本;[CLS]和[SEP]为分隔符,[EOT]为SAFL用于学习局部信息的特殊标记;步骤B12:通过预训练语言模型BERT的词典与模型的嵌入层,将x分别映射为词嵌入表示、位置嵌入表示与段落嵌入表示;步骤B13:将每个词的词嵌入表示、位置嵌入表示与段落嵌入表示相加,得到融合后的
嵌入表示,并使用BERT的多层Transformer网络进行编码,从而获取到序列的高层语义特征表示E。4.根据权利要求3所述的基于细粒度局部信息增强的对话结构感知对话方法,其特征在于,所述步骤B2具体包括以下步骤:步骤B21:在随机滑动窗口回复预测任务,即模型的第一个辅助任务中,SAFL将滑动窗口的大小、位置都设为随机,采样落在滑动窗口内的局部对话上下文,并在局部对话上下文的每一个话语后面插入特殊标签[EOT],如下列公式所示:其中,x

是子任务的输入,与主任务不同,x

只保留窗口内部的信息,其他的信息由[PAD]替代,w代表当前窗口的大小,m代表完整的对话上下文中的话语个数,κ是一个超参数,代表最小窗口的大小;步骤B22:将所述预训练语言模型BERT,即导出BERT模型的各项参数,利用它对落在滑动窗口内的局部对话上下文数据进行编码,让BERT学习到不同质量的对话数据,增强预训练语言模型的语义理解能力,公式如下:E

=BERT(x

)步骤B23:SAFL将距离窗口回复最近的[EOT]表示E
[EOT]
输入到分类层之中计算多轮对话上下文与回复之间的合理性分数,公式如下:g(w
c
,w
r
)=σ(W
wT
E
[EOT]
+b
w
)其中,w
c
,w
r
表示窗口数据中的上下文和回复,W
w
是预测层中可训练的参数,σ(
·
)表示sigmoid激活函数;步骤B24:随机滑动窗口回复预测任务针对目标函数采用梯度下降的方式进行优化,目标函数采用交叉熵损失函数来评估当前打分与真实对话窗口标签的差异,具体公式如下:其中D

代表窗口数据集;步骤B25:对话结构感知任务,即模型的第二个辅助任务在多轮对话上下文中采样连续的对话片段,并将其输入BERT进行编码,具体公式如下:x

={[CLS],u1,[EOT],...,u
i
,[EOT],...,u
s
,[EOT]}E

=BERT(x

)其中输入数据中包含着s个话语以及其对应的局部语义标签,这些话语是从对话上下文中抽取出的连续对话片段,其中s为一个超参数,用于控制抽取片段的长度大小;步骤B26:SAFL将当前对话片段中的...

【专利技术属性】
技术研发人员:陈羽中陈泽林
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1