一种基于可控多空间特征解耦的开放域对话生成方法技术

技术编号:39182168 阅读:8 留言:0更新日期:2023-10-27 08:29
本发明专利技术属于开放域聊天技术领域,具体涉及一种基于可控多空间特征解耦的开放域对话生成方法;M

【技术实现步骤摘要】
一种基于可控多空间特征解耦的开放域对话生成方法


[0001]本专利技术属于开放域聊天
,具体涉及一种基于可控多空间特征解耦的开放域对话生成方法。

技术介绍

[0002]随着深度学习的快速崛起,对话系统也得到了迅速的发展。学术研究中将对话系统分为任务型对话系统和非任务型对话系统。任务型对话系统一般是pipeline模式的多模块模型,这种模式被广泛应用,并且具有很强的可解释性,即对话生成的过程清晰,逻辑性强。非任务型对话系统也叫开放领域对话系统,一般是端到端的生成模型。端到端模型与多模块模型相比,能够减少网络的复杂度,并且避免了多模块模型中不同模块训练目标不一致的缺陷。端到端模型一般由编码器和解码器组成,其通过编码器将对话上文编码为固定的向量,然后解码这个特征向量来生成对话下文。这样纯数据驱动训练的方法是黑盒模型,对话生成的逻辑难以让人理解,也无法让人预测生成的下文,缺乏可解释性。并且模型将文本编码为固定向量会导致相同的输入生成相同的回复,然而这种回复的单一性限制了基于开放领域的对话生成。为了解决这种单一性问题,需要增加对话生成的多样性,这也有利于提高人机交互的积极性,同时对于开放领域对话系统的发展非常重要。
[0003]对话的可解释性,多样性和可控性是对话系统中几个需要解决的关键问题。如果能够控制对话生成,可以提高生成质量。深度潜变量模型十分适合开放领域的对话系统。深度潜变量模型中最具代表性的就是变分自编码器(VAEs)和条件变分自编码器(CVAEs)。相比于变分自编码器的输入只有对话的上文,条件变分自编码器多了一个条件编码器。此外,条件变分自编码器中的条件可以是由问题,情感,语法等先验知识来做引导,可以更容易控制条件来生成指定的对话。由于缺乏外部先验知识的引导,CVAE隐空间中的所有语义杂糅在一起,并且都是隐性的,导致我们并不清楚语义具体的表征,所以仍然是一个深度学习的黑盒模型。这种耦合的特征容易造成生成过程不可解释和生成语义不准确的对话下文。为了理解杂糅隐空间的隐性语义,达到明确隐变量语义的目的,目前主流的方法就是解耦。现有的解耦方式虽明确了隐变量的语义,但是仍然存在两个问题。1)虽然解耦了隐空间,但是我们并不能控制隐变量在隐空间中采样的位置;2)CVAE倾向于在隐空间分布中心周围采样,所以很多距离较远的点并不能采样到,这导致了生成的对话文本有较多的通用回复。这两个问题正对应着对话生成中的可控性和多样性。

技术实现思路

[0004]针对现有技术存在的不足,本专利技术提出了一种基于可控多空间特征解耦的开放域对话生成方法,该方法包括:将问题文本输入到训练好的M

CVAE模型中,生成对应的回复文本;M

CVAE模型包括编码器、识别网络、先验网络、解码器、分类器和可控语义生成器;
[0005]M

CVAE模型的训练过程分为预训练阶段、训练阶段和测试阶段;其中,预训练过程具体包括:
[0006]S1:获取问题文本序列和回复文本序列并将其嵌入到词空间中,得到问题词向量和回复词向量;
[0007]S2:将问题词向量输入到输入编码器,得到问题文本特征表示;将回复词向量输入到输出编码器,得到回复文本特征表示;
[0008]S3:将问题文本特征表示和回复文本特征表示输入到识别网络以及先验网络中进行计算,得到隐变量;
[0009]S4:将隐变量作为解码器的初始隐状态并将参考回复输入到解码器中进行处理,生成回复文本;
[0010]S5:将问题文本特征表示输入到分类器中,得到问题分类类别概率;
[0011]S6:计算模型总损失并根据总损失调整模型参数,得到预训练好的M

CVAE模型。
[0012]优选的,所述输入编码器和输出编码器均为双向LSTM。
[0013]优选的,得到隐变量的过程包括:将问题文本特征表示和回复文本特征表示输入到识别网络中计算得到近似后验分布隐空间的分布参数μ和σ;从后验分布隐空间采样并使用重参数化操作,得到隐变量,表示为:
[0014][0015]其中,z表示隐变量,ε表示随机参数。
[0016]优选的,预训练阶段的模型总损失包括生成的回复文本与参考回复文本之间的期望、近似后验分布和先验分布之间的KL散度和分类任务的交叉熵损失三部分。
[0017]优选的,M

CVAE模型在训练阶段的训练过程中,固定预训练阶段的编码器和分类器的参数;根据分类器输出的问题的各分类类别概率和各类别的语义向量计算加权类别语义向量;拼接加权类别语义向量和参考回复,将拼接结果作为解码器的输入。
[0018]优选的,M

CVAE模型在训练阶段的模型总损失包括近似后验分布和先验分布之间的KL散度和分类任务的交叉熵损失两部分。
[0019]优选的,M

CVAE模型在测试阶段中,将问题文本特征表示输入到识别网络中计算得到先验分布隐空间的分布参数μ

和σ

;从先验分布隐空间采样并使用重参数化操作,得到隐变量。
[0020]优选的,M

CVAE模型在测试阶段中,解码器下一步的输入为上一步的解码结果。
[0021]本专利技术的有益效果为:本专利技术提出的一种基于可控多空间特征解耦的开放域对话生成方法设计了M

CVAE模型。M

CVAE通过为每个类别的对话构造单独的隐空间来解决这些问题。首先通过构造多隐空间,变相的解耦了隐空间,明确了隐变量的语义,从而增强了文本生成的可解释性。同时选择不同的隐空间能生成不同类别的一对多文本。最后,本专利技术引入了加权语义变量来控制文本生成;本专利技术能够生成高质量,可解释,一对多的可控对话文本。
附图说明
[0022]图1为本专利技术中M

CVAE模型结构示意图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]本专利技术提出了一种基于可控多空间特征解耦的开放域对话生成方法,如图1所示,所述方法包括以下内容:
[0025]本专利技术设计的模型是基于条件变分自编码器的,名字叫做M

CVAE。该模型基本思想是为每个类别的对话数据构造对于的隐空间和解码器。这样可以避免多个类别的数据映射到一个杂糅的隐空间中,同时也达到了解耦的效果。而通过隐空间的选择,可以得到对应类别的隐变量,从而实现隐变量采样的可控性。最后通过分类器的权重来加权语义向量,这个语义向量不仅是对单一隐空间信息的补充,同时也是一个控制变量,可以控制文本的生成。
[0026]M

C本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于可控多空间特征解耦的开放域对话生成方法,其特征在于,包括:将问题文本输入到训练好的M

CVAE模型中,生成对应的回复文本;M

CVAE模型包括编码器、识别网络、先验网络、解码器、分类器和可控语义生成器;M

CVAE模型的训练过程分为预训练阶段、训练阶段和测试阶段;其中,预训练过程具体包括:S1:获取问题文本序列和回复文本序列并将其嵌入到词空间中,得到问题词向量和回复词向量;S2:将问题词向量输入到输入编码器,得到问题文本特征表示;将回复词向量输入到输出编码器,得到回复文本特征表示;S3:将问题文本特征表示和回复文本特征表示输入到识别网络以及先验网络中进行计算,得到隐变量;S4:将隐变量作为解码器的初始隐状态并将参考回复输入到解码器中进行处理,生成回复文本;S5:将问题文本特征表示输入到分类器中,得到问题分类类别概率;S6:计算模型总损失并根据总损失调整模型参数,得到预训练好的M

CVAE模型。2.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法,其特征在于,所述输入编码器和输出编码器均为双向LSTM。3.根据权利要求1所述的一种基于可控多空间特征解耦的开放域对话生成方法,其特征在于,得到隐变量的过程包括:将问题文本特征表示和回复文本特征表示输入到识别网络中计算得到近似后验分布隐空间的分布参数μ和σ;从后验分布隐空间采样并使用重参数化操作,得到隐变量,表示为:...

【专利技术属性】
技术研发人员:王烨廖靖波于洪黄昌豪杨峻杰卞政轩
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1