对话生成模型的训练方法、对话生成方法及装置制造方法及图纸

技术编号:22564956 阅读:21 留言:0更新日期:2019-11-16 11:57
本申请公开了一种对话生成模型的训练方法、对话生成方法及装置,涉及人工智能领域。该方法包括:通过对上下文样本进行编码得到第一隐层变量,对第一隐层变量识别得到先验隐层变量;对答复样本进行编码得到第二隐层变量;对答复相似样本进行编码得到第三隐层变量;根据第一隐层变量、第二隐层变量和第三隐层变量的混合高斯分布,识别得到后验隐层变量;匹配先验隐层变量和后验隐层变量,对对话生成模型进行对抗训练。该方法采用了样本集中的相似样本,通过相似样本的混合高斯分布来拟合对话生成模型的后验分布,达到了拟合更加复语义的目的,能够捕捉对话的复杂语义和高可变性。

Training method, dialogue generation method and device of dialogue generation model

The application discloses a training method, a dialogue generation method and a device of a dialogue generation model, which relates to the field of artificial intelligence. This method includes: the first hidden layer variable is obtained by coding the context sample, the first hidden layer variable is identified, the prior hidden layer variable is obtained; the second hidden layer variable is obtained by coding the reply sample; the third hidden layer variable is obtained by coding the similar reply sample; the mixed Gaussian distribution of the first hidden layer variable, the second hidden layer variable and the third hidden layer variable is identified To the posterior hidden layer variable, match the prior hidden layer variable and the posterior hidden layer variable to train the dialogue generation model. This method uses the similar samples in the sample set to fit the posterior distribution of the dialog generation model through the mixture Gaussian distribution of the similar samples. It achieves the purpose of fitting more complex semantics and can capture the complex semantics and high variability of the dialog.

【技术实现步骤摘要】
对话生成模型的训练方法、对话生成方法及装置
本申请涉及人工智能领域,特别涉及一种对话生成模型的训练方法、对话生成方法及装置。
技术介绍
开放域下的对话系统被广泛应用于工业界和学术界,该对话系统能够生成具有多样性和相关性的答复。基于变分自动编码器(VariationalAuto-Encoders,VAEs)的对话生成模型在给定不同主题的上下文的情况下,生成具有多样性和相关性的答复。以Wasserstein自动编码器(DialogWassersteinAuto-Encoder,DialogWAE)为例,对对话生成模型的训练过程进行说明,首先,DialogWAE通过先验网络(PriorNetwork)对上下文学习得到一个混合高斯分布,基于混合高斯分布采样得到一个随机变量;然后,通过生成器将上述随机变量转变为先验隐层变量;同理,DialogWAE还通过后验网络对上下文和真实答复学习得到另一个高斯分布,基于上述另一个高斯分布重采样得到一个变量,通过另一生成器将生成后验隐层变量;最终,DialogWAE通过判别器度量先验隐层变量与后验隐层变量之间的Wasserstein距离。上述DialogWAE通过简单的高斯分布拟合后验分布,比如,对一个高斯分布采样得到一个变量,来生成后验隐层变量;而简单的高斯分布拟合的后验分布可能无法捕捉到对于答复生成所需的复杂语义和高可变性。
技术实现思路
本申请实施例提供了一种对话生成模型的训练方法、对话生成方法及装置,可以解决简单的高斯分布拟合的后验分布对于答复生成所需的复杂语义和高可变性可能无法捕捉到的问题。所述技术方案如下:根据本申请的一个方面,提供了一种对话生成模型的训练方法,该方法包括:获取至少一组训练样本,每组训练样本包括上下文样本、答复样本和答复相似样本;对上下文样本进行编码得到第一隐层变量,对第一隐层变量识别得到先验隐层变量;对答复样本进行编码得到第二隐层变量;对答复相似样本进行编码得到第三隐层变量;根据第一隐层变量、第二隐层变量和第三隐层变量的混合高斯分布,识别得到后验隐层变量;匹配先验隐层变量和后验隐层变量,对对话生成模型进行对抗训练;其中,答复相似样本是根据答复样本的上下文采集得到的答复的相似样本;上下文样本是采集答复样本的上下文得到的。根据本申请的另一个方面,提供了一种对话生成方法,应用于运行有对话生成模型的服务器中,对话生成模型是上述一个方面及其可选实施例中任一方法训练的模型,该方法包括:获取对话的上下文;调用对话生成模型对对话的上下文进行编码得到第一隐层变量;调用对话生成模型对第一隐层变量识别得到先验隐层变量;调用对话生成模型对第一隐层变量和先验隐层变量的和进行解码生成答复对话;输出答复对话。根据本申请的另一方面,提供了一种对话生成模型的训练装置,该装置包括:获取模块,用于获取至少一组训练样本,每组训练样本包括上下文样本、答复样本和答复相似样本;识别模块,用于对上下文样本进行编码得到第一隐层变量;对第一隐层变量识别得到先验隐层变量;识别模块,用于对答复样本进行编码得到第二隐层变量;对答复相似样本进行编码得到第三隐层变量;根据第一隐层变量、第二隐层变量和第三隐层变量的混合高斯分布,识别得到后验隐层变量;匹配模块,用于匹配先验隐层变量和后验隐层变量,对对话生成模型进行对抗训练;其中,答复相似样本是根据答复样本的上下文采集得到的答复的相似样本;上下文样本是采集答复样本的上下文得到的。根据本申请的另一方面,提供了一种对话生成的装置,该装置中运行有对话生成模型,对话生成模型是上述一个方面及其可选实施例中任一方法训练的模型,该装置包括:获取模块,用于获取对话的上下文;调用模块,用于调用对话生成模型对对话的上下文进行编码得到第一隐层变量;调用模块,用于调用对话生成模型对第一隐层变量识别得到先验隐层变量;调用模块,用于调用对话生成模型对第一隐层变量和先验隐层变量的和进行解码生成答复对话;输出模块,用于输出答复对话。根据本申请的另一方面,提供了一种终端,该终端包括:存储器;与存储器相连的处理器;其中,处理器被配置为加载并执行可执行指令以实现如上述一个方面及其可选实施例所述的对话生成模型的训练方法,以及如上述另一方面及其可选实施例所述的对话生成方法。根据本申请的另一方面,提供了一种服务器,该服务器包括:存储器;与存储器相连的处理器;其中,处理器被配置为加载并执行可执行指令以实现如上述一个方面及其可选实施例所述的对话生成模型的训练方法,以及如上述另一方面及其可选实施例所述的对话生成方法。根据本申请的另一方面,提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,上述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述一个方面及其可选实施例所述的对话生成模型的训练方法,以及如上述另一方面及其可选实施例所述的对话生成方法。本申请实施例提供的技术方案带来的有益效果至少包括:通过获取至少一组训练样本,每组训练样本包括上下文样本、答复样本和答复相似样本;对上下文样本进行编码得到第一隐层变量,对第一隐层变量识别得到先验隐层变量;对答复样本进行编码得到第二隐层变量;对答复相似样本进行编码得到第三隐层变量;根据第一隐层变量、第二隐层变量和第三隐层变量的混合高斯分布,识别得到后验隐层变量;匹配先验隐层变量和后验隐层变量,对对话生成模型进行对抗训练。该方法采用了样本集中的相似样本,通过相似样本的混合高斯分布来拟合对话生成模型的后验分布,达到了拟合更加复语义的目的,能够捕捉对话的复杂语义和高可变性。该方法中先验网络还在计算第三权重时使用归一化指数函数(即softmax函数),避免了使用极值型归一化函数(即gumbel-softmax函数)导致的混合高斯分布退化为简单高斯分布的问题,使先验网络识别得到的高斯分布能够保持为混合高斯分布。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个示例性实施例提供的对话生成模型的结构示意图;图2是本申请一个示例性实施例提供的计算机系统的结构示意图;图3是本申请一个示例性实施例提供的对话生成模型的训练方法的流程图;图4是本申请另一个示例性实施例提供的对话生成模型的训练方法的流程图;图5是本申请另一个示例性实施例提供的对话生成模型的结构示意图;图6是本申请另一个示例性实施例提供的对话生成模型的训练方法的流程图;图7是本申请另一个示例性实施例提本文档来自技高网...

【技术保护点】
1.一种对话生成模型的训练方法,其特征在于,所述方法包括:/n获取至少一组训练样本,每组训练样本包括上下文样本、答复样本和答复相似样本;/n对所述上下文样本进行编码得到第一隐层变量,对所述第一隐层变量识别得到先验隐层变量;/n对所述答复样本进行编码得到第二隐层变量;对所述答复相似样本进行编码得到第三隐层变量;根据所述第一隐层变量、所述第二隐层变量和所述第三隐层变量的混合高斯分布,识别得到后验隐层变量;/n匹配所述先验隐层变量和所述后验隐层变量,对所述对话生成模型进行对抗训练;/n其中,所述答复相似样本是根据所述答复样本的上下文采集得到的答复的相似样本;所述上下文样本是采集所述答复样本的上下文得到的。/n

【技术特征摘要】
1.一种对话生成模型的训练方法,其特征在于,所述方法包括:
获取至少一组训练样本,每组训练样本包括上下文样本、答复样本和答复相似样本;
对所述上下文样本进行编码得到第一隐层变量,对所述第一隐层变量识别得到先验隐层变量;
对所述答复样本进行编码得到第二隐层变量;对所述答复相似样本进行编码得到第三隐层变量;根据所述第一隐层变量、所述第二隐层变量和所述第三隐层变量的混合高斯分布,识别得到后验隐层变量;
匹配所述先验隐层变量和所述后验隐层变量,对所述对话生成模型进行对抗训练;
其中,所述答复相似样本是根据所述答复样本的上下文采集得到的答复的相似样本;所述上下文样本是采集所述答复样本的上下文得到的。


2.根据权利要求1所述的方法,其特征在于,所述对话生成模型包括识别网络和第一生成器;
所述根据所述第一隐层变量、所述第二隐层变量和所述第三隐层变量的混合高斯分布,识别得到后验隐层变量,包括:
调用所述识别网络对所述第二隐层变量与所述第一隐层变量的和进行识别,得到第一识别结果;对所述第三隐层变量与所述第一隐层变量的和进行识别,得到第二识别结果;其中,所述第一识别结果包括第一混合高斯分布,所述第二识别结果包括第二混合高斯分布;
调用所述识别网络从所述第一混合高斯分布和所述第二混合高斯分布中确定出后验高斯噪声;
调用所述第一生成器将所述后验高斯噪声转换为所述后验隐层变量。


3.根据权利要求2所述的方法,其特征在于,所述第一识别结果还包括第一权重;所述第二识别结果还包括第二权重;
所述调用所述识别网络从所述第一混合高斯分布和所述第二混合高斯分布中确定出后验高斯噪声,包括:
调用所述识别网络从所述第一混合高斯分布中获取第一高斯噪声;从所述第二混合高斯分布中获取第二高斯噪声;
调用所述识别网络将所述第一高斯噪声与所述第一权重相乘得到第一乘积;将所述第二高斯噪声与所述第二权重相乘得到第二乘积;
调用所述识别网络将所述第一乘积与所述第二乘积的和确定为所述后验高斯噪声。


4.根据权利要求1至3任一所述的方法,其特征在于,所述对话生成模型包括先验网络和第二生成器;
所述对所述第一隐层变量识别得到先验隐层变量,包括:
调用所述先验网络对所述第一隐层变量进行识别,得到第三混合高斯分布和对应的第三权重,所述第三混合高斯分布中包括n个第三高斯分布;从n个所述第三高斯分布中分别获取得到n个第三高斯噪声;将n个所述第三高斯噪声分别与对应的n个所述第三权重相乘,得到n个第三乘积;将n个所述第三乘积的和确定为先验高斯噪声;
调用所述第二生成器将所述先验高斯噪声转换为所述先验隐层变量,n为大于2的正整数。


5.根据权利要求4所述的方法,其特征在于,所述先验网络中包括归一化指数函数;
所述调用所述先验网络对所述第一隐层变量进行识别,得到对应的第三权重,包括:
调用所述归一化指数函数对所述第一隐层变量进行处理,得到所述第三权重。


6.根据权利要求1至3任一所述的方法,其特征在于,所述对话生成模型包括后验分布模块;
所述方法还包括:
调用所述对话生成模型对所述第一隐层变量、所述第二隐层变量和所述第三隐层变量进行识别,对所述对话生成模型的所述后验分布模块中的模型参数进行训练。


7.根据权利要求6所述的方法,其特征在于,所述后验分布模块中包括识别网络、第一生成器和答复解码器;
所述调用所述对话生成模型对所述第一隐层变量、所述第二隐层变量和所述第三隐层变量进行识别,对所述对话生成模型的所述后验分布模块中的模型参数进行训练,包括:
调用所述识别网络对隐层变量之和进行识别,得到第四混合高斯分布;调用所述识别网络从所述第四混合高斯分布中获取第四高斯噪声;
调用所述第一生成器对所述第四高斯噪声进行处理,生成所述后验隐层变量;
调用所述答复解码器对所述后验隐层变量和所述第一隐层变量的和进行解码,对所述后验分布模块中的所述模型参数进...

【专利技术属性】
技术研发人员:李泽康张金超雷泽阳孟凡东周杰牛成
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1