The application discloses a training method, a dialogue generation method and a device of a dialogue generation model, which relates to the field of artificial intelligence. This method includes: the first hidden layer variable is obtained by coding the context sample, the first hidden layer variable is identified, the prior hidden layer variable is obtained; the second hidden layer variable is obtained by coding the reply sample; the third hidden layer variable is obtained by coding the similar reply sample; the mixed Gaussian distribution of the first hidden layer variable, the second hidden layer variable and the third hidden layer variable is identified To the posterior hidden layer variable, match the prior hidden layer variable and the posterior hidden layer variable to train the dialogue generation model. This method uses the similar samples in the sample set to fit the posterior distribution of the dialog generation model through the mixture Gaussian distribution of the similar samples. It achieves the purpose of fitting more complex semantics and can capture the complex semantics and high variability of the dialog.
【技术实现步骤摘要】
对话生成模型的训练方法、对话生成方法及装置
本申请涉及人工智能领域,特别涉及一种对话生成模型的训练方法、对话生成方法及装置。
技术介绍
开放域下的对话系统被广泛应用于工业界和学术界,该对话系统能够生成具有多样性和相关性的答复。基于变分自动编码器(VariationalAuto-Encoders,VAEs)的对话生成模型在给定不同主题的上下文的情况下,生成具有多样性和相关性的答复。以Wasserstein自动编码器(DialogWassersteinAuto-Encoder,DialogWAE)为例,对对话生成模型的训练过程进行说明,首先,DialogWAE通过先验网络(PriorNetwork)对上下文学习得到一个混合高斯分布,基于混合高斯分布采样得到一个随机变量;然后,通过生成器将上述随机变量转变为先验隐层变量;同理,DialogWAE还通过后验网络对上下文和真实答复学习得到另一个高斯分布,基于上述另一个高斯分布重采样得到一个变量,通过另一生成器将生成后验隐层变量;最终,DialogWAE通过判别器度量先验隐层变量与后验隐层变量之间的Wasserstein距离。上述DialogWAE通过简单的高斯分布拟合后验分布,比如,对一个高斯分布采样得到一个变量,来生成后验隐层变量;而简单的高斯分布拟合的后验分布可能无法捕捉到对于答复生成所需的复杂语义和高可变性。
技术实现思路
本申请实施例提供了一种对话生成模型的训练方法、对话生成方法及装置,可以解决简单的高斯分布拟合的后验分布对于答复生成 ...
【技术保护点】
1.一种对话生成模型的训练方法,其特征在于,所述方法包括:/n获取至少一组训练样本,每组训练样本包括上下文样本、答复样本和答复相似样本;/n对所述上下文样本进行编码得到第一隐层变量,对所述第一隐层变量识别得到先验隐层变量;/n对所述答复样本进行编码得到第二隐层变量;对所述答复相似样本进行编码得到第三隐层变量;根据所述第一隐层变量、所述第二隐层变量和所述第三隐层变量的混合高斯分布,识别得到后验隐层变量;/n匹配所述先验隐层变量和所述后验隐层变量,对所述对话生成模型进行对抗训练;/n其中,所述答复相似样本是根据所述答复样本的上下文采集得到的答复的相似样本;所述上下文样本是采集所述答复样本的上下文得到的。/n
【技术特征摘要】
1.一种对话生成模型的训练方法,其特征在于,所述方法包括:
获取至少一组训练样本,每组训练样本包括上下文样本、答复样本和答复相似样本;
对所述上下文样本进行编码得到第一隐层变量,对所述第一隐层变量识别得到先验隐层变量;
对所述答复样本进行编码得到第二隐层变量;对所述答复相似样本进行编码得到第三隐层变量;根据所述第一隐层变量、所述第二隐层变量和所述第三隐层变量的混合高斯分布,识别得到后验隐层变量;
匹配所述先验隐层变量和所述后验隐层变量,对所述对话生成模型进行对抗训练;
其中,所述答复相似样本是根据所述答复样本的上下文采集得到的答复的相似样本;所述上下文样本是采集所述答复样本的上下文得到的。
2.根据权利要求1所述的方法,其特征在于,所述对话生成模型包括识别网络和第一生成器;
所述根据所述第一隐层变量、所述第二隐层变量和所述第三隐层变量的混合高斯分布,识别得到后验隐层变量,包括:
调用所述识别网络对所述第二隐层变量与所述第一隐层变量的和进行识别,得到第一识别结果;对所述第三隐层变量与所述第一隐层变量的和进行识别,得到第二识别结果;其中,所述第一识别结果包括第一混合高斯分布,所述第二识别结果包括第二混合高斯分布;
调用所述识别网络从所述第一混合高斯分布和所述第二混合高斯分布中确定出后验高斯噪声;
调用所述第一生成器将所述后验高斯噪声转换为所述后验隐层变量。
3.根据权利要求2所述的方法,其特征在于,所述第一识别结果还包括第一权重;所述第二识别结果还包括第二权重;
所述调用所述识别网络从所述第一混合高斯分布和所述第二混合高斯分布中确定出后验高斯噪声,包括:
调用所述识别网络从所述第一混合高斯分布中获取第一高斯噪声;从所述第二混合高斯分布中获取第二高斯噪声;
调用所述识别网络将所述第一高斯噪声与所述第一权重相乘得到第一乘积;将所述第二高斯噪声与所述第二权重相乘得到第二乘积;
调用所述识别网络将所述第一乘积与所述第二乘积的和确定为所述后验高斯噪声。
4.根据权利要求1至3任一所述的方法,其特征在于,所述对话生成模型包括先验网络和第二生成器;
所述对所述第一隐层变量识别得到先验隐层变量,包括:
调用所述先验网络对所述第一隐层变量进行识别,得到第三混合高斯分布和对应的第三权重,所述第三混合高斯分布中包括n个第三高斯分布;从n个所述第三高斯分布中分别获取得到n个第三高斯噪声;将n个所述第三高斯噪声分别与对应的n个所述第三权重相乘,得到n个第三乘积;将n个所述第三乘积的和确定为先验高斯噪声;
调用所述第二生成器将所述先验高斯噪声转换为所述先验隐层变量,n为大于2的正整数。
5.根据权利要求4所述的方法,其特征在于,所述先验网络中包括归一化指数函数;
所述调用所述先验网络对所述第一隐层变量进行识别,得到对应的第三权重,包括:
调用所述归一化指数函数对所述第一隐层变量进行处理,得到所述第三权重。
6.根据权利要求1至3任一所述的方法,其特征在于,所述对话生成模型包括后验分布模块;
所述方法还包括:
调用所述对话生成模型对所述第一隐层变量、所述第二隐层变量和所述第三隐层变量进行识别,对所述对话生成模型的所述后验分布模块中的模型参数进行训练。
7.根据权利要求6所述的方法,其特征在于,所述后验分布模块中包括识别网络、第一生成器和答复解码器;
所述调用所述对话生成模型对所述第一隐层变量、所述第二隐层变量和所述第三隐层变量进行识别,对所述对话生成模型的所述后验分布模块中的模型参数进行训练,包括:
调用所述识别网络对隐层变量之和进行识别,得到第四混合高斯分布;调用所述识别网络从所述第四混合高斯分布中获取第四高斯噪声;
调用所述第一生成器对所述第四高斯噪声进行处理,生成所述后验隐层变量;
调用所述答复解码器对所述后验隐层变量和所述第一隐层变量的和进行解码,对所述后验分布模块中的所述模型参数进...
【专利技术属性】
技术研发人员:李泽康,张金超,雷泽阳,孟凡东,周杰,牛成,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。