基于条件扩散模型的多轮对话生成方法和系统技术方案

技术编号：40369366 阅读：2 留言：0更新日期：2024-02-20 22:14

本发明专利技术提供一种基于条件扩散模型的多轮对话生成方法、系统、存储介质和电子设备，涉及自然语言处理技术领域。本发明专利技术基于预先训练好的条件扩散模型，首先获取多轮对话上下文；其次获取所述多轮对话上下文的上下文表示，并从标准高斯分布中随机采样一个高斯噪音；再次基于所述条件扩散模型，在所述上下文表示的引导下逐步去噪，将所述高斯噪音还原为与该多轮对话上下文相符合的潜在变量；最后根据所述上下文表示和潜在变量，生成最终的回复。引入条件扩散模型拟合潜在变量分布，充分利用训练数据中的丰富潜在信息，使得生成的回复相关性和多样性更强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，具体涉及一种基于条件扩散模型的多轮对话生成方法、系统、存储介质和电子设备。

技术介绍

1、开放领域的对话响应生成主要挑战是产生相关和多样化的响应。用于训练对话模型的训练数据包含大量未知的背景信息，使对话成为一个一对多的问题，即不同的人可以对同一问题提出不同但合理的答案。

2、现有的模型在训练阶段忽略了对话训练数据集中上下文和目标回复之间的高级语义信息，使得对于对话训练数据集中的潜在背景信息的利用不够，这导致了应用阶段生成的回复与上下文之间相关度不够高，多样性也比较差。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本专利技术提供了一种基于条件扩散模型的多轮对话生成方法、系统、存储介质和电子设备，解决了未充分利用对话训练数据集中的潜在背景信息。

3、(二)技术方案

4、为实现以上目的，本专利技术通过以下技术方案予以实现：

5、一种基于条件扩散模型的多轮对话生成方法，基于预先训练好的条件扩散模型，包括：

6、获取多轮对话上下文；

7、获取所述多轮对话上下文的上下文表示；

8、从标准高斯分布中随机采样一个高斯噪音；

9、基于所述条件扩散模型，在所述上下文表示的引导下逐步去噪，将所述高斯噪音还原为与该多轮对话上下文相符合的潜在变量；

10、根据所述上下文表示和潜在变量，生成最终的回复。

11、优选的，所述条件扩散模

12、s10、基于预先训练好的识别网络，获取若干多轮对话上下文样本的第一潜在变量；

13、s20、在前向扩散过程中，针对任一多轮对话上下文样本的第一潜在变量，通过在t个时间步内逐一添加高斯噪声，使该第一潜在变量逐渐转向标准高斯分布以获取最终的高斯噪音zt；

14、s30、在逆扩散过程中每个反向时间步t，通过一个线性层将任一多轮对话上下文样本的上下文表示映射到并通过一个交叉注意力层将其映射到模型的中间层，以将最终的高斯噪音zt还原为第二潜在变量；

15、其中，在所述交叉注意力层采用反向时间步t对应的潜在变量zt作为查询，采用上下文中间表示作为键和值；

16、s40、构建损失函数ldm，并训练unet模型直至收敛；

17、

18、其中，dm表示扩散模型；z0表示第一潜在变量；表示噪音∈满足标准高斯分布；θ表示参数，∈θ表示unet模型；t是从1到t中随机采样的时间步；αt＝1-βt且βt表示权重项，取自线性的调度表{β1,…,βt}。

19、优选的，所述识别网络的训练过程为：

20、s100、预先获取包含n个句子的多轮对话上下文样本c＝{u1,u2,…un}，以及相应的目标回复r＝{r1,r2,…rk}；其中第i个句子被定义为ui＝{wi,1,wi,2,…wi,m}，wi,m表示第i个句子的第m个词，rk表示生成回复的第k个词；

21、s200、基于分层编码器，获取每一多轮对话上下文样本的上下文表示以及基于词级编码器，获取对应目标回复的句子向量hr；

22、s300、将句子向量hr与代表上下文信息的上下文表示中末尾元素进行拼接，获取潜在空间的特征hz；

23、

24、其中，concat表示拼接操作；

25、s400、根据潜在空间的特征hz，基于待训练的识别网络获取第三潜在向量z；

26、

27、u＝mlpφ(hz)

28、log(σ2)＝mlpφ(hz)

29、其中，qφ(z|c,r)表示识别网络；φ表示网络参数；u是高斯分布的均值向量；σ2i是协方差矩阵，其中σ2是方差，i是单位矩阵；mlp表示多层感知机；

30、s500、将所述第三潜在变量z和回复r的分布e(r)作为回复解码器的输入，并将其输出结果依次送入前向反馈层和softmax层，采用贪婪解码方式选择每个时间步生成概率最高的单词作为输出，最终获取完整的回复序列；

31、s600、构建损失函数lnll，并训练识别网络直至收敛；

32、

33、其中，nll表示负对数似然；|r|<t表示已生成的部分回复，p(rt|c,z,r<t)表示生成下一个时间步t的回复rt的概率。

34、优选的，所述s200中的分层编码器依次包括词级编码器和句级编码器，其中词级编码器包括第一transformer编码器和门控递归单元，所述句级编码器为第二transformer编码器；

35、所述上下文表示的获取过程包括：

36、获取第i个句子ui＝{wi,1,wi,2,…wi,m}的句子嵌入；

37、在词级编码器处，将所述句子嵌入作为第一transformer编码器的输入；

38、{x′i,1,x′i,2,…,x′i,m}＝transformerencoder{xi,1,xi,2,…,xi,m}

39、其中，xi,m是词wi,m的词嵌入；x′i,m为xi,m的重新表示；

40、以及将{x′i,1,x′i,2,…,x′i,m}作为所述门控递归单元的输入，获取固定维度的句子向量；

41、hi＝gru(x′i,1,x′i,2,…,x′i,m)

42、其中，gru表示门控递归单元；

43、在句级编码器处，将各句子向量作为所述第二transformer编码器的输入，获取上下文表示；

44、

45、优选的，所述s200中采用相同的词级编码器获取对应目标回复的句子向量hr。

46、优选的，所述s500中的回复解码器包括依次掩码多头注意力层、编码-解码注意力层和潜在-解码注意力层，其输出结果的获取过程包括：

47、获取目标回复每个单词ri的分布e(ri)；

48、e(ri)＝embed(ri)+pe(ri)

49、其中，embed(·)代表词嵌入函数，pe表示位置嵌入函数；

50、合并每个单词ri的分布e(ri)获取回复r的分布e(r)，并作为所述掩码多头注意力层的输入，更新回复响应表示：

51、hdec＝multihead(e(r),e(r),e(r))

52、其中，multihead表示多头注意力机制；

53、将回复表示hdec作为查询，对话上下文hcon作为键和值作为所述编码-解码注意力层的输入，利用交叉注意力机制，融合回复和对话上下文信息：

54、y＝multihead(hdec,hcon,hcon)

55、将第三潜在变量z和y作为所述潜在-解码注意力层的输入，获取最终的输出结果：

56、y′＝multihead(y,z,z)。

57、一种基本文档来自技高网...

【技术保护点】

1.一种基于条件扩散模型的多轮对话生成方法，其特征在于，基于预先训练好的条件扩散模型，包括：

2.如权利要求1所述的多轮对话生成方法，其特征在于，所述条件扩散模型为UNet模型；其训练过程包括：

3.如权利要求2所述的多轮对话生成方法，其特征在于，所述识别网络的训练过程为：

4.如权利要求3所述的多轮对话生成方法，其特征在于，所述S200中的分层编码器依次包括词级编码器和句级编码器，其中词级编码器包括第一transformer编码器和门控递归单元，所述句级编码器为第二transformer编码器；

5.如权利要求4所述的多轮对话生成方法，其特征在于，所述S200中采用相同的词级编码器获取对应目标回复的句子向量hr。

6.如权利要求3所述的多轮对话生成方法，其特征在于，所述S500中的回复解码器包括依次掩码多头注意力层、编码-解码注意力层和潜在-解码注意力层，其输出结果的获取过程包括：

7.一种基于条件扩散模型的多轮对话生成系统，其特征在于，基于预先训练好的条件扩散模型，包括：

8.一种存储介质，其

9.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种基于条件扩散模型的多轮对话生成方法，其特征在于，基于预先训练好的条件扩散模型，包括：

2.如权利要求1所述的多轮对话生成方法，其特征在于，所述条件扩散模型为unet模型；其训练过程包括：

3.如权利要求2所述的多轮对话生成方法，其特征在于，所述识别网络的训练过程为：

4.如权利要求3所述的多轮对话生成方法，其特征在于，所述s200中的分层编码器依次包括词级编码器和句级编码器，其中词级编码器包括第一transformer编码器和门控递归单元，所述句级编码器为第二transformer编码器；

5.如权利要求4所述的多轮对话生成方法，其特...

【专利技术属性】
技术研发人员：孙晓，崔子舜，安鎏玮，董腾腾，汪萌，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人