一种对话生成模型的方法、装置以及设备制造方法及图纸

技术编号:30411779 阅读:20 留言:0更新日期:2021-10-20 11:45
本发明专利技术公开了一种对话生成模型的方法,所述方法包括:获取对话历史记录,通过所构建的对话生成模型中的编码器分别对所述对话历史记录、所述对话历史记录中的最后一句话以及与所述对话历史记录的相关文档进行编码处理,得到编码器的输出结果;通过在所述编码器中附加一个二分类的任务器将所述输出结果分别与错误回复和最佳回复连接起来,并加上CLS令牌进行分类,以训练所述编码器进行背景知识的学习;当所述编码器进行训练后的参数处于收敛时,通过所述对话生成模型中的GPT

【技术实现步骤摘要】
一种对话生成模型的方法、装置以及设备


[0001]本专利技术涉及机器学习
,尤其涉及一种对话生成模型的方法、装置以及设备。

技术介绍

[0002]如今伴随社交网络中对话数据大幅增长,计算能力迅速提升以及深度学习技术变革,基于数据驱动和深度学习的生成式人机对话方法获得长足发展,在该领域内投入了大量卓越且有成效的研究。然而,开放域和通用生成回复问题仍旧让人困扰,即模型生成的回复无意义且过于通用,如:“对,没问题”,无意义的回复使用户和对话生成系统的交流难以维系。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提出一种对话生成模型的方法、装置以及设备,能够通过基于对话上下文的语义拓展生成恰当的回复,有效解决无意义对话。
[0004]为实现上述目的,本专利技术提供一种对话生成模型的方法,所述方法包括:
[0005]获取对话历史记录,通过所构建的对话生成模型中的编码器分别对所述对话历史记录、所述对话历史记录中的最后一句话以及与所述对话历史记录的相关文档进行编码处理,得到编码器的输出结果;
[0006本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话生成模型的方法,其特征在于,所述方法包括:获取对话历史记录,通过所构建的对话生成模型中的编码器分别对所述对话历史记录、所述对话历史记录中的最后一句话以及与所述对话历史记录的相关文档进行编码处理,得到编码器的输出结果;通过在所述编码器中附加一个二分类的任务器将所述输出结果分别与错误回复和最佳回复连接起来,并加上CLS令牌进行分类,以训练所述编码器进行背景知识的学习;当所述编码器进行训练后的参数处于收敛时,通过所述对话生成模型中的GPT

2解码器基于所述编码器进行训练,直到生成具有知识感知的回复。2.根据权利要求1所述的一种对话生成模型的方法,其特征在于,所述获取对话历史记录,通过所构建的对话生成模型中的编码器分别对所述对话历史记录、所述对话历史记录中的最后一句话以及与所述对话历史记录的相关文档进行编码处理,得到编码器的输出结果的步骤包括:通过Transformer的自注意力模块对所述对话历史记录和所述最后一句话进行编码,并通过上下文注意力模块从编码后的上下文中选择信息;通过Transformer的自注意力模块对所述对话历史记录的相关文档进行编码后,得到所述对话历史记录中的关键信息通过知识注意模块进行学习,得到具有所述关键信息的输出结果。3.根据权利要求2所述的一种对话生成模型的方法,其特征在于,所述自注意力模块包括具有多个相同层数的堆栈层,所述堆栈层包括多头注意力机制和全连接FFN。4.根据权利要求2所述的一种对话生成模型的方法,其特征在于,所述上下文注意模块包括多头自注意层、多头上下文注意力层和全连接FFN。5.根据权利要求2所述的一种对话生成模型的方法,其特征在于,所述知识注意模块包括...

【专利技术属性】
技术研发人员:王焱韩莹
申请(专利权)人:中央财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1