当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于联合隐变量的变分自回归对话生成装置及方法制造方法及图纸

技术编号:38590919 阅读:16 留言:0更新日期:2023-08-26 23:30
本发明专利技术公开一种基于联合隐变量的变分自回归对话生成装置及方法,包括编码器模块、知识选择模块和变分自回归解码器模块;编码器模块用于将对话上文和知识句子集合分别编码成向量形式的特征表示,其中知识句子集合通过对话上文检索外部文本库获得,并设置有若干带标签的知识句;基于多层自注意力机制的预训练语言模型构建词级和句子级的编码表示;知识选择模块基于对话上文和当前给定的知识句子集合,从知识句子集合中选择与对话上文语义最相关的知识句用于回复生成;变分自回归解码器模块包括变分层和堆叠解码层,变分层用于计算得到回复序列隐变量,最终通过堆叠解码层生成最终的回复语句。的回复语句。的回复语句。

【技术实现步骤摘要】
一种基于联合隐变量的变分自回归对话生成装置及方法


[0001]本专利技术属于自然语言处理
,特别是涉及一种对话生成中融合外部非结构化知识、知识选择和知识感知的对话生成装置及方法。

技术介绍

[0002]序列到序列为代表的对话生成技术已经相对成熟,但倾向于生成短回复和普通回复,主要原因是对话系统缺少知识。而知识对于理解语言和生成语言是至关重要,外部知识如常识、背景知识是组织对话语句的重要信息来源,其中非结构化外部知识如百科文章、领域知识文档和社交媒体评论等,相比结构化知识(知识图谱)数量更多,更易获取。融合外部非结构化知识的对话系统能够识别用户谈及的实体或话题,并将它们与现实世界中的事实联系起来,例如检索相关的背景信息、引入新的对话话题,以积极主动的方式同用户交谈;还可通过不断增加知识来训练,具有极高的可拓展性。因此,有必要将外部非结构知识引入到对话系统中,以此来提高对话回复的质量,生成更有信息量和更具多样性的对话。
[0003]在融合非结构化外部知识的对话系统中,典型的任务框架包括知识选择和回复生成两个子任务。现有的研究工作中知识本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于联合隐变量的变分自回归对话生成装置,其特征在于,包括编码器模块、知识选择模块和变分自回归解码器模块;所述编码器模块用于将对话上文和知识句子集合分别编码成向量形式的特征表示,并设置有若干带标签的知识句;基于多层自注意力机制的预训练语言模型构建词级和句子级的编码表示;所述知识选择模块基于对话上文和当前给定的知识句子集合,从知识句子集合中选择与对话上文语义最相关的知识句用于回复生成;具体分别建模知识选择隐变量的后验分布和先验分布,其中知识选择隐变量表示基于对话上文在知识句子集合上服从类别分布的隐变量,后验分布是通过带标签的知识句和对话上文来建模;先验分布使用预测后验信息和对话上文建模,其中预测后验信息是指预测的回复语句信息;在训练阶段使得先验分布和后验分布逼近,实现在测试阶段使用先验分布以选择知识句并送入变分自回归解码器模块;所述变分自回归解码器模块包括变分层和堆叠解码层,变分层用于计算得到回复序列隐变量,在训练阶段,回复序列隐变量的计算包括后验和先验的序列隐变量,并将所选的回复序列隐变量和先验路径的解码隐状态融合传递给解码层,其中所选的回复序列隐变量在训练和测试阶段分别为后验和先验的回复序列隐变量,先验路径的解码隐状态指已生成的回复序列经过变分层得到的隐状态表示;最后通过堆叠解码层生成最终的回复语句。2.一种基于联合隐变量的变分自回归对话生成方法,基于权利要求1所述变分自回归对话生成装置,其特征在于,包括:S1、基于自注意力机制的预训练语言模型BERT编码对话上文和知识句子集合,构建词级和句子级的编码表示;S2、建模知识选择隐变量的后验分布和先验分布;其中后验分布通过带标签的知识句和对话上文建模,先验分布使用预测后验信息和对话上文建模,并从先验分布中采样隐变量以选择知识句送入变分自回归解码器模块;S3、通过变分自回归解码器模块生成回复语句;变分自回归解码器模块包括变分层和堆叠的解码层,变分层计算回复序列隐变量的后验分布和先验分布,并将所选的回复序列隐变量和先验路径的解码隐状态融合传递给解码层,其中所选的回复序列隐变量在训练和测试阶段分别为后验和先验的回复序列隐变量,先验路径的解码隐状态指已生成的回复序列经过变分层得到的隐状态表示;堆叠解码层基于变分层的输出、对话上文和被选知识生成回复语句。3.根据权利要求2所述一种基于联合隐变量的变分自回归对话生成方法,其特征在于,步骤S1中,给定当前轮对话上文C
t
和知识句子集合K
t
,使用BERT模型编码获取对应的词级特征表示得到对话上文词级表示向量以及平均池化后的句子级表示向量对于知识句子集合K
t
中的任意句子K
t,l
,同样得到词级和句子级表示向量和知识句子集合K
t
整体的句子级表示记为L为知识句子集合大小,d表示隐状态维度。4.根据权利要求2所述一种基于联合隐变量的变分自回归对话生成方法,其特征在于,步骤S2包括:
S2.1、计算知识选择隐变量的后验分布:将对话上文和被选知识的表示向量拼接,即再与句子级表示做点积注意力计算,经过softmax归一化层获得后验隐变量表示S2.2、计算知识选择隐变量的先验分布;使用预...

【专利技术属性】
技术研发人员:王博马尚朝
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1