对话生成模型的确定方法及装置、存储介质、电子设备制造方法及图纸

技术编号:22186079 阅读:23 留言:0更新日期:2019-09-25 03:37
本公开提供一种对话生成模型的确定方法及装置、存储介质、电子设备;涉及人工智能技术领域。所述对话生成模型的确定方法包括:获取多组训练样本,每组所述训练样本包括第一输入信息和目标回复信息;基于所述第一输入信息和所述目标回复信息,根据词库确定第一目标词语,并根据所述第一目标词语确定第一隐变量;基于所述第一隐变量训练所述对话生成模型;其中,所述词库为对话文本的词集合。本公开提供的技术方案有利于提高对话生成模型生成回复的多样性,进而能够准确对用户提出的问题进行有效答复,提升用户对话体验。

Method for Determining Dialogue Generation Model and Devices, Storage Media and Electronic Equipment

【技术实现步骤摘要】
对话生成模型的确定方法及装置、存储介质、电子设备
本公开涉及人工智能
,具体而言,涉及一种对话生成模型的确定方法、对话生成模型的确定装置,以及实现上述对话生成模型的确定方法的计算机可读存储介质和电子设备。
技术介绍
对话生成模型一般可应用于智能机器人中,例如可以与用户交流的智能音箱、或者导航机器人等,还可以应用于闲聊系统中。具体的,对于用户提出问题语音,对话生成模型根据语音确定查询文本并作为模型的输入,进一步地,基于上述查询文本进行内部运算,确定对用户提出问题的回复,进而将回复作为模型输出反馈给用户。一般的,对话生成模型一般采用序列到序列(sequencetosequence,简称:seq2seq)模型实现上述对话功能(即,短文本回复功能)。对于相关技术中提供的对话生成模型,一般采用极大似然估计(MaximumLikelihoodEstimate,简称:MLE)算法进行训练,训练后的对话生成模型中,其查询文本到生成回复为“一对一”关系。也就是说,相关技术提供的对话生成模型倾向于生成高频和通用的回复,例如:对于用户的问题,对话生成模型产生通用无意义的回复:“我不知道”、“我不知道你在说什么”等等。可见,相关技术提供的对话生成模型生成的回复内容单一、缺乏信息量,无法准确对用户提出的问题进行有效答复,造成用户对话体验不佳。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种对话生成模型的确定方法、对话生成模型的确定装置、电子设备以及计算机可读存储介质,进而在一定程度上克服由于相关技术中对话生成模型生成的回复内容单一、缺乏信息量,导致无法准确对用户提出的问题进行有效答复,进而造成用户对话体验不佳的问题。根据本公开的第一方面,提供一种对话生成模型的确定方法,所述方法包括:获取多组训练样本,每组所述训练样本包括第一输入信息和目标回复信息;基于所述第一输入信息和所述目标回复信息,根据词库确定第一目标词语,并根据所述第一目标词语确定第一隐变量;基于所述第一隐变量训练所述对话生成模型;其中,所述词库为对话文本的词集合。在本公开的一种示例性实施例中,基于前述实施例,所述基于所述第一输入信息和所述目标回复信息,根据词库确定第一目标词语,并根据所述第一目标词语确定第一隐变量,包括:对所述词库中的词语进行聚类,得到多个词簇;根据所述第一输入信息和所述目标回复信息确定上下文信息;根据所述上下文信息对所述多个词簇进行采样,得到第一目标词簇;根据所述上下文信息对所述第一目标词簇进行采样,确定第一目标词语;根据所述第一目标词簇和所述第一目标词语确定所述第一隐变量。在本公开的一种示例性实施例中,基于前述实施例,所述根据所述第一输入信息和所述目标回复信息确定上下文信息,包括:基于神经网络模型,确定所述第一输入信息对应的第一向量,以及确定所述目标回复信息对应的第二向量;组合所述第一向量和所述第二向量确定所述上下文信息对应的上下文向量。在本公开的一种示例性实施例中,基于前述实施例,所述对话生成模型包括:编码网络和解码网络;其中,所述基于所述第一隐变量训练所述对话生成模型,包括:通过所述编码网络对所述第一输入信息进行处理,确定第一语义向量;根据所述第一语义向量初始化所述解码网络中循环神经网络模型的第一初始隐状态;根据所述第一初始隐状态和所述第一隐变量确定所述解码网络中循环神经网络模型的第一计算隐状态,以基于所述第一计算隐状态实现对所述对话生成模型的训练。在本公开的一种示例性实施例中,基于前述实施例,在所述基于所述第一隐变量训练所述对话生成模型之后,所述方法还包括:获取第二输入信息作为所述对话生成模型的测试样本;基于所述第二输入信息,根据所述词库确定第二目标词语,并根据所述第二目标词语确定第二隐变量;基于所述第二隐变量测试所述训练后的对话生成模型。在本公开的一种示例性实施例中,基于前述实施例,所述基于所述第二输入信息,根据所述词库确定第二目标词语,并根据所述第二目标词语确定第二隐变量,包括:对所述词库中的词语进行聚类,得到多个词簇;根据所述第二输入信息对所述多个词簇进行采样,得到第二目标词簇;根据所述第二输入信息对所述第二目标词簇进行采样,确定第二目标词语;根据所述第二目标词簇和所述第二目标词语确定所述第二隐变量。在本公开的一种示例性实施例中,基于前述实施例,所述对话生成模型包括:编码网络和解码网络;其中,所述基于所述第二隐变量测试所述训练后的对话生成模型,包括:通过所述编码网络对所述第二输入信息进行处理,确定第二语义向量;根据所述第二语义向量初始化所述解码网络中循环神经网络模型的第二初始隐状态;根据所述第二初始隐状态和所述第二隐变量确定所述解码网络中循环神经网络模型的第二计算隐状态,以基于所述第二计算隐状态实现对所述对话生成模型的测试。在本公开的一种示例性实施例中,基于前述实施例,所述基于所述第一隐变量训练所述对话生成模型,包括:根据所述第一隐变量对应的第一分布概率,和所述第二隐变量对应的第二概率,计算相对熵;确定所述相对熵为损失函数训练所述对话生成模型。根据本公开的第二方面,提供一种对话生成模型的确定装置,所述装置包括:训练样本获取模块,被配置为获取多组训练样本,每组所述训练样本包括第一输入信息和目标回复信息;第一隐变量确定模块,被配置为基于所述第一输入信息和所述目标回复信息,根据词库确定第一目标词语,并根据所述第一目标词语确定第一隐变量;模型训练模块,被配置为基于所述第一隐变量训练所述对话生成模型;其中,所述词库为对话文本的词集合。在本公开的一种示例性实施例中,基于前述实施例,上述第一隐变量确定模块,包括:第一聚类单元、上下文信息确定单元、采样单元和第一隐变量确定单元。其中:上述第一聚类单元被配置为:对所述词库中的词语进行聚类,得到多个词簇;上述上下文信息确定单元被配置为:根据所述第一输入信息和所述目标回复信息确定上下文信息;上述采样单元被配置为:根据所述上下文信息对所述多个词簇进行采样,得到第一目标词簇;以及,还被配置为:根据所述上下文信息对所述第一目标词簇进行采样,确定第一目标词语;上述第一隐变量确定单元被配置为:根据所述第一目标词簇和所述第一目标词语确定所述第一隐变量。在本公开的一种示例性实施例中,基于前述实施例,上述上下文信息确定单元,具体被配置为:基于神经网络模型,确定所述第一输入信息对应的第一向量,以及确定所述目标回复信息对应的第二向量;以及,组合所述第一向量和所述第二向量确定所述上下文信息对应的上下文向量。在本公开的一种示例性实施例中,基于前述实施例,所述对话生成模型包括:编码网络和解码网络;上述模型训练模块,包括:语义向量确定子单元、隐状态初始化子单元以及训练子单元;其中:上述语义向量确定子单元被配置为:通过所述编码网络对所述第一输入信息进行处理,确定第一语义向量;上述隐状态初始化子单元被配置为:根据所述第一语义向量初始化所述解码网络中循环神经网络模型的第一初始隐状态;上述训练子单元被配置为:根据所述第一初始隐状态和所述第一隐变量确定所述解码网络中循环神经网络模型的第一计算隐状态,以基于所本文档来自技高网...

【技术保护点】
1.一种对话生成模型的确定方法,其特征在于,所述方法包括:获取多组训练样本,每组所述训练样本包括第一输入信息和目标回复信息;基于所述第一输入信息和所述目标回复信息,根据词库确定第一目标词语,并根据所述第一目标词语确定第一隐变量;基于所述第一隐变量训练所述对话生成模型;其中,所述词库为对话文本的词集合。

【技术特征摘要】
1.一种对话生成模型的确定方法,其特征在于,所述方法包括:获取多组训练样本,每组所述训练样本包括第一输入信息和目标回复信息;基于所述第一输入信息和所述目标回复信息,根据词库确定第一目标词语,并根据所述第一目标词语确定第一隐变量;基于所述第一隐变量训练所述对话生成模型;其中,所述词库为对话文本的词集合。2.根据权利要求1所述的对话生成模型的确定方法,其特征在于,所述基于所述第一输入信息和所述目标回复信息,根据词库确定第一目标词语,并根据所述第一目标词语确定第一隐变量,包括:对所述词库中的词语进行聚类,得到多个词簇;根据所述第一输入信息和所述目标回复信息确定上下文信息;根据所述上下文信息对所述多个词簇进行采样,得到第一目标词簇;根据所述上下文信息对所述第一目标词簇进行采样,确定第一目标词语;根据所述第一目标词簇和所述第一目标词语确定所述第一隐变量。3.根据权利要求2所述的对话生成模型的确定方法,其特征在于,所述根据所述第一输入信息和所述目标回复信息确定上下文信息,包括:基于神经网络模型,确定所述第一输入信息对应的第一向量,以及确定所述目标回复信息对应的第二向量;组合所述第一向量和所述第二向量确定所述上下文信息对应的上下文向量。4.根据权利要求1所述的对话生成模型的确定方法,其特征在于,所述对话生成模型包括:编码网络和解码网络;其中,所述基于所述第一隐变量训练所述对话生成模型,包括:通过所述编码网络对所述第一输入信息进行处理,确定第一语义向量;根据所述第一语义向量初始化所述解码网络中循环神经网络模型的第一初始隐状态;根据所述第一初始隐状态和所述第一隐变量确定所述解码网络中循环神经网络模型的第一计算隐状态,以基于所述第一计算隐状态实现对所述对话生成模型的训练。5.根据权利要求1所述的对话生成模型的确定方法,其特征在于,在所述基于所述第一隐变量训练所述对话生成模型之后,所述方法还包括:获取第二输入信息作为所述对话生成模型的测试样本;基于所述第二输入信息,根据所述词库确定第二目标词语,并根据所述第二...

【专利技术属性】
技术研发人员:高俊闭玮刘晓江史树明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1