对话生成模型训练方法、对话生成方法及装置制造方法及图纸

技术编号:24683848 阅读:29 留言:0更新日期:2020-06-27 08:05
本公开提供一种对话生成模型训练方法、对话生成方法及装置,包括:获取多组样本数据,每组样本数据中,包括真实问题、与真实问题匹配的真实答案,以及与真实答案对应的至少一个相似答案;根据每组样本数据中的真实问题和相似答案进行编码,得到与每组样本数据中的真实问题和相似答案分别对应的编码数据;根据每组样本数据中的真实问题和相似答案分别对应的编码数据、以及真实答案,得到每组样本数据对应的预测对话;基于各组样本数据分别对应的预测对话以及真实答案进行训练以生成对话生成模型。该实施例中相似答案为答案生成模型增加了更多可用的背景信息,使得对话生成模型可以生成更多有信息性的回复,且生成的对话具有多样性。

Dialogue generation model training method, dialogue generation method and device

【技术实现步骤摘要】
对话生成模型训练方法、对话生成方法及装置
本公开涉及深度学习
,具体而言,涉及一种对话生成模型训练方法、对话生成方法及装置。
技术介绍
对话系统是深度学习应用的一个重要方向,目前基于深度学习的对话系统按照实现方式可以分为两种类型,一种是生成式对话系统,生成式系统接受用户输入的文字,并基于用户输入的文字,以及预先训练的模型生成一条回复。另一种是检索式对话系统,检索式的对话系统一般分为候选问答对召回和匹配打分排序两个步骤。候选问答对召回是根据用户输入的句子,检索出语料库中相似的问题,并取出其对应的回复作为候选集。然后再利用训练好的匹配模型对用户输入和候选集中的候选回复进行打分,作为两者的匹配度,然后取出分数最高的候选回复作为最终回复返回给用户。生成式对话系统生成的在很多情况下缺乏具体信息,检索式对话生成系统所生成的对话虽然不会缺乏具体信息,但生成的对话缺乏多样性。
技术实现思路
本公开实施例至少提供一种对话生成模型训练方法、对话生成方法及装置。第一方面,本公开实施例提供了一种对话生成模型训练方法,包括:获取本文档来自技高网...

【技术保护点】
1.一种对话生成模型训练方法,其特征在于,包括:/n获取多组样本数据,每组样本数据中,包括真实问题、与所述真实问题匹配的真实答案,以及与所述真实答案对应的至少一个相似答案;/n根据每组所述组样本数据中的真实问题和相似答案进行编码,得到与所述每组样本数据中的真实问题和相似答案分别对应的编码数据;/n根据所述每组样本数据中的所述真实问题和所述相似答案分别对应的编码数据、以及所述真实答案,得到所述每组样本数据对应的预测对话;/n基于各组所述样本数据分别对应的预测对话以及真实答案进行训练以生成所述对话生成模型。/n

【技术特征摘要】
1.一种对话生成模型训练方法,其特征在于,包括:
获取多组样本数据,每组样本数据中,包括真实问题、与所述真实问题匹配的真实答案,以及与所述真实答案对应的至少一个相似答案;
根据每组所述组样本数据中的真实问题和相似答案进行编码,得到与所述每组样本数据中的真实问题和相似答案分别对应的编码数据;
根据所述每组样本数据中的所述真实问题和所述相似答案分别对应的编码数据、以及所述真实答案,得到所述每组样本数据对应的预测对话;
基于各组所述样本数据分别对应的预测对话以及真实答案进行训练以生成所述对话生成模型。


2.根据权利要求1所述的对话生成模型训练方法,其特征在于,所述获取多组样本数据,包括:
获取多组样本数据中每组样本数据的真实问题,以及与所述每组样本数据的真实问题匹配的真实答案;
基于与所述每组样本数据的真实问题匹配的真实答案,在训练语料库中进行相似检索,得到与所述每组样本数据的真实问题匹配的真实答案对应的至少一个相似答案;
其中,所述训练语料库中包括多个训练语料对,每个训练语料对中包括一个真实问题,以及与该真实问题对应的真实答案。


3.根据权利要求2所述的对话生成模型训练方法,其特征在于,所述基于与所述每组样本数据的真实问题匹配的真实答案,在训练语料库中进行相似检索,包括:
将所述每组样本数据的真实问题匹配的真实答案,与所述训练语料库中各个训练语料对中的真实答案依次进行第一字符匹配,并基于所述第一字符匹配的结果,确定所述与所述每组样本数据的真实问题匹配的真实答案,与各个训练语料对中的真实答案分别对应的第一相似度;
基于所述第一相似度,从各个训练语料对中的真实答案中,确定与所述每组样本数据的真实问题匹配的真实答案对应的至少一个相似答案。


4.根据权利要求2所述的对话生成模型训练方法,其特征在于,所述基于与所述每组样本数据的真实问题匹配的真实答案,在训练语料库中进行相似检索,得到与所述每组样本数据的真实问题匹配的真实答案对应的至少一个相似答案,包括:
基于所述每组样本数据的真实问题以及匹配的真实答案,在所述训练语料库中进行相似检索,得到与所述每组样本数据的真实问题匹配的真实答案对应的至少一个相似答案。


5.根据权利要求4所述的对话生成模型训练方法,其特征在于,所述基于所述每组样本数据的真实问题以及匹配的真实答案,在所述训练语料库中进行相似检索,得到与所述每组样本数据的真实问题匹配的真实答案对应的至少一个相似答案,包括:
将所述每组样本数据的真实问题以及匹配的真实答案作为目标对话对,与所述训练语料库中各个样本语料对依次进行第二字符匹配,并基于所述第二字符匹配的结果,确定所述训练语料库中的各个训练语料对分别与所述目标对话对的第二相似度;
基于所述第二相似度,从各个训练语料对中确定多个目标语料对,并基于所述目标语料对中的真实答案,确定与所述每组样本数据的真实问题匹配的真实答案对应的至少一个相似答案。


6.根据权利要求5所述的对话生成模型训练方法,其特征在于,所述基于所述目标语料对中的真实答案,确定与所述每组样本数据的真实问题匹配的真实答案对应的至少一个相似答案,包括:
确定所述每组样本数据的真实问题、与各个所述目标语料对中的真实答案之间的匹配度;
基于所述匹配度,从各个所述目标语料对中的真实答案中,确定与所述每组样本数据的真实问题匹配的真实答案对应的至少一个相似答案。


7.根据权利要求6所述的对话生成模型训练方法,其特征在于,所述确定所述每组样本数据的真实问题与各个所述目标语料对中的真实答案之间的匹配度,包括:
将所述每组样本数据的真实问题,与各个所述目标语料对中的真实答案构成备选对话对;
基于预先训练的对话匹配模型,得到各个所述备选对话对对应的匹配度。


8.根据权利要求1-7任一项所述的对话生成模型训练方法,其特征在于,针对与所述真...

【专利技术属性】
技术研发人员:张荣升邵建智毛晓曦范长杰胡志鹏
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1