当前位置: 首页 > 专利查询>厦门大学专利>正文

对话模型的训练方法及装置制造方法及图纸

技术编号:38335341 阅读:9 留言:0更新日期:2023-08-02 09:16
本申请公开了一种对话模型的训练方法和装置,其中方法包括:获取对话信息,通过关键词抽取工具获取对话信息中的关键词,并依次输入搜索引擎,以得到每个关键词对应的检索知识文档;对于每个候选查询及其检索到的知识文档,将知识文档与对话语料中对话回复进行相似度匹配,记录每个查询对应的匹配分数;对构建的查询生成模型使用强化学习进行训练,该查询生成模型输入对话上下文以预测查询;训练时,记录的匹配分数将作为对应查询的奖励函数,指导模型预测出高匹配分数的查询;通过获取的查询生成模型,针对对话信息预测对应查询并从搜索引擎检索知识文档,以用于训练对话回复生成模型;从而获取海量和即时知识等优势,以生成更高质量的对话回复。高质量的对话回复。高质量的对话回复。

【技术实现步骤摘要】
对话模型的训练方法及装置


[0001]本申请涉及人机对话
,特别涉及一种对话模型的训练方法、一种计算机可读存储介质、一种计算机设备和一种对话模型的训练装置。

技术介绍

[0002]相关技术中,人机对话作为自然语言处理的一项基础应用,一直备受学术界和工业界的重视;知识辅助的对话回复生成旨在通过为聊天机器人添加相关的外部知识,以期生成蕴含丰富常识知识的对话回复;现有大部分工作都假设相关知识是作为输入给出的,或者是从静态知识池中检索出来的;但是这种假设违背了真实世界的情况,其中知识是不断更新的,并且聊天机器人必须动态地检索有用的知识,从而导致对话回复质量差,用户体验感差。

技术实现思路

[0003]本申请旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本申请的一个目的在于提出一种对话模型的训练方法,能够从搜索引擎检索知识,且采用无需人工标注的弱监督训练方法,通过对话语料与检索知识对候选查询进行质量评价,进而设计奖励函数使用强化学习对查询生成模型进行训练;通过训练获取的查询生成模型能更好拟合目标领域场景,获取较传统关键词生成模型更高的目标知识召回率。
[0004]本申请的第二个目的在于提出一种计算机可读存储介质。
[0005]本申请的第三个目的在于提出一种计算机设备。
[0006]本申请的第四个目的在于提出一种对话模型的训练装置。
[0007]为达到上述目的,本申请第一方面实施例提出了一种对话模型的训练方法,包括以下步骤:获取对话信息,并通过关键词抽取工具在所述对话信息中抽取多个关键词,以便得到候选查询集合;将所述候选查询集合中的每个关键词依次输入到搜索引擎,以便得到每个关键词对应的检索知识文档;将所述每个关键词对应的检索知识文档与对话语料中的对话回复进行相似度匹配,以得到每个关键词对应的匹配分数;构建第一网络模型,根据所述对话信息和所述每个关键词对应的匹配分数对所述第一网络模型进行训练,以得到训练好的查询生成模型,其中,训练过程包括直接拟合匹配分数最高的关键词进行训练的预训练阶段和将标准化后的每个关键词对应的匹配分数作为强化学习奖励函数对预训练后的查询生成模型进一步训练的精调阶段;构建第二网络模型,根据所述对话信息、所述训练好的查询生成模型的输出结果和所述对话回复对所述第二网络模型进行训练,以得到训练好的对话回复生成模型,以便根据训练好的查询生成模型和训练好的对话回复生成模型得到与待预测对话信息相匹配的对话回复。
[0008]根据本申请实施例的对话模型的训练方法,首先,获取对话信息,并通过关键词抽取工具在对话信息中抽取多个关键词,以便得到候选查询集合;接着,将候选查询集合中的每个关键词依次输入到搜索引擎,以便得到每个关键词对应的检索知识文档;然后,将每个
关键词对应的检索知识文档与对话语料中的对话回复进行相似度匹配,以得到每个关键词对应的匹配分数;再接着,构建第一网络模型,根据对话信息和每个关键词对应的匹配分数对第一网络模型进行训练,以得到训练好的查询生成模型,其中,训练过程包括直接拟合匹配分数最高的关键词进行训练的预训练阶段和将标准化后的每个关键词对应的匹配分数作为强化学习奖励函数对预训练后的查询生成模型进一步训练的精调阶段;最后,构建第二网络模型,根据对话信息、训练好的查询生成模型的输出结果和对话回复对第二网络模型进行训练,以得到训练好的对话回复生成模型,以便根据训练好的查询生成模型和训练好的对话回复生成模型得到与待预测对话信息相匹配的对话回复;由此,无需任何人工标注,即可使用来源于搜索引擎检索得到的知识,不同于传统静态知识源,该模型能获取海量和即时知识等优势,进而生成更高质量的对话回复。
[0009]另外,根据本申请上述实施例提出的对话模型的训练方法还可以具有如下附加的技术特征:
[0010]可选地,根据以下公式获取每个关键词对应的匹配分数:
[0011][0012]对于第i个关键字q
i
及其对应的检索知识文档K
i
={k1,

,k5},其中,u
t
表示对话回复,Max函数用以获取集合中的最大值,并在BM25算法上,对k
i
,u
t
进行了指代消解和去停词操作。
[0013]可选地,所述第一网络模型为基于抽取的查询生成模型或者基于序列生成的查询生成模型中的任意一种。
[0014]可选地,所述第二网络模型为基于排序的对话回复生成模型和基于合并的对话生成模型中的任意一种。
[0015]为达到上述目的,本申请第二方面实施例提出了一种计算机可读存储介质,其上存储有对话模型的训练程序,该对话模型的训练程序被处理器执行时实现如上述的对话模型的训练方法。
[0016]根据本申请实施例的计算机可读存储介质,通过存储对话模型的训练程序,以使得处理器在执行该对话模型的训练程序时,实现如上述的对话模型的训练方法,由此,无需任何人工标注,即可使用来源于搜索引擎检索得到的知识,不同于传统静态知识源,该模型能获取海量和即时知识等优势,进而生成更高质量的对话回复。
[0017]为达到上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述的对话模型的训练方法。
[0018]根据本申请实施例的计算机设备,通过存储器对对话模型的训练程序进行存储,以使得处理器在执行该对话模型的训练程序时,实现如上述的对话模型的训练方法,由此,无需任何人工标注,即可使用来源于搜索引擎检索得到的知识,不同于传统静态知识源,该模型能获取海量和即时知识等优势,进而生成更高质量的对话回复。
[0019]为达到上述目的,本申请第四方面实施例提出了一种对话模型的训练装置,包括:获取模块,用于获取对话信息,并通过关键词抽取工具在所述对话信息中抽取多个关键词,以便得到候选查询集合;搜索模块,用于将所述候选查询集合中的每个关键词依次输入到搜索引擎,以便得到每个关键词对应的检索知识文档;匹配模块,用于将所述每个关键词对
应的检索知识文档与对话语料中的对话回复进行相似度匹配,以得到每个关键词对应的匹配分数;第一训练模块,用于构建第一网络模型,根据所述对话信息和所述每个关键词对应的匹配分数对所述第一网络模型进行训练,以得到训练好的查询生成模型,其中,训练过程包括直接拟合匹配分数最高的关键词进行训练的预训练阶段和将标准化后的每个关键词对应的匹配分数作为强化学习奖励函数对预训练后的查询生成模型进一步训练的精调阶段;第二训练模块,用于构建第二网络模型,根据所述对话信息、所述训练好的查询生成模型的输出结果和所述对话回复对所述第二网络模型进行训练,以得到训练好的对话回复生成模型,以便根据训练好的查询生成模型和训练好的对话回复生成模型得到与待预测对话信息相匹配的对话回复。
[0020]根据本申请实施例的对话模型的训练装置,无需任何人工标注,即可使用来源于搜索引擎检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话模型的训练方法,其特征在于,包括以下步骤:获取对话信息,并通过关键词抽取工具在所述对话信息中抽取多个关键词,以便得到候选查询集合;将所述候选查询集合中的每个关键词依次输入到搜索引擎,以便得到每个关键词对应的检索知识文档;将所述每个关键词对应的检索知识文档与对话语料中的对话回复进行相似度匹配,以得到每个关键词对应的匹配分数;构建第一网络模型,根据所述对话信息和所述每个关键词对应的匹配分数对所述第一网络模型进行训练,以得到训练好的查询生成模型,其中,训练过程包括直接拟合匹配分数最高的关键词进行训练的预训练阶段和将标准化后的每个关键词对应的匹配分数作为强化学习奖励函数对预训练后的查询生成模型进一步训练的精调阶段;构建第二网络模型,根据所述对话信息、所述训练好的查询生成模型的输出结果和所述对话回复对所述第二网络模型进行训练,以得到训练好的对话回复生成模型,以便根据训练好的查询生成模型和训练好的对话回复生成模型得到与待预测对话信息相匹配的对话回复。2.如权利要求1所述的对话模型的训练方法,其特征在于,根据以下公式获取每个关键词对应的匹配分数:对于第i个关键字q
i
及其对应的检索知识文档K
i
={k1,

,k5},其中,u
t
表示对话回复,Max函数用以获取集合中的最大值,并在BM25算法上,对k
i
,u
t
进行了指代消解和去停词操作。3.如权利要求1所述的对话模型的训练方法,其特征在于,所述第一网络模型为基于抽取的查询生成模型或者基于序列生成的查询生成模型中的任意一种。4.如权利要求1所述的对话模型的训练方法,其特征在于,所述第二网络模型为基于排序的对话回复生成模型和基于合并的对话生成模型中的任意一种。5.一种计算机可读存储介质,其特征在于,其特征在于,其上存储有对话模型的训练程序,该对话模型的训练程序被处理器执行时实现如权利要求1

4中任一项所述的对话模型的训练方法。6.一种计算机设备,包括存储器、处理器及存储在存储器上...

【专利技术属性】
技术研发人员:苏劲松王安特
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1