模型训练方法、对话生成方法和装置、设备及存储介质制造方法及图纸

技术编号:34636162 阅读:16 留言:0更新日期:2022-08-24 15:09
本申请实施例提供了一种模型训练方法、对话生成方法和装置、设备及存储介质,属于人工智能技术领域。该方法包括:获取样本数据,其中,样本数据包括样本问题和候选答案;对样本数据进行分词处理,得到多个样本问答对;将样本问答对输入至预设的神经网络模型中,其中,神经网络模型包括编码层和高斯过程层;通过编码层对样本问答对进行特征提取,得到样本表征向量;通过高斯过程层对预设变量和样本表征向量进行对话预测,得到样本预测概率;根据样本预测概率对神经网络模型的损失函数进行优化,得到对话生成模型,其中,对话生成模型用于根据输入的目标问题生成目标回复答案。本申请实施例能够提高模型的训练效果。施例能够提高模型的训练效果。施例能够提高模型的训练效果。

【技术实现步骤摘要】
模型训练方法、对话生成方法和装置、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种模型训练方法、对话生成方法和装置、设备及存储介质。

技术介绍

[0002]目前,对话生成方法常常是通过深度神经网络模型对上下文语义与候选答案之间的关系进行提取,从而寻找最佳的候选答案,由于深度神经网络模型存在着过拟合的问题,常常需要进行模型校准,而常用的校准方式往往校准效果较差,影响模型的训练效果,因此,如何提高模型的训练效果,成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种模型训练方法、对话生成方法和装置、设备及存储介质,旨在提高模型的训练效果。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种模型训练方法,所述方法包括:
[0005]获取样本数据,其中,所述样本数据包括样本问题和候选答案;
[0006]对所述样本数据进行分词处理,得到多个样本问答对;
[0007]将所述样本问答对输入至预设的神经网络模型中,其中,所述神经网络模型包括编码层和高斯过程层;
[0008]通过所述编码层对所述样本问答对进行特征提取,得到样本表征向量;
[0009]通过所述高斯过程层对预设变量和所述样本表征向量进行对话预测,得到样本预测概率;
[0010]根据所述样本预测概率对所述神经网络模型的损失函数进行优化,得到对话生成模型,其中,所述对话生成模型用于根据输入的目标问题生成目标回复答案。
[0011]在一些实施例,所述对所述样本数据进行分词处理,得到多个样本问答对的步骤,包括:
[0012]通过预设的分词器对所述样本数据进行分词处理,得到标注有序号标签的样本问题片段和标注有序号标签的候选答案片段;
[0013]根据所述序号标签对所述样本问题片段和所述候选答案片段进行组合处理,得到所述样本问答对。
[0014]在一些实施例,所述通过所述编码层对所述样本问答对进行特征提取,得到样本表征向量的步骤,包括:
[0015]通过所述编码层对所述样本问答对进行编码处理,得到样本嵌入向量;
[0016]通过所述编码层对所述样本嵌入向量进行归一化处理,得到所述样本表征向量。
[0017]在一些实施例,所述通过所述高斯过程层对预设变量和所述样本表征向量进行对话预测,得到样本预测概率的步骤,包括:
[0018]通过所述高斯过程层对所述样本表征向量进行高斯先验处理,得到样本先验概率值;
[0019]通过预设函数对所述预设变量和所述样本先验概率值进行对话预测,得到所述样本预测概率,其中,所述预设变量服从Polya

Gamma分布。
[0020]为实现上述目的,本申请实施例的第二方面提出了一种对话生成方法,所述方法包括:
[0021]获取待处理的目标问题;
[0022]将所述目标问题输入至对话生成模型进行对话生成处理,得到目标回复答案,其中,所述对话生成模型根据如第一方面所述的模型训练方法训练得到。
[0023]在一些实施例,所述将所述目标问题输入至对话生成模型进行对话生成处理,得到目标回复答案的步骤,包括:
[0024]将所述目标问题输入至所述对话生成模型中;
[0025]对所述目标问题进行编码处理,得到目标问题嵌入向量;
[0026]对所述目标问题嵌入向量进行归一化处理,得到目标问题表征向量;
[0027]对所述目标问题表征向量进行对话预测处理,得到预测概率值;
[0028]根据所述预测概率值对预设的候选答案进行筛选处理,得到所述目标回复答案。
[0029]为实现上述目的,本申请实施例的第三方面提出了一种模型训练装置,所述装置包括:
[0030]数据获取模块,用于获取样本数据,其中,所述样本数据包括样本问题和候选答案;
[0031]分词模块,用于对所述样本数据进行分词处理,得到多个样本问答对;
[0032]输入模块,用于将所述样本问答对输入至预设的神经网络模型中,其中,所述神经网络模型包括编码层和高斯过程层;
[0033]特征提取模块,用于通过所述编码层对所述样本问答对进行特征提取,得到样本表征向量;
[0034]对话预测模块,用于通过所述高斯过程层对预设变量和所述样本表征向量进行对话预测,得到样本预测概率;
[0035]模型优化模块,用于根据所述样本预测概率对所述神经网络模型的损失函数进行优化,得到对话生成模型,其中,所述对话生成模型用于根据输入的目标问题生成目标回复答案。
[0036]为实现上述目的,本申请实施例的第四方面提出了一种对话生成装置,所述装置包括:
[0037]目标问题获取模块,用于获取待处理的目标问题;
[0038]对话生成模块,用于将所述目标问题输入至对话生成模型进行对话生成处理,得到目标回复答案,其中,所述对话生成模型根据如第一方面所述的模型训练方法训练得到。
[0039]为实现上述目的,本申请实施例的第五方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现上述第一方面所述的模型训练方法或者第二方面所述的对话生成方法。
[0040]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面所述的模型训练方法或者第二方面所述的对话生成方法。
[0041]本申请提出的模型训练方法、对话生成方法和装置、设备及存储介质,其通过获取样本数据,其中,样本数据包括样本问题和候选答案,对样本数据进行分词处理,得到多个样本问答对,能够将样本问题对应的候选答案进行配对,构建多个样本问答对,得到模型的训练数据。将样本问答对输入至预设的神经网络模型中,其中,神经网络模型包括编码层和高斯过程层;通过编码层对样本问答对进行特征提取,得到样本表征向量;通过高斯过程层对预设变量和样本表征向量进行对话预测,得到样本预测概率,能够通过编码层和高斯过程层建模检索式对话任务,提高模型的校准效果。最后根据样本预测概率对神经网络模型的损失函数进行优化,得到对话生成模型,其中,对话生成模型用于根据输入的目标问题生成目标回复答案。本申请实施例通过添加一个高斯过程层,使得在训练过程中能够较为准确地对模型进行校准,从而提高模型的训练效果。本申请实施例通过将待处理的目标问题输入至对话生成模型进行对话预测,能够提高生成的目标回复答案的准确性。
附图说明
[0042]图1是本申请实施例提供的模型训练方法的流程图;
[0043]图2是图1中的步骤S102的流程图;
[0044]图3是图1中的步骤S104的流程图;
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取样本数据,其中,所述样本数据包括样本问题和候选答案;对所述样本数据进行分词处理,得到多个样本问答对;将所述样本问答对输入至预设的神经网络模型中,其中,所述神经网络模型包括编码层和高斯过程层;通过所述编码层对所述样本问答对进行特征提取,得到样本表征向量;通过所述高斯过程层对预设变量和所述样本表征向量进行对话预测,得到样本预测概率;根据所述样本预测概率对所述神经网络模型的损失函数进行优化,得到对话生成模型,其中,所述对话生成模型用于根据输入的目标问题生成目标回复答案。2.根据权利要求1所述的模型训练方法,其特征在于,所述对所述样本数据进行分词处理,得到多个样本问答对的步骤,包括:通过预设的分词器对所述样本数据进行分词处理,得到标注有序号标签的样本问题片段和标注有序号标签的候选答案片段;根据所述序号标签对所述样本问题片段和所述候选答案片段进行组合处理,得到所述样本问答对。3.根据权利要求1所述的模型训练方法,其特征在于,所述通过所述编码层对所述样本问答对进行特征提取,得到样本表征向量的步骤,包括:通过所述编码层对所述样本问答对进行编码处理,得到样本嵌入向量;通过所述编码层对所述样本嵌入向量进行归一化处理,得到所述样本表征向量。4.根据权利要求1至3任一项所述的模型训练方法,其特征在于,所述通过所述高斯过程层对预设变量和所述样本表征向量进行对话预测,得到样本预测概率的步骤,包括:通过所述高斯过程层对所述样本表征向量进行高斯先验处理,得到样本先验概率值;通过预设函数对所述预设变量和所述样本先验概率值进行对话预测,得到所述样本预测概率,其中,所述预设变量服从Polya

Gamma分布。5.一种对话生成方法,其特征在于,所述方法包括:获取待处理的目标问题;将所述目标问题输入至对话生成模型进行对话生成处理,得到目标回复答案,其中,所述对话生成模型根据如权利要求1至4任一项所述的模型训练方法训练得到。6.根据权利要求5所述的对话生成方法,其特征在于,所述将所述目标问题输入至对话生成模型进行...

【专利技术属性】
技术研发人员:司世景王健宗叶童
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1