模型训练方法、对话生成方法和装置、设备及存储介质制造方法及图纸

技术编号：34636162 阅读：16 留言：0更新日期：2022-08-24 15:09

本申请实施例提供了一种模型训练方法、对话生成方法和装置、设备及存储介质，属于人工智能技术领域。该方法包括：获取样本数据，其中，样本数据包括样本问题和候选答案；对样本数据进行分词处理，得到多个样本问答对；将样本问答对输入至预设的神经网络模型中，其中，神经网络模型包括编码层和高斯过程层；通过编码层对样本问答对进行特征提取，得到样本表征向量；通过高斯过程层对预设变量和样本表征向量进行对话预测，得到样本预测概率；根据样本预测概率对神经网络模型的损失函数进行优化，得到对话生成模型，其中，对话生成模型用于根据输入的目标问题生成目标回复答案。本申请实施例能够提高模型的训练效果。施例能够提高模型的训练效果。施例能够提高模型的训练效果。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、对话生成方法和装置、设备及存储介质

[0001]本申请涉及人工智能
，尤其涉及一种模型训练方法、对话生成方法和装置、设备及存储介质。

技术介绍

[0002]目前，对话生成方法常常是通过深度神经网络模型对上下文语义与候选答案之间的关系进行提取，从而寻找最佳的候选答案，由于深度神经网络模型存在着过拟合的问题，常常需要进行模型校准，而常用的校准方式往往校准效果较差，影响模型的训练效果，因此，如何提高模型的训练效果，成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种模型训练方法、对话生成方法和装置、设备及存储介质，旨在提高模型的训练效果。
[0004]为实现上述目的，本申请实施例的第一方面提出了一种模型训练方法，所述方法包括：
[0005]获取样本数据，其中，所述样本数据包括样本问题和候选答案；
[0006]对所述样本数据进行分词处理，得到多个样本问答对；
[0007]将所述样本问答对输入至预设的神经网络模型中，其中，所述神经网络模型包括编码层和高斯过程层；
[0008]通过所述编码层对所述样本问答对进行特征提取，得到样本表征向量；
[0009]通过所述高斯过程层对预设变量和所述样本表征向量进行对话预测，得到样本预测概率；
[0010]根据所述样本预测概率对所述神经网络模型的损失函数进行优化，得到对话生成模型，其中，所述对话生成模型用于根据输入的目标问题生成目标回复答案。
[0011]在一

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：获取样本数据，其中，所述样本数据包括样本问题和候选答案；对所述样本数据进行分词处理，得到多个样本问答对；将所述样本问答对输入至预设的神经网络模型中，其中，所述神经网络模型包括编码层和高斯过程层；通过所述编码层对所述样本问答对进行特征提取，得到样本表征向量；通过所述高斯过程层对预设变量和所述样本表征向量进行对话预测，得到样本预测概率；根据所述样本预测概率对所述神经网络模型的损失函数进行优化，得到对话生成模型，其中，所述对话生成模型用于根据输入的目标问题生成目标回复答案。2.根据权利要求1所述的模型训练方法，其特征在于，所述对所述样本数据进行分词处理，得到多个样本问答对的步骤，包括：通过预设的分词器对所述样本数据进行分词处理，得到标注有序号标签的样本问题片段和标注有序号标签的候选答案片段；根据所述序号标签对所述样本问题片段和所述候选答案片段进行组合处理，得到所述样本问答对。3.根据权利要求1所述的模型训练方法，其特征在于，所述通过所述编码层对所述样本问答对进行特征提取，得到样本表征向量的步骤，包括：通过所述编码层对所述样本问答对进行编码处理，得到样本嵌入向量；通过所述编码层对所述样本嵌入向量进行归一化处理，得到所述样本表征向量。4.根据权利要求1至3任一项所述的模型训练方法，其特征在于，所述通过所述高斯过程层对预设变量和所述样本表征向量进行对话预测，得到样本预测概率的步骤，包括：通过所述高斯过程层对所述样本表征向量进行高斯先验处理，得到样本先验概率值；通过预设函数对所述预设变量和所述样本先验概率值进行对话预测，得到所述样本预测概率，其中，所述预设变量服从Polya
‑
Gamma分布。5.一种对话生成方法，其特征在于，所述方法包括：获取待处理的目标问题；将所述目标问题输入至对话生成模型进行对话生成处理，得到目标回复答案，其中，所述对话生成模型根据如权利要求1至4任一项所述的模型训练方法训练得到。6.根据权利要求5所述的对话生成方法，其特征在于，所述将所述目标问题输入至对话生成模型进行...

【专利技术属性】
技术研发人员：司世景，王健宗，叶童，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人