模型训练方法、回复信息的方法、装置、设备及介质制造方法及图纸

技术编号：38409574 阅读：14 留言：0更新日期：2023-08-07 11:16

本发明专利技术公开了一种模型训练方法、回复信息的方法、装置、设备及介质。该方法包括：确定预设问答样本对以及获取自然提问语句；利用预设初始模型中的初始预处理子模型语义清洗处理所述自然提问语句，并根据处理结果和所述预设提问样本，确定提问样本；将所述提问样本输入所述预设初始模型中的初始机器学习子模型中，得到样本回复信息；利用所述样本回复信息和所述预设回答样本训练所述预设初始模型，以得到训练完成后的预设模型。本发明专利技术实施例的技术方案，可以在训练的过程中，通过对自然提问语句的语义清洗处理将干扰内容筛除，不仅不需要大量的训练样本，还能在保证训练效果的基础上，提高训练的效率。提高训练的效率。提高训练的效率。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、回复信息的方法、装置、设备及介质

[0001]本专利技术涉及自然语言处理
，尤其涉及一种模型训练方法、回复信息的方法、装置、设备及存储介质。

技术介绍

[0002]在自动化交互系统中，客户提出问题，该系统会识别出客户的意图，并匹配适当的答案，而能够准确识别客户的意是极为关键的。只有正确的识别了客户意图，才能准确的回复客户，以解决客户的问题。
[0003]当客户与交互系统进行对话时，该系统通常会为客户直接解答问题，或给出引导问题，以引导客户输入关键问题。交互系统通常需要基于客户当前所给出的文本或语音内容，确定答案或下一轮引导问题。
[0004]然而，通常情况下，客户输入的对话内容不规范，如可能含有很多无效或干扰内容，故训练交互系统的语言应答模型时，需要大量的训练样本，训练效率较低。

技术实现思路

[0005]本专利技术提供了一种模型训练方法、回复信息的方法、装置、设备及存储介质，以解决训练模型时需要大量的训练样本的问题。
[0006]第一方面，本专利技术提供了一种模型训练方法，包括：
[0007]确定预设问答样本对以及获取自然提问语句，其中，所述预设问答样本对中包括预设提问样本和预设回答样本，所述自然提问语句和所述预设提问样本的提问目的一致；
[0008]利用预设初始模型中的初始预处理子模型语义清洗处理所述自然提问语句，并根据处理结果和所述预设提问样本，确定提问样本；
[0009]将所述提问样本输入所述预设初始模型中的初始机器学习子模型...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：确定预设问答样本对以及获取自然提问语句，其中，所述预设问答样本对中包括预设提问样本和预设回答样本，所述自然提问语句和所述预设提问样本的提问目的一致；利用预设初始模型中的初始预处理子模型语义清洗处理所述自然提问语句，并根据处理结果和所述预设提问样本，确定提问样本；将所述提问样本输入所述预设初始模型中的初始机器学习子模型中，得到样本回复信息；利用所述样本回复信息和所述预设回答样本训练所述预设初始模型，以得到训练完成后的预设模型。2.根据权利要求1所述的方法，其特征在于，所述利用预设初始模型中的初始预处理子模型语义清洗处理所述自然提问语句，并根据处理结果和所述预设提问样本，确定提问样本，包括：将所述自然提问语句输入至预设初始模型中的初始预处理子模型中，得到语义特征编码；确定所述预设提问样本的关键字的文本编码序列；根据所述语义特征编码和所述文本编码序列，确定提问样本。3.根据权利要求2所述的方法，其特征在于，所述根据所述语义特征编码和所述文本编码序列，确定提问样本，包括：从所述语义特征编码中提取第一预设比例的编码内容，得到第一提问编码，以及从所述文本编码序列中提取第二预设比例的编码内容，得到第二提问编码；将所述第一提问编码和所述第二提问编码进行拼接，得到提问样本，其中，在对所述预设初始模型进行训练的前预设轮次中，所述第一提问编码占所述提问样本的比例，小于所述第二提问编码占所述提问样本的比例。4.根据权利要求1所述的方法，其特征在于，所述利用所述样本回复信息和所述预设回答样本训练所述预设初始模型，以得到训练完成后的预设模型，包括：根据所述样本回复信息和所述预设回答样本，确定损失函数，并利用所述损失函数训练所述预设初始模型，得到训练完成后的预设模型。5.一种回复信息的方法，其特征在于，包括：确定用户输入的对话信息；利用预设模型中的语言预处理子模型，对所述对话信息进行语义清洗处理，得到目标特征编码，其中，所述预设模型采用如权利要求1
‑
4任一所述的模型训练方法得到；将所述目标特征编码输入至所述预设模型中的预设机器学习子模型中，得...

【专利技术属性】
技术研发人员：沈乐，肖宇，杨萱，
申请(专利权)人：中国农业银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人