一种对话处理方法、系统、存储介质及终端技术方案

技术编号:38007508 阅读:11 留言:0更新日期:2023-06-30 10:25
本申请公开了一种对话处理方法、系统、存储介质及终端,方法包括:获取针对客户端输入的原始问题文本,在存在历史对话文本时,拼接原始问题文本与历史对话文本,将拼接的文本输入预先训练的文本生成模型,输出多条目标响应文本;预先训练的文本生成模型基于预先训练的奖励模型中文本喜欢程度最大化损失函数训练生成,损失函数用于最大化得分更高的文本与得分更低的文本之间的差值;将任意一个符合预设条件的目标响应文本响应客户端。本申请通过文本喜欢程度最大化损失函数训练模型,损失函数能最大化得分更高的文本与得分更低的文本之间的差值,使训练的模型在应用中输出的回复文本符合客观事实和科学原理,提升了问答系统生成回复文本的准确性。成回复文本的准确性。成回复文本的准确性。

【技术实现步骤摘要】
一种对话处理方法、系统、存储介质及终端


[0001]本申请涉及机器学习
,特别涉及一种对话处理方法、系统、存储介质及终端。

技术介绍

[0002]近年来,人工智能的发展如火如荼,其中自然语言理解是人工智能领域中最重要的方向之一,让机器识别自然语言已经成为研究人员研究的热点,由此智能问答系统应运而生。智能问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题,常见的智能问答系统可分为闲聊型、问答型和任务型。
[0003]在现有技术中,针对闲聊型的问答系统实现方式中,通常主要是基于检索问答库的技术路线,通过构建闲聊语料库进而实现智能问答;也可以基于生成类模型,通过模型的方式直接生成回复文本。由于目前文本生成类模型在训练过程中采用历史对话文本进行训练的,历史对话文本可能包括各种各样的训练数据,从而导致模型在生成的回复文本时会出现不符合客观事实和科学原理的情况,甚至出现具有毒害性且不可控的回复文本,此类回复文本并不符合人们预期的回复,从而降低了问答系统生成回复文本的准确性。

技术实现思路

[0004]本申请实施例提供了一种对话处理方法、系统、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0005]第一方面,本申请实施例提供了一种对话处理方法,方法包括:
[0006]获取针对客户端输入的原始问题文本,并在存在历史对话文本的情况下,拼接原始问题文本与历史对话文本,得到待处理文本;
[0007]将待处理文本输入预先训练的文本生成模型中,输出待处理文本对应的多条目标响应文本;其中,
[0008]预先训练的文本生成模型是基于预先训练的奖励模型中文本喜欢程度最大化损失函数以及强化学习方式训练生成的;文本喜欢程度最大化损失函数用于最大化得分更高的文本与得分更低的文本之间的差值;
[0009]根据敏感词库和预先训练的混淆度计算模型判定每条目标响应文本是否符合预设条件,并将任意一个符合预设条件的目标响应文本响应至客户端。
[0010]可选的,按照以下步骤生成预先训练的文本生成模型,包括:
[0011]在历史对话文本库中获取并预处理预设数量的对话文本,得到第一标准对话数据集和第二标准对话数据集;
[0012]将第二标准对话数据集按照预设比例划分为三部分,得到第一模型训练样本、第二模型训练样本以及第三模型训练样本;
[0013]根据第一标准对话数据集对预设GPT模型进行模型训练,训练结束后得到第一对话模型;
[0014]根据第一模型训练样本对第一对话模型进行有监督训练,训练结束后得到第二对话模型;
[0015]根据第二模型训练样本以及第二对话模型进行奖励模型训练,训练结束后得到预先训练的奖励模型;
[0016]根据第三模型训练样本、第二对话模型以及预先训练的奖励模型进行模型强化学习训练,训练结束后得到预先训练的文本生成模型。
[0017]可选的,获取并预处理预设数量的对话文本,得到第一标准对话数据集和第二标准对话数据集,包括:
[0018]获取预设数量的对话文本;
[0019]对获取的每个对话文本进行数据预处理,得到第一标准对话数据集;数据预处理至少包括错别字替换、特殊字符处理以及断句处理;
[0020]将第一标准对话数据集中每个第一标准对话数据进行数据结构化处理,得到第二标准对话数据集;数据结构化处理至少包括对话角色划分、对话顺序归类以及对话拼接。
[0021]可选的,根据第二模型训练样本以及第二对话模型进行奖励模型训练,训练结束后得到预先训练的奖励模型,包括:
[0022]按照预设第一角色在前以及预设第二角色在后的方式,将第二模型训练样本中每个对话序列中历史对话进行拼接,并在拼接的对话文本的句子数量以及文本长度满足预设阈值时,对拼接的对话文本标记角色标签以及对话序号,得到标签数据;
[0023]将标签数据的每条输入文本输入第二对话模型中,输出每条输入文本对应的响应文本;
[0024]将每条输入文本及其响应文本组合为目标数据发送至客户端进行展示;
[0025]接收针对展示的目标数据的排序和打分,得到奖励模型训练样本;
[0026]将第二对话模型最后的线性层进行修改,使第二对话模型输出标量分数值,并对修改后的第二对话模型设置文本喜欢程度最大化损失函数,得到奖励模型;
[0027]将奖励模型训练样本输入奖励模型中,输出模型损失值;
[0028]当模型损失值到达最小且训练次数到达预设阈值时,得到预先训练的奖励模型。
[0029]可选的,文本喜欢程度最大化损失函数为:
[0030][0031]其中,r
θ
(x,y)表示在模型参数为θ时候奖励模型对于输入文本序列x和生成的结果y的标量输出,y
w
是人类更喜欢的生成,y
l
是相对不喜欢的生成,σ是一个激活函数,D是对比数据集,表示每一条输入文本生成的对应K条结果的组合数(如K=4时,组合数)。
[0032]可选的,根据第三模型训练样本、第二对话模型以及预先训练的奖励模型进行模型强化学习训练,训练结束后得到预先训练的文本生成模型,包括:
[0033]将第三模型训练样本进行标准化处理,得到强化学习训练数据;
[0034]采用深度增强学习PPO算法构建强化学习网络;
[0035]将强化学习网络中状态组件的策略网络和价值网络均映射为第二对话模型,并将文本生成模型中奖励函数映射为预先训练的奖励模型,得到文本生成模型;
[0036]从强化学习训练数据中选取预设数量的对话文本输入文本生成模型中,输出目标奖励评分;
[0037]当目标奖励评分到达最高且训练次数到达预设阈值时,得到预先训练的文本生成模型。
[0038]可选的,从强化学习训练数据中选取预设数量的对话文本输入文本生成模型中,输出目标奖励评分,包括:
[0039]从强化学习训练数据中选取预设数量的对话文本输入策略网络中,得到响应文本序列;
[0040]将响应文本序列及其输入的文本按照响应文本序列在后的方式拼接起来,得到目标文本序列;
[0041]将目标文本序列输入预先训练的奖励模型中,得到目标奖励评分;
[0042]方法还包括:
[0043]当目标奖励评分未到达最高或者训练次数未到达预设次数时,更新策略网络和价值网络的模型参数,并继续执行从强化学习训练数据中选取预设数量的对话文本输入文本生成模型中,输出目标奖励评分的步骤。
[0044]第二方面,本申请实施例提供了一种对话处理系统,系统包括:
[0045]待处理文本获取模块,用于获取针对客户端输入的原始问题文本,并在存在历史本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话处理方法,其特征在于,所述方法包括:获取针对客户端输入的原始问题文本,并在存在历史对话文本的情况下,拼接所述原始问题文本与所述历史对话文本,得到待处理文本;将所述待处理文本输入预先训练的文本生成模型中,输出所述待处理文本对应的多条目标响应文本;其中,所述预先训练的文本生成模型是基于预先训练的奖励模型中文本喜欢程度最大化损失函数以及强化学习方式训练生成的;所述文本喜欢程度最大化损失函数用于最大化得分更高的文本与得分更低的文本之间的差值;根据敏感词库和预先训练的混淆度计算模型判定每条目标响应文本是否符合预设条件,并将任意一个符合预设条件的目标响应文本响应至所述客户端。2.根据权利要求1所述的方法,其特征在于,按照以下步骤生成预先训练的文本生成模型,包括:在历史对话文本库中获取并预处理预设数量的对话文本,得到第一标准对话数据集和第二标准对话数据集;将所述第二标准对话数据集按照预设比例划分为三部分,得到第一模型训练样本、第二模型训练样本以及第三模型训练样本;根据所述第一标准对话数据集对预设GPT模型进行模型训练,训练结束后得到第一对话模型;根据所述第一模型训练样本对所述第一对话模型进行有监督训练,训练结束后得到第二对话模型;根据所述第二模型训练样本以及所述第二对话模型进行奖励模型训练,训练结束后得到预先训练的奖励模型;根据所述第三模型训练样本、所述第二对话模型以及所述预先训练的奖励模型进行模型强化学习训练,训练结束后得到预先训练的文本生成模型。3.根据权利要求2所述的方法,其特征在于,所述获取并预处理预设数量的对话文本,得到第一标准对话数据集和第二标准对话数据集,包括:获取预设数量的对话文本;对获取的每个对话文本进行数据预处理,得到第一标准对话数据集;数据预处理至少包括错别字替换、特殊字符处理以及断句处理;将所述第一标准对话数据集中每个第一标准对话数据进行数据结构化处理,得到第二标准对话数据集;数据结构化处理至少包括对话角色划分、对话顺序归类以及对话拼接。4.根据权利要求2所述的方法,其特征在于,所述根据所述第二模型训练样本以及所述第二对话模型进行奖励模型训练,训练结束后得到预先训练的奖励模型,包括:按照预设第一角色在前以及预设第二角色在后的方式,将所述第二模型训练样本中每个对话序列中历史对话进行拼接,并在拼接的对话文本的句子数量以及文本长度满足预设阈值时,对拼接的对话文本标记角色标签以及对话序号,得到标签数据;将所述标签数据的每条输入文本输入所述第二对话模型中,输出所述每条输入文本对应的响应文本;将所述每条输入文本及其响应文本组合为目标数据发送至客户端进行展示;
接收针对展示的目标数据的排序和打分,得到奖励模型训练样本;将所述第二对话模型最后的线性层进行修改,使所述第二对话模型输出标量分数值,并对修改后的第二对话模型设置文本喜欢程度最大化损失函数,得到奖励模型;将所述奖励模型训练样本输入所述奖励模型中,输出模型损失值;当所述模型损失值到达最小且训练次数到达预设阈值时,得到预先训练的奖励模型。5.根据权利要求4所述的方法,其...

【专利技术属性】
技术研发人员:黄洋熊京萍蔡劲松廖奇李圆法陈楷
申请(专利权)人:科讯嘉联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1