基于人类反馈与强化学习的问答回复方法、系统及设备技术方案

技术编号:39243378 阅读:12 留言:0更新日期:2023-10-30 11:55
本发明专利技术涉及语言处理技术领域,特别提供一种基于人类反馈与强化学习的问答回复方法、系统及设备,该方法包括:基于目标数据,构造数据集,并基于数据集,对预训练模型进行继续预训练,得到初始问答模型;基于目标数据,构造三元组指令集数据;利用三元组指令集数据对初始问答模型进行优化,得到问答模型;基于目标数据,构造人类偏好指令集数据;基于人类偏好指令集数据,对问答模型进行训练,得到奖励模型;利用人类反馈强化学习机制,对奖励模型进行强化,得到问答回复模型,从而实现具备专业度较高的问答能力,以及具有回复人性化且专业准确性更高的特点。高的特点。高的特点。

【技术实现步骤摘要】
基于人类反馈与强化学习的问答回复方法、系统及设备


[0001]本专利技术涉及语言处理
,尤其涉及一种基于人类反馈与强化学习的问答回复方法、系统及设备。

技术介绍

[0002]人工智能领域有很多应用问题需要算法在每个时刻作出贯序决策,其中,强化学习是求解这类问题的通用方法,其目标是希望智能体在与环境的交互过程中,通过不断试错来积累经验,随着时间的推移并最终学习到一个合理的行为策略。近年来,采用ChatGpt算法完成问答回复,但是在较为专业和应用广泛的领域中,ChatGpt算法无法准确、快速的回复。

技术实现思路

[0003]本专利技术提供一种基于人类反馈与强化学习的问答回复方法、系统及设备,用以解决现有技术中无法准确回复的缺陷,实现具备专业度较高的问答能力,以及具有回复人性化且专业准确性更高的特点。
[0004]本专利技术提供一种基于人类反馈与强化学习的问答回复方法,包括:
[0005]基于目标数据,构造数据集,并基于数据集,对预训练模型进行继续预训练,得到初始问答模型;
[0006]基于目标数据,构造三元组指令集数据;
[0007]利用三元组指令集数据对初始问答模型进行优化,得到问答模型;
[0008]基于目标数据,构造人类偏好指令集数据;
[0009]基于人类偏好指令集数据,对问答模型进行训练,得到奖励模型;
[0010]利用人类反馈强化学习机制,对奖励模型进行强化,得到问答回复模型。
[0011]在一种可能的实施方式中,所述基于目标数据,构造数据集,包括:
[0012]对目标数据中的每个数据进行文本转换,并对转换的文本进行格式处理。
[0013]在一种可能的实施方式中,所述基于数据集,对预训练模型进行继续预训练,得到初始问答模型,包括:
[0014]将文本中当前字符前面的所有字符输入至预训练模型中,并让预训练模型通过使用损失函数预测当前字符。
[0015]在一种可能的实施方式中,所述基于目标数据,构造三元组指令集数据,包括:
[0016]获取目标数据,基于预设规则,对目标数据进行标注,得到标注结果;
[0017]基于标注结果,利用规则模板,构造三元组指令集数据。
[0018]在一种可能的实施方式中,所述基于目标数据,构造人类偏好指令集数据,包括:
[0019]利用三元组,构造人类偏好问答提示指令集数据;
[0020]基于标注结果和问答提示指令集数据,生成偏好数据集。
[0021]在一种可能的实施方式中,所述利用人类反馈强化学习机制,对奖励模型进行强
化,得到问答回复模型,包括:
[0022]基于人类反馈和回报函数,得到奖励函数;
[0023]根据奖励函数,评估问答回复模型。
[0024]本专利技术还提供一种基于人类反馈与强化学习的问答回复系统,包括:
[0025]预训练模块,用于基于目标数据,构造数据集,并基于数据集,对预训练模型进行继续预训练,得到初始问答模型;
[0026]构建模型,用于基于目标数据,构造三元组指令集数据;
[0027]微调模型,利用三元组指令集数据对初始问答模型进行优化,得到问答模型;
[0028]人类偏好模块,用于基于目标数据,构造人类偏好指令集数据;
[0029]奖励模块,基于人类偏好指令集数据,对问答模型进行训练,得到奖励模型;
[0030]训练模块,利用人类反馈强化学习机制,对奖励模型进行强化,得到问答回复模型。
[0031]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述一种基于人类反馈与强化学习的问答回复方法的步骤。
[0032]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述一种基于人类反馈与强化学习的问答回复方法的步骤。
[0033]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述一种基于人类反馈与强化学习的问答回复方法的步骤。
[0034]本专利技术提供的一种基于人类反馈与强化学习的问答回复方法、系统及设备,通过将目标数据通过提问的形式输入至强化学习训练完毕的奖励模型中,该奖励模块输出从该输入的目标数据中获取三元组内容,并以三元组形式返回,实现具备专业度较高的问答能力,以及具有回复人性化且专业准确性更高的特点。
附图说明
[0035]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1是本专利技术提供的一种基于人类反馈与强化学习的问答回复方法的流程示意图之一;
[0037]图2是本专利技术提供的构造三元组指令集数据方法的流程示意图;
[0038]图3是本专利技术提供的构造人类偏好指令集数据方法的流程示意图;
[0039]图4是本专利技术提供的一种基于人类反馈与强化学习的问答回复系统的结构示意图;
[0040]图5是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0041]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0042]下面结合图1

图3描述本专利技术的一种基于人类反馈与强化学习的问答回复方法,本申请通过药品场景为例。
[0043]S1、基于目标数据,构造数据集,并基于数据集,对预训练模型进行继续预训练,得到初始问答模型;
[0044]在步骤S1中,基于目标数据,构造数据集,包括:
[0045]对目标数据中的每个数据进行文本转换,并对转换的文本进行格式处理。
[0046]具体的,将目标数据中的每一个数据保存到txt文件中,且每个数据各自占用一行,不同的数据之间加入换形符
“”
,直到将目标数据中的所有数据转化完成,形成构造数据集。
[0047]例如,基于药品说明书数据构造数据集,药品说明书数据内容如下:“川贝枇杷膏的功能为润肺化痰、止咳平喘、护喉利咽、生津补气、调心降火。本品适用于伤风咳嗽、痰稠、痰多气喘、咽喉干痒及声音嘶哑。少儿不宜食用。”,每个药品对应的一个说明书,并统一保存到txt文件中,每个药品说明书占用一行,不同药品说明书中间加入换行符
“”

[0048]在步骤S1中,预训练模型,具体为Bert模型,其结构为:
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人类反馈与强化学习的问答回复方法,其特征在于,包括:基于目标数据,构造数据集,并基于数据集,对预训练模型进行继续预训练,得到初始问答模型;基于目标数据,构造三元组指令集数据;利用三元组指令集数据对初始问答模型进行优化,得到问答模型;基于目标数据,构造人类偏好指令集数据;基于人类偏好指令集数据,对问答模型进行训练,得到奖励模型;利用人类反馈强化学习机制,对奖励模型进行强化,得到问答回复模型。2.根据权利要求1所述的一种基于人类反馈与强化学习的问答回复方法,其特征在于,所述基于目标数据,构造数据集,包括:对目标数据中的每个数据进行文本转换,并对转换的文本进行格式处理。3.根据权利要求2所述的一种基于人类反馈与强化学习的问答回复方法,其特征在于,所述基于数据集,对预训练模型进行继续预训练,得到初始问答模型,包括:将文本中当前字符前面的所有字符输入至预训练模型中,并让预训练模型通过使用损失函数预测当前字符。4.根据权利要求1所述的一种基于人类反馈与强化学习的问答回复方法,其特征在于,所述基于目标数据,构造三元组指令集数据,包括:获取目标数据,基于预设规则,对目标数据进行标注,得到标注结果;基于标注结果,利用规则模板,构造三元组指令集数据。5.根据权利要求4所述的一种基于人类反馈与强化学习的问答回复方法,其特征在于,所述基于目标数据,构造人类偏好指令集数据,包括:利用三元组,构造人类偏好问答提示指令集数据;基于标注结果和问答提示指令集数据,生成偏好数据...

【专利技术属性】
技术研发人员:刘硕白焜太宋佳祥杨雅婷许娟史文钊
申请(专利权)人:神州医疗科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1