基于人类反馈与强化学习的问答回复方法、系统及设备技术方案

技术编号：39243378 阅读：12 留言：0更新日期：2023-10-30 11:55

本发明专利技术涉及语言处理技术领域，特别提供一种基于人类反馈与强化学习的问答回复方法、系统及设备，该方法包括：基于目标数据，构造数据集，并基于数据集，对预训练模型进行继续预训练，得到初始问答模型；基于目标数据，构造三元组指令集数据；利用三元组指令集数据对初始问答模型进行优化，得到问答模型；基于目标数据，构造人类偏好指令集数据；基于人类偏好指令集数据，对问答模型进行训练，得到奖励模型；利用人类反馈强化学习机制，对奖励模型进行强化，得到问答回复模型，从而实现具备专业度较高的问答能力，以及具有回复人性化且专业准确性更高的特点。高的特点。高的特点。

全部详细技术资料下载

【技术实现步骤摘要】
基于人类反馈与强化学习的问答回复方法、系统及设备

[0001]本专利技术涉及语言处理
，尤其涉及一种基于人类反馈与强化学习的问答回复方法、系统及设备。

技术介绍

[0002]人工智能领域有很多应用问题需要算法在每个时刻作出贯序决策，其中，强化学习是求解这类问题的通用方法，其目标是希望智能体在与环境的交互过程中，通过不断试错来积累经验，随着时间的推移并最终学习到一个合理的行为策略。近年来，采用ChatGpt算法完成问答回复，但是在较为专业和应用广泛的领域中，ChatGpt算法无法准确、快速的回复。

技术实现思路

[0003]本专利技术提供一种基于人类反馈与强化学习的问答回复方法、系统及设备，用以解决现有技术中无法准确回复的缺陷，实现具备专业度较高的问答能力，以及具有回复人性化且专业准确性更高的特点。
[0004]本专利技术提供一种基于人类反馈与强化学习的问答回复方法，包括：
[0005]基于目标数据，构造数据集，并基于数据集，对预训练模型进行继续预训练，得到初始问答模型；
[0006]基于目标数据，构造三元组指令集数据；
[0007]利用三元组指令集数据对初始问答模型进行优化，得到问答模型；
[0008]基于目标数据，构造人类偏好指令集数据；
[0009]基于人类偏好指令集数据，对问答模型进行训练，得到奖励模型；
[0010]利用人类反馈强化学习机制，对奖励模型进行强化，得到问答回复模型。
[0011]在一种可能的实施方式中，所述基于...

【技术保护点】

【技术特征摘要】
1.一种基于人类反馈与强化学习的问答回复方法，其特征在于，包括：基于目标数据，构造数据集，并基于数据集，对预训练模型进行继续预训练，得到初始问答模型；基于目标数据，构造三元组指令集数据；利用三元组指令集数据对初始问答模型进行优化，得到问答模型；基于目标数据，构造人类偏好指令集数据；基于人类偏好指令集数据，对问答模型进行训练，得到奖励模型；利用人类反馈强化学习机制，对奖励模型进行强化，得到问答回复模型。2.根据权利要求1所述的一种基于人类反馈与强化学习的问答回复方法，其特征在于，所述基于目标数据，构造数据集，包括：对目标数据中的每个数据进行文本转换，并对转换的文本进行格式处理。3.根据权利要求2所述的一种基于人类反馈与强化学习的问答回复方法，其特征在于，所述基于数据集，对预训练模型进行继续预训练，得到初始问答模型，包括：将文本中当前字符前面的所有字符输入至预训练模型中，并让预训练模型通过使用损失函数预测当前字符。4.根据权利要求1所述的一种基于人类反馈与强化学习的问答回复方法，其特征在于，所述基于目标数据，构造三元组指令集数据，包括：获取目标数据，基于预设规则，对目标数据进行标注，得到标注结果；基于标注结果，利用规则模板，构造三元组指令集数据。5.根据权利要求4所述的一种基于人类反馈与强化学习的问答回复方法，其特征在于，所述基于目标数据，构造人类偏好指令集数据，包括：利用三元组，构造人类偏好问答提示指令集数据；基于标注结果和问答提示指令集数据，生成偏好数据...

【专利技术属性】
技术研发人员：刘硕，白焜太，宋佳祥，杨雅婷，许娟，史文钊，
申请(专利权)人：神州医疗科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人