强化学习模型微调方法技术

技术编号：39428945 阅读：12 留言：0更新日期：2023-11-19 16:14

本发明专利技术实施例公开了强化学习模型微调方法

全部详细技术资料下载

【技术实现步骤摘要】
强化学习模型微调方法、装置、计算机设备及存储介质

[0001]本专利技术涉及模型微调方法，更具体地说是指强化学习模型微调方法
、
装置
、
计算机设备及存储介质
。

技术介绍

[0002]近年来，多模态生成式大模型在科技领域取得了迅猛发展，为各行各业带来了革命性的突破
。
这些大模型结合了自然语言处理和计算机视觉等多种模态的信息，能够实现更加丰富多样的任务和应用
。
然而，当前所部署的生成式大模型主要以通用型为主，即通过在大规模公开数据集上的训练，使其具备了相对严密的逻辑推理能力和语言表达能力
。
尽管它们在逻辑推理和语言生成方面表现出色，却缺乏对于垂直领域的专业知识
。
为了使这些生成式大模型真正适用于垂直领域，通常需要进行领域微调
。
[0003]目前多模态大模型常用的微调方法包括以下三种，第一种是将预训练的部分网络层固定，只微调某些特定的层，以便保留模型的通用特征；该方法可能会导致部分特征的丢失，尤其是那些需要根据特定任务微调的低级特征；选择哪些层应该被冻结，哪些应该被微调，需要一些试错和调整
。
不正确的层选择可能会导致模型性能下降或微调效果不佳
。
第二种是通过对生成式模型的
Prompt
（机器学习预测优化，
PRedictive OPTimization with Machine Learning
）参数进行调整来实现特定...

【技术保护点】

【技术特征摘要】
1.
强化学习模型微调方法，其特征在于，包括：获取设备缺陷检测
、
环境隐患监测
、
人员违规监测相关的训练数据；构建模型框架，以得到初始模型；对所述训练数据进行垂直领域的数据标注，以得到标注结果；对所述初始模型采用基于人类反馈的强化学习技术进行微调，以得到微调后的模型；对微调后的模型进行模型蒸馏，以得到目标模型；对所述目标模型进行测试和预测
。2.
根据权利要求1所述的强化学习模型微调方法，其特征在于，所述构建模型框架，以得到初始模型，包括：确定视觉大模型；确定语言大模型；采用视觉特征的映射方式对所述视觉大模型的输出与所述语言大模型的输入进行对齐，以得到初始模型
。3.
根据权利要求1所述的强化学习模型微调方法，其特征在于，所述对所述训练数据进行垂直领域的数据标注，以得到标注结果，包括：对所述训练数据中出现的设定目标进行目标框标注和多边形分割标注，以得到第一标注结果；对所述训练数据图片进行描述性标注，以得到第二标注结果；将所述第一标注结果以及所述第二标注结果组合形成标注结果
。4.
根据权利要求1所述的强化学习模型微调方法，其特征在于，所述对所述初始模型采用基于人类反馈的强化学习技术进行微调，以得到微调后的模型，包括：采用所述标注结果对所述初始模型进行微调，以得到第一微调结果；根据所述第一微调结果构建并训练奖励模型；利用所述奖励模型所输出的标量奖励采用强化学习方式微调所述第一微调结果，以得到微调后的模型
。5.
根据权利要求4所述的强化学习模型微调方法，其特征在于，所述根据所述第一微调结果构建并训练奖励模型，包括：获取从问题库中选择的问题，并使用所述第一微调结果输出多个答案；对多个答案进行排序，以得到排序结果；将所述第一微调结果中的最后一层结构修改为线性层，利用所述排序结果来进行反向传播训练修改后的第一微调结果，以得到奖励模型
。6.
根据权利要求4所述的强化学习模型微调方法，其特征在于，所述利用所述奖励模型所输出的标量奖...

【专利技术属性】
技术研发人员：甘家旭，豆泽阳，蒋阳，
申请(专利权)人：珠高智能科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人