预训练语言的学习微调方法技术

技术编号：39402201 阅读：13 留言：0更新日期：2023-11-19 15:54

本发明专利技术提供一种预训练语言的学习微调方法

全部详细技术资料下载

【技术实现步骤摘要】
预训练语言的学习微调方法、计算机装置及计算机可读存储介质

[0001]本专利技术涉及大规模语言训练的
，具体地，是一种针对大规模预训练语言模型的强化学习微调方法，还涉及实现该方法的计算机装置及计算机可读存储介质
。

技术介绍

[0002]大规模预训练语言模型是近年来取得突破性进展的人工智能技术，其中最著名的模型是
Open AI
的
GPT
，这种模型使用无标签的大规模文本数据进行预训练，从而学习到丰富的语言表示，然后，通过微调这些预训练模型，可以使其适应特定领域的任务或问题
。
[0003]在强化学习领域，研究人员已经提出了多种方法来将预训练语言模型与强化学习相结合
。
例如，现有一种常用的方法是使用基于奖励信号的强化学习算法，通过与环境的交互来微调预训练模型，这种方法允许模型在特定任务中进行自我学习和优化
。
[0004]关于针对特定领域的微调方法，现有一些文献提出了不同的技术和策略
。
例如，
Smith
等人在其
2019
年的论文“Offline Reinforcement Learning:Tutorial,Review,and Perspectives on Open Problems”中介绍了离线强化学习的方法，该方法可以在没有实时交互的情况下进行微调
。
另外，
Li
等人在其
2020
年的论文“Train Y...

【技术保护点】

【技术特征摘要】
1.
预训练语言的学习微调方法，包括：获取预训练模型，并制作垂直领域的垂直数据集，所述垂直数据集包括多组具有逻辑关系的第一训练语句，将所述第一训练语句进行扩充和乱序处理后，对所述预训练模型进行训练，获得初始训练模型；其特征在于：应用所述第一训练语句对所述初始训练模型进行测试，根据所述初始训练模型对所述第一训练语句的答复准确率判断所述初始训练模型是否存在欠拟合的情况；如所述初始训练模型存在欠拟合的情况，则增加所述垂直数据集中所述第一训练语句的扩充倍数，对所述预训练模型进行重新训练；建立常识数据集，所述常识数据集包含有多组第二训练语句，将所述第二训练语句增量到所述垂直数据集中形成增量垂直数据集，应用所述增量垂直数据集对初始训练模型进行训练，获得增量训练模型，根据所述增量训练模型对所述增量垂直数据集中的训练语句的答复准确率判断所述初始训练模型是否存在过拟合的情况；如所述初始训练模型存在过拟合的情况，则减小所述垂直数据集中所述第一训练语句的扩充倍数，对所述预训练模型进行重新训练
。2.
根据权利要求1所述的预训练语言的学习微调方法，其特征在于：制作所述垂直领域的垂直数据集时，应用前端界面输入所述第一训练语句，所述前端界面具有提示语输入框
、
问题输入框以及答案输入框
。3.
根据权利要求2所述的预训练语言的学习微调方法，其特征在于：所述前端界面还设置有数据导入按钮
、
数据扩充按钮
、
数据乱序按钮
。4.
根据权利...

【专利技术属性】
技术研发人员：王瑞平，吴士泓，王志刚，冯荣，
申请(专利权)人：远光软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人