一种多阶GPT模型训练方法和装置制造方法及图纸

技术编号：38610226 阅读：9 留言：0更新日期：2023-08-26 23:39

本发明专利技术涉及一种多阶GPT模型训练方法和装置，其中方法包括：采用通用语料库对GPT模型进行预训练，得到初始模型，使得所述初始模型能够根据上下文的含义生成正确的词汇；采用基于真实世界的特定领域的数据对初始模型进行训练，得到多个专业模型，使得所述专业模型能够处理对应的特定领域的任务。本发明专利技术能够使得模型在特定任务上达到更高的性能。型在特定任务上达到更高的性能。型在特定任务上达到更高的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种多阶GPT模型训练方法和装置

[0001]本专利技术涉及机器学习
，特别是涉及一种多阶GPT模型训练方法和装置。

技术介绍

[0002]当前机器学习算法在现实生活应用实例中，大多基于特定场景进行建模，基于对业务的理解搭建分类、回归模型，不断迭代减少拟合偏差。常常按照以下步骤进行：
[0003]步骤1，根据业务经验，与业务专家梳理与目标相关性较高的特征；
[0004]步骤2，获取历史数据；
[0005]步骤3，对样本特征进行特征工程(归一化、标准化等)，并通过p检验、T检验或机器学习算法来筛选有效特征；
[0006]步骤4，根据业务情况，选择匹配的模型(分类模型有：LR、SVM、决策树、随机森林、XGBoost、神经网络等，回归有：回归树、神经网络)；
[0007]步骤5，基于有效特征对业务目标进行建模，通过拟合偏差来判断模型有效性；
[0008]步骤6，部署模型、优化。
[0009]由于不同任务下训练的模型及训练数据不能通用，即每个任务都需要按照1～6从头到尾进行训练、优化，比如预测客户产品购买概率、客户的违约概率、病人大病发生率、预测住院费用、各类疾病发生概率都属于不同模型，如果依次搭建模型，建模成本、维护成本都较高、相互之间知识不能迁移。因此现有的方式存在以下问题：1、对业务领域知识背景要求高；2、工作流程繁琐；3、模型迁移能力较差。

技术实现思路

[0010]本专利技术所要解决的技术问题是提供一种多阶GPT模型训练方法和装置，能够...

【技术保护点】

【技术特征摘要】
1.一种多阶GPT模型训练方法，其特征在于，包括以下步骤：采用通用语料库对GPT模型进行预训练，得到初始模型，使得所述初始模型能够根据上下文的含义生成正确的词汇；采用基于真实世界的特定领域的数据对初始模型进行训练，得到多个专业模型，使得所述专业模型能够处理对应的特定领域的任务。2.根据权利要求1所述的多阶GPT模型训练方法，其特征在于，所述采用通用语料库对GPT模型进行预训练时，目标是最小化以下损失函数：L1＝
‑
∑
t
logP(w
t
|w1,w2,w
t
‑1；θ)，其中，L1表示GPT模型预训练的损失函数，w1,w2,w
t
‑1表示通用语料库中的句子，w
t
表示句子中的第t个词，P(w
t
|w1,w2,w
t
‑1；θ)表示初始模型给出w
t
的概率，θ表示初始模型的参数。3.根据权利要求1所述的多阶GPT模型训练方法，其特征在于，所述采用基于真实世界的特定领域的数据对初始模型进行训练时，目标是最小化以下损失函数：L2＝
‑
∑
t
logP∑
i
(w
i
*P(v
t
|v1,v2,v
t
‑1；θ
i
))，其中，L2表示初始模型训练的损失函数，v1,v2,v
t
‑1表示真实世界的特定领域的数据中的句子，v
t
表示句子中的第t个词，P(v
t
|v1,v2,v
t
‑1；θ
i
)表示第i个专业模型给出v
t
的概率，θ
i
表示第i个专业模型的参数。4.一种多阶GPT模型训练装...

【专利技术属性】
技术研发人员：汤文巍，
申请(专利权)人：汤文巍，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人