当前位置: 首页 > 专利查询>汤文巍专利>正文

一种多阶GPT模型训练方法和装置制造方法及图纸

技术编号:38610226 阅读:9 留言:0更新日期:2023-08-26 23:39
本发明专利技术涉及一种多阶GPT模型训练方法和装置,其中方法包括:采用通用语料库对GPT模型进行预训练,得到初始模型,使得所述初始模型能够根据上下文的含义生成正确的词汇;采用基于真实世界的特定领域的数据对初始模型进行训练,得到多个专业模型,使得所述专业模型能够处理对应的特定领域的任务。本发明专利技术能够使得模型在特定任务上达到更高的性能。型在特定任务上达到更高的性能。型在特定任务上达到更高的性能。

【技术实现步骤摘要】
一种多阶GPT模型训练方法和装置


[0001]本专利技术涉及机器学习
,特别是涉及一种多阶GPT模型训练方法和装置。

技术介绍

[0002]当前机器学习算法在现实生活应用实例中,大多基于特定场景进行建模,基于对业务的理解搭建分类、回归模型,不断迭代减少拟合偏差。常常按照以下步骤进行:
[0003]步骤1,根据业务经验,与业务专家梳理与目标相关性较高的特征;
[0004]步骤2,获取历史数据;
[0005]步骤3,对样本特征进行特征工程(归一化、标准化等),并通过p检验、T检验或机器学习算法来筛选有效特征;
[0006]步骤4,根据业务情况,选择匹配的模型(分类模型有:LR、SVM、决策树、随机森林、XGBoost、神经网络等,回归有:回归树、神经网络);
[0007]步骤5,基于有效特征对业务目标进行建模,通过拟合偏差来判断模型有效性;
[0008]步骤6,部署模型、优化。
[0009]由于不同任务下训练的模型及训练数据不能通用,即每个任务都需要按照1~6从头到尾进行训练、优化,比如预测客户产品购买概率、客户的违约概率、病人大病发生率、预测住院费用、各类疾病发生概率都属于不同模型,如果依次搭建模型,建模成本、维护成本都较高、相互之间知识不能迁移。因此现有的方式存在以下问题:1、对业务领域知识背景要求高;2、工作流程繁琐;3、模型迁移能力较差。

技术实现思路

[0010]本专利技术所要解决的技术问题是提供一种多阶GPT模型训练方法和装置,能够使得模型在特定任务上达到更高的性能。
[0011]本专利技术解决其技术问题所采用的技术方案是:提供一种多阶GPT模型训练方法,包括以下步骤:
[0012]采用通用语料库对GPT模型进行预训练,得到初始模型,使得所述初始模型能够根据上下文的含义生成正确的词汇;
[0013]采用基于真实世界的特定领域的数据对初始模型进行训练,得到多个专业模型,使得所述专业模型能够处理对应的特定领域的任务。
[0014]所述采用通用语料库对GPT模型进行预训练时,目标是最小化以下损失函数:L1=


t
log P(w
t
|w1,w2,w
t
‑1;θ),其中,L1表示GPT模型预训练的损失函数,w1,w2,w
t
‑1表示通用语料库中的句子,w
t
表示句子中的第t个词,P(w
t
|w1,w2,w
t
‑1;θ)表示初始模型给出w
t
的概率,θ表示初始模型的参数。
[0015]所述采用基于真实世界的特定领域的数据对初始模型进行训练时,目标是最小化以下损失函数:L2=


t
log P∑
i
(w
i
*P(v
t
|v1,v2,v
t
‑1;θ
i
)),其中,L2表示初始模型训练的损失函数,v1,v2,v
t
‑1表示真实世界的特定领域的数据中的句子,v
t
表示句子中的第t个词,P
(v
t
|v1,v2,v
t
‑1;θ
i
)表示第i个专业模型给出v
t
的概率,θ
i
表示第i个专业模型的参数。
[0016]本专利技术解决其技术问题所采用的技术方案是:提供一种多阶GPT模型训练装置,包括:
[0017]预训练模块,用于采用通用语料库对GPT模型进行预训练,得到初始模型,使得所述初始模型能够根据上下文的含义生成正确的词汇;
[0018]训练模块,用于采用基于真实世界的特定领域的数据对初始模型进行训练,得到多个专业模型,使得所述专业模型能够处理对应的特定领域的任务。
[0019]所述预训练模块在采用通用语料库对GPT模型进行预训练时,目标是最小化以下损失函数:L1=


t
log P(w
t
|w1,w2,w
t
‑1;θ),其中,L1表示GPT模型预训练的损失函数,w1,w2,w
t
‑1表示通用语料库中的句子,w
t
表示句子中的第t个词,P(w
t
|w1,w2,w
t
‑1;θ)表示初始模型给出w
t
的概率,θ表示初始模型的参数。
[0020]所述训练模块在采用基于真实世界的特定领域的数据对初始模型进行训练时,目标是最小化以下损失函数:L2=


t
log P∑
i
(w
i
*P(v
t
|v1,v2,v
t
‑1;θ
i
)),其中,L2表示初始模型训练的损失函数,v1,v2,v
t
‑1表示真实世界的特定领域的数据中的句子,v
t
表示句子中的第t个词,P(v
t
|v1,v2,v
t
‑1;θ
i
)表示第i个专业模型给出v
t
的概率,θ
i
表示第i个专业模型的参数。
[0021]有益效果
[0022]由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:本专利技术首先采用通用语料对GPT模型进行预训练,得到具有文本理解和生成能力的初始模型,再采用不同特定领域的数据对初始模型进行训练,得到能够处理不同特定领域的多个专业模型,由于每个专业模型都是在其擅长的任务上进行优化,因此总体上,专业模型训练能够在特定任务上达到更高的性能,在一些情况下,通过选择最适合的专业模型来处理特定的任务,也可以提高计算效率。
附图说明
[0023]图1是本专利技术第一实施方式的多阶GPT模型训练方法的流程图。
具体实施方式
[0024]下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
[0025]本专利技术的第一实施方式涉及一种多阶GPT模型训练方法,如图1所示,包括以下步骤:
[0026]步骤1,采用通用语料库对GPT模型进行预训练,得到初始模型,使得所述初始模型能够根据上下文的含义生成正确的词汇。
[0027]本步骤中,使用大规模的通用文本语料库对GPT模型进行预训练。文本语料库可以包含各种类型的文本,例如百科全书条目,领域特定的知识库,以及其他各种类型的通用文本。预训练的目标是让GPT模型学习到词汇、语法、以及其他基础的语言概念,使其具有较强
的文本理解和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多阶GPT模型训练方法,其特征在于,包括以下步骤:采用通用语料库对GPT模型进行预训练,得到初始模型,使得所述初始模型能够根据上下文的含义生成正确的词汇;采用基于真实世界的特定领域的数据对初始模型进行训练,得到多个专业模型,使得所述专业模型能够处理对应的特定领域的任务。2.根据权利要求1所述的多阶GPT模型训练方法,其特征在于,所述采用通用语料库对GPT模型进行预训练时,目标是最小化以下损失函数:L1=


t
logP(w
t
|w1,w2,w
t
‑1;θ),其中,L1表示GPT模型预训练的损失函数,w1,w2,w
t
‑1表示通用语料库中的句子,w
t
表示句子中的第t个词,P(w
t
|w1,w2,w
t
‑1;θ)表示初始模型给出w
t
的概率,θ表示初始模型的参数。3.根据权利要求1所述的多阶GPT模型训练方法,其特征在于,所述采用基于真实世界的特定领域的数据对初始模型进行训练时,目标是最小化以下损失函数:L2=


t
logP∑
i
(w
i
*P(v
t
|v1,v2,v
t
‑1;θ
i
)),其中,L2表示初始模型训练的损失函数,v1,v2,v
t
‑1表示真实世界的特定领域的数据中的句子,v
t
表示句子中的第t个词,P(v
t
|v1,v2,v
t
‑1;θ
i
)表示第i个专业模型给出v
t
的概率,θ
i
表示第i个专业模型的参数。4.一种多阶GPT模型训练装...

【专利技术属性】
技术研发人员:汤文巍
申请(专利权)人:汤文巍
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1