当前位置: 首页 > 专利查询>汤文巍专利>正文

一种GPT模型训练方法和装置制造方法及图纸

技术编号:39315998 阅读:23 留言:0更新日期:2023-11-12 15:59
本发明专利技术涉及一种GPT模型训练方法和装置,其中,方法包括:从数据库中抽取一条数据记录,所述数据记录中包括若干字段;为每个字段创建一个自然语言的描述,并为所述字段创建排序规则;根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子;重复上述步骤,将多个句子组合成训练语料,并将所述训练语料送入GPT模型进行训练。本发明专利技术提高GPT模型的学习效率。习效率。习效率。

【技术实现步骤摘要】
一种GPT模型训练方法和装置


[0001]本专利技术涉及机器学习
,特别是涉及一种GPT模型训练方法和装置。

技术介绍

[0002]当前训练GPT所用的语料的准备方法大致有以下两种:
[0003](1)通过输入一段文本,让模型进行学习,学习文字前后之间的序列关系,同样的逻辑关系往往需要很多不同表现形式的文本进行学习,语料准备过程繁琐;(2)组织成问答形式,让模型学习问答之间的联系。“问答对”的形式,目前还是由人力完成,费事、费力、产出较低。
[0004]但是,真实世界的知识存在形式,目前有很多是由关系型数据库所承载的,这种知识存在形式往往具有更高的逻辑性和知识价值,但是这种知识目前并不能被GPT模型所学习。

技术实现思路

[0005]本专利技术所要解决的技术问题是提供一种GPT模型训练方法和装置,提高GPT模型的学习效率。
[0006]本专利技术解决其技术问题所采用的技术方案是:提供一种GPT模型训练方法,包括以下步骤:
[0007]从数据库中抽取一条数据记录,所述数据记录中包括若干字段;<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种GPT模型训练方法,其特征在于,包括以下步骤:从数据库中抽取一条数据记录,所述数据记录中包括若干字段;为每个字段创建一个自然语言的描述,并为所述字段创建排序规则;根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子;重复上述步骤,将多个句子组合成训练语料,并将所述训练语料送入GPT模型进行训练。2.根据权利要求1所述的GPT模型训练方法,其特征在于,所述从数据库中抽取一条数据记录时,利用数据库查询语言按照需求抽取数据记录。3.根据权利要求1所述的GPT模型训练方法,其特征在于,所述从数据库中抽取一条数据记录,所述数据记录中包括若干字段后,还包括对抽取的数据记录进行数据清洗的步骤。4.根据权利要求1所述的GPT模型训练方法,其特征在于,所述根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子时,采用自然语言处理技术,利用连接词将排序后字段对应的内容连接成一个句子。5.一种GPT模型训练装置...

【专利技术属性】
技术研发人员:汤文巍
申请(专利权)人:汤文巍
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1