一种GPT模型训练方法和装置制造方法及图纸

技术编号：39315998 阅读：23 留言：0更新日期：2023-11-12 15:59

本发明专利技术涉及一种GPT模型训练方法和装置，其中，方法包括：从数据库中抽取一条数据记录，所述数据记录中包括若干字段；为每个字段创建一个自然语言的描述，并为所述字段创建排序规则；根据所述排序规则对字段进行排序，并基于字段对应的内容生成一个句子；重复上述步骤，将多个句子组合成训练语料，并将所述训练语料送入GPT模型进行训练。本发明专利技术提高GPT模型的学习效率。习效率。习效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种GPT模型训练方法和装置

[0001]本专利技术涉及机器学习
，特别是涉及一种GPT模型训练方法和装置。

技术介绍

[0002]当前训练GPT所用的语料的准备方法大致有以下两种：
[0003](1)通过输入一段文本，让模型进行学习，学习文字前后之间的序列关系，同样的逻辑关系往往需要很多不同表现形式的文本进行学习，语料准备过程繁琐；(2)组织成问答形式，让模型学习问答之间的联系。“问答对”的形式，目前还是由人力完成，费事、费力、产出较低。
[0004]但是，真实世界的知识存在形式，目前有很多是由关系型数据库所承载的，这种知识存在形式往往具有更高的逻辑性和知识价值，但是这种知识目前并不能被GPT模型所学习。

技术实现思路

[0005]本专利技术所要解决的技术问题是提供一种GPT模型训练方法和装置，提高GPT模型的学习效率。
[0006]本专利技术解决其技术问题所采用的技术方案是：提供一种GPT模型训练方法，包括以下步骤：
[0007]从数据库中抽取一条数据记录，所述数据记...

【技术保护点】

【技术特征摘要】
1.一种GPT模型训练方法，其特征在于，包括以下步骤：从数据库中抽取一条数据记录，所述数据记录中包括若干字段；为每个字段创建一个自然语言的描述，并为所述字段创建排序规则；根据所述排序规则对字段进行排序，并基于字段对应的内容生成一个句子；重复上述步骤，将多个句子组合成训练语料，并将所述训练语料送入GPT模型进行训练。2.根据权利要求1所述的GPT模型训练方法，其特征在于，所述从数据库中抽取一条数据记录时，利用数据库查询语言按照需求抽取数据记录。3.根据权利要求1所述的GPT模型训练方法，其特征在于，所述从数据库中抽取一条数据记录，所述数据记录中包括若干字段后，还包括对抽取的数据记录进行数据清洗的步骤。4.根据权利要求1所述的GPT模型训练方法，其特征在于，所述根据所述排序规则对字段进行排序，并基于字段对应的内容生成一个句子时，采用自然语言处理技术，利用连接词将排序后字段对应的内容连接成一个句子。5.一种GPT模型训练装置...

【专利技术属性】
技术研发人员：汤文巍，
申请(专利权)人：汤文巍，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人