当前位置: 首页 > 专利查询>汤文巍专利>正文

一种GPT模型训练方法和装置制造方法及图纸

技术编号:39315998 阅读:9 留言:0更新日期:2023-11-12 15:59
本发明专利技术涉及一种GPT模型训练方法和装置,其中,方法包括:从数据库中抽取一条数据记录,所述数据记录中包括若干字段;为每个字段创建一个自然语言的描述,并为所述字段创建排序规则;根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子;重复上述步骤,将多个句子组合成训练语料,并将所述训练语料送入GPT模型进行训练。本发明专利技术提高GPT模型的学习效率。习效率。习效率。

【技术实现步骤摘要】
一种GPT模型训练方法和装置


[0001]本专利技术涉及机器学习
,特别是涉及一种GPT模型训练方法和装置。

技术介绍

[0002]当前训练GPT所用的语料的准备方法大致有以下两种:
[0003](1)通过输入一段文本,让模型进行学习,学习文字前后之间的序列关系,同样的逻辑关系往往需要很多不同表现形式的文本进行学习,语料准备过程繁琐;(2)组织成问答形式,让模型学习问答之间的联系。“问答对”的形式,目前还是由人力完成,费事、费力、产出较低。
[0004]但是,真实世界的知识存在形式,目前有很多是由关系型数据库所承载的,这种知识存在形式往往具有更高的逻辑性和知识价值,但是这种知识目前并不能被GPT模型所学习。

技术实现思路

[0005]本专利技术所要解决的技术问题是提供一种GPT模型训练方法和装置,提高GPT模型的学习效率。
[0006]本专利技术解决其技术问题所采用的技术方案是:提供一种GPT模型训练方法,包括以下步骤:
[0007]从数据库中抽取一条数据记录,所述数据记录中包括若干字段;
[0008]为每个字段创建一个自然语言的描述,并为所述字段创建排序规则;
[0009]根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子;
[0010]重复上述步骤,将多个句子组合成训练语料,并将所述训练语料送入GPT模型进行训练。
[0011]所述从数据库中抽取一条数据记录时,利用数据库查询语言按照需求抽取数据记录。
[0012]所述从数据库中抽取一条数据记录,所述数据记录中包括若干字段后,还包括对抽取的数据记录进行数据清洗的步骤。
[0013]所述根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子时,采用自然语言处理技术,利用连接词将排序后字段对应的内容连接成一个句子。
[0014]本专利技术解决其技术问题所采用的技术方案是:提供一种GPT模型训练装置,包括:
[0015]抽取模块,用于从数据库中抽取一条数据记录,所述数据记录中包括若干字段;
[0016]创建模块,用于为每个字段创建一个自然语言的描述,并为所述字段创建排序规则;
[0017]句子生成模块,用于根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子;
[0018]训练模块,重复上述模块的操作,将多个句子组合成训练语料,并将所述训练语料
送入GPT模型进行训练。
[0019]所述抽取模块从数据库中抽取一条数据记录时,利用数据库查询语言按照需求抽取数据记录。
[0020]所述的GPT模型训练装置还包括数据清洗模块,所述数据清洗模块用于对抽取的数据记录进行数据清洗。
[0021]所述句子生成模块根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子时,采用自然语言处理技术,利用连接词将排序后字段对应的内容连接成一个句子。
[0022]有益效果
[0023]由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:本专利技术能够自动从关系型数据库或非关系型数据库中抽取知识形成问答,将关系型或非关系型数据库中蕴含的结构性信息转换成自然语言,从而实现高效训练GPT模型的目的。
附图说明
[0024]图1是本专利技术第一实施方式GPT模型训练方法的流程图。
具体实施方式
[0025]下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
[0026]本专利技术的实施方式涉及一种GPT模型训练方法,如图1所示,包括以下步骤:
[0027]步骤1,从数据库中抽取一条数据记录,所述数据记录中包括若干字段。本步骤中利用SQL查询或者其他数据库查询语言,按照需求从数据库中抽取数据。抽取数据后,还需要对本步骤抽取的数据进行数据清洗的工作。
[0028]其中,数据抽取的代码如下:
[0029][0030]步骤2,为每个字段创建一个自然语言的描述,并为所述字段创建排序规则。其中,为每个字段创建一个自然语言的描述是指,将字段名改为自然语言,例如字段名"address"映射为"地址",字段名"see_doctor_date"映射为"就诊日期",该过程可以通过预先设置的规则或者模板实现。为所述字段创建排序规则具体是指,根据字段名设置一个顺序,本实施方式设置的顺序为“时间>地点>人物>任务”。
[0031]步骤3,根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子。具体地说,本步骤可以按照步骤2的顺序为“时间>地点>人物>任务”,从对应字段中找出对应的内容,然后采用自然语言处理技术,利用连接词(例如"和","或")或其他语法结构将这些内容连接成一个句子。
[0032]本步骤中将上述结构性数据将转换为自然语言的代码如下:
[0033][0034][0035]步骤4,重复上述步骤,将多个句子组合成训练语料,并将所述训练语料送入GPT模型进行训练。
[0036]本实施方式采用了一种自动从关系型数据库或非关系型数据库中抽取数据形成句子的技术,用“字段名+内容,字段名+内容,......”的方式将关系型或非关系型数据库中蕴含的结构性信息转换成自然语言,同时用“时间、地点、人物、任务等”的自然语言结构,在抽取时进行自动排序,一条数据库记录,生成一句话,以此重复进行,这些句子可以高效训练GPT模型。通过以上构造的语料,可以让GPT模型充分高效地学习领域内的知识,最终达到理解领域知识,并洞察领域规律,在完成领域任务的工作基础上具备规律总结和逻辑推理的能力。
[0037]本专利技术的第二实施方式涉及一种GPT模型训练装置,包括:
[0038]抽取模块,用于从数据库中抽取一条数据记录,所述数据记录中包括若干字段;
[0039]创建模块,用于为每个字段创建一个自然语言的描述,并为所述字段创建排序规则;
[0040]句子生成模块,用于根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子;
[0041]训练模块,重复上述模块的操作,将多个句子组合成训练语料,并将所述训练语料送入GPT模型进行训练。
[0042]所述抽取模块从数据库中抽取一条数据记录时,利用数据库查询语言按照需求抽取数据记录。
[0043]所述的GPT模型训练装置还包括数据清洗模块,所述数据清洗模块用于对抽取的数据记录进行数据清洗。
[0044]所述句子生成模块根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子时,采用自然语言处理技术,利用连接词将排序后字段对应的内容连接成一个句子。
[0045]本实施方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种GPT模型训练方法,其特征在于,包括以下步骤:从数据库中抽取一条数据记录,所述数据记录中包括若干字段;为每个字段创建一个自然语言的描述,并为所述字段创建排序规则;根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子;重复上述步骤,将多个句子组合成训练语料,并将所述训练语料送入GPT模型进行训练。2.根据权利要求1所述的GPT模型训练方法,其特征在于,所述从数据库中抽取一条数据记录时,利用数据库查询语言按照需求抽取数据记录。3.根据权利要求1所述的GPT模型训练方法,其特征在于,所述从数据库中抽取一条数据记录,所述数据记录中包括若干字段后,还包括对抽取的数据记录进行数据清洗的步骤。4.根据权利要求1所述的GPT模型训练方法,其特征在于,所述根据所述排序规则对字段进行排序,并基于字段对应的内容生成一个句子时,采用自然语言处理技术,利用连接词将排序后字段对应的内容连接成一个句子。5.一种GPT模型训练装置...

【专利技术属性】
技术研发人员:汤文巍
申请(专利权)人:汤文巍
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1