System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种训练数据获取方法、系统、装置、存储介质以及程序制造方法及图纸_技高网

一种训练数据获取方法、系统、装置、存储介质以及程序制造方法及图纸

技术编号:41068001 阅读:2 留言:0更新日期:2024-04-24 11:22
本说明书实施例提供一种训练数据获取方法、系统、装置、存储介质以及程序。该训练数据获取方法包括获取具有相同数据类型的初始数据集,利用多种候选处理方式处理初始数据集中的数据以获得多个数据集;基于多个数据集,训练小模型以获得训练后的小模型;以及基于所述训练后的小模型评估多种候选处理方式以确定目标处理方式,目标处理方式用于处理预训练数据以获得大模型的训练数据,其中,小模型的尺寸小于大模型的尺寸。通过利用不同候选处理方式得到的数据集进行小模型训练,并评估小模型的性能以此筛选最优数据处理方式,用于确定大模型训练数据,从而获得易于大模型学习且数据不受损的训练数据,使得大模型在较少训练步数下得到较优的性能。

【技术实现步骤摘要】

本说明书涉及人工智能领域,特别涉及一种训练数据获取方法、系统、装置、存储介质以及程序,以及用于训练数据获取的分布式系统。


技术介绍

1、大模型训练需要的数据量非常大。在进行大模型训练前,通常需要对原始数据进行处理以获得训练数据。在对原始数据进行处理以获得训练数据过程中,可能会导致原始数据中对大模型训练有用的信息受损。例如,不同类型的数据可能适用于不同的处理方式,当采用不合适的处理方式对原始数据进行处理,会导致生成的训练样本不利于大模型训练,例如,对大模型训练有用的信息受损,从而导致大模型的精度或者质量受到影响。另外,由于大模型训练所需数据量较大,因此原始数据处理为训练数据需要较大的运算力,例如,超过一千核,实际大约是近四五千核,才能把原始数据尽可能快速地处理成所需的训练数据,这就导致数据处理效率较低且资源消耗较大。

2、因此,本专利技术提出了一种训练数据获取方法,能够对不同类型的数据确定最优的处理方式,以便将原始数据处理成大模型易于学习的训练数据,并降低数据中有用信息的损失,同时能够降低资源消耗。


技术实现思路

1、本说明书一个或多个实施例提供一种训练数据获取方法。所述训练数据获取方法包括:获取初始数据集,所述初始数据集包括相同类型的数据;利用多种候选处理方式处理所述初始数据集中的数据以获得多个数据集;基于所述多个数据集,训练第一机器学习模型以获得训练后的第一机器学习模型;以及基于所述训练后的第一机器学习模型评估所述多种候选处理方式以确定目标处理方式,所述目标处理方式用于处理预训练数据以获得第二机器学习模型的训练数据,其中,所述第一机器学习模型的尺寸小于所述第二机器学习模型的尺寸。

2、本说明书一个或多个实施例提供一种用于训练数据获取的分布式系统,分布式系统包括计算集群,所述计算集群包括多个计算设备;管理器,用于获取原始数据,基于数据类型对所述原始数据进行分类以获得多个所述初始数据集;以及将所述多个初始数据集分别发送至所述多个计算设备,所述多个计算设备中的任意计算设备用于基于所述接收的初始数据集执行训练数据获取方法。

3、本说明书一个或多个实施例提供一种训练数据获取系统,包括获取模块、处理模块、训练模块和评估模块;所述获取模块用于获取初始数据集,所述初始数据集包括相同类型的数据;所述处理模块用于利用多种候选处理方式处理所述初始数据集中的数据以获取多个数据集,所述多个数据集中的每个数据集对应所述多种候选处理方式中的一种候选处理方式;所述训练模块用于基于所述每个数据集,训练第一机器学习模型以获得训练后的第一机器学习模型;以及所述评估模块用于利用所述训练后的第一机器模型评估所述多种候选处理方式以确定目标处理方式,所述目标处理方式用于处理预训练数据以获得第二机器学习模型的训练数据,其中,所述第一机器学习模型的尺寸小于所述第二机器学习模型的尺寸。

4、本说明书一个或多个实施例提供一种训练数据获取装置,包括处理器,所述处理器用于执行训练数据获取方法。

5、本说明书一个或多个实施例提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行训练数据获取方法。

6、本说明书一个或多个实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,其特征在于,所述计算机程序或计算机可执行指令被处理器执行时,实现训练数据获取方法。

本文档来自技高网...

【技术保护点】

1.一种训练数据获取方法,包括:

2.如权利要求1所述的训练数据获取方法,其中,基于所述训练后的第一机器模型评估所述多种候选处理方式以确定目标处理方式包括:

3.如权利要求1所述的训练数据获取方法,其中,所述第一机器学习模型包括多个不同尺寸的子模型,基于所述多个数据集中的每个数据集,训练第一机器学习模型以获得训练后的第一机器学习模型包括:

4.如权利要求3所述的训练数据获取方法,其中,基于所述多个子模型的性能评估结果预测所述第二机器学习模型在所述每种候选处理方式得到的训练数据训练下的性能评估结果包括:

5.如权利要求4所述的训练数据获取方法,其中,基于所述模型参数与性能参数之间的对应关系确定所述第二机器学习模型在由所述每种候选处理方式处理下获得的训练数据训练下的性能评估结果包括:

6.如权利要求1所述的训练数据获取方法,其中,基于所述多个数据集中的每个数据集,训练第一机器学习模型以获得训练后的第一机器学习模型包括:

7.如权利要求1所述的训练数据获取方法,其中,所述第一机器学习模型包括多个相同尺寸的子模型,基于所述多个数据集中的每个数据集,训练第一机器学习模型以获得训练后的第一机器学习模型包括:

8.如权利要求1所述的训练数据获取方法,其中,获取初始数据集,所述初始数据集包括相同类型的数据包括:

9.一种用于训练数据获取的分布式系统,包括:

10.一种训练数据获取系统,包括获取模块、处理模块、训练模块和评估模块;

11.一种训练数据获取装置,包括处理器,所述处理器用于执行权利要求1~8中任一项所述的训练数据获取方法。

12.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1~8任一项所述的训练数据获取方法。

13.一种计算机程序产品,包括计算机程序或计算机可执行指令,其特征在于,所述计算机程序或计算机可执行指令被处理器执行时,实现权利要求1至8任一项所述的训练数据获取方法。

...

【技术特征摘要】

1.一种训练数据获取方法,包括:

2.如权利要求1所述的训练数据获取方法,其中,基于所述训练后的第一机器模型评估所述多种候选处理方式以确定目标处理方式包括:

3.如权利要求1所述的训练数据获取方法,其中,所述第一机器学习模型包括多个不同尺寸的子模型,基于所述多个数据集中的每个数据集,训练第一机器学习模型以获得训练后的第一机器学习模型包括:

4.如权利要求3所述的训练数据获取方法,其中,基于所述多个子模型的性能评估结果预测所述第二机器学习模型在所述每种候选处理方式得到的训练数据训练下的性能评估结果包括:

5.如权利要求4所述的训练数据获取方法,其中,基于所述模型参数与性能参数之间的对应关系确定所述第二机器学习模型在由所述每种候选处理方式处理下获得的训练数据训练下的性能评估结果包括:

6.如权利要求1所述的训练数据获取方法,其中,基于所述多个数据集中的每个数据集,训练第一机器学习模型以获得训练后的第一机器学习模型包括:

7....

【专利技术属性】
技术研发人员:韩景涛
申请(专利权)人:上海稀宇极智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1