System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型训练的数据交互方法、装置、设备、存储介质及产品制造方法及图纸_技高网

模型训练的数据交互方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:40588145 阅读:3 留言:0更新日期:2024-03-12 21:48
本申请公开了一种模型训练的数据交互方法、装置、设备、存储介质及产品,涉及人工智能领域。该方法包括:运行数据加载进程,数据加载进程用于从服务器中读取训练数据存储至本地存储空间;基于本地存储空间中的训练数据运行模型训练进程,模型训练进程用于基于本地存储空间中的训练数据对目标模型进行训练,数据加载进程与模型训练进程符合并行独立关系;基于模型训练进程得到的训练结果数据运行数据落盘进程,数据落盘进程用于将训练结果数据写入本地存储空间;基于本地存储空间中的训练结果数据运行数据同步进程,数据同步进程用于将训练结果数据同步到服务器中,模型训练进程与数据同步进程符合并行独立关系,提高了设备计算并行度与训练效率。

【技术实现步骤摘要】

本申请涉及人工智能领域,特别涉及一种模型训练的数据交互方法、装置、设备、存储介质及产品


技术介绍

1、随着人工智能(artificial intelligence,ai)大模型的突起,执行ai大模型训练时,由于大模型训练的参数量大且训练过程中交换数据的规模量高,依赖于分布式文件系统做存储,训练程序与分布式文件系统的直接交互,但由于分布式文件系统存在网络抖动等情况,容易导致数据交互卡顿,影响训练进程。

2、相关技术中,针对分布式文件系统读写的优化,通过优化分布式文件系统的稳定性的角度切入,在资源层上通过使用高性能的固态硬盘(solid state disk,ssd)做存储,来提高计算机接口(input/output,i/o)吞吐量,避免由于i/o性能问题导致读写分布式文件卡住的情况,功能架构上通过优化分布式文件系统的元数据和存储程序,增加高速缓冲存储器(cache)等方式降低功能程序出错的概率。

3、然而,由于上述方法均是从功能正常运行的角度做优化,对异常场景的覆盖力度弱,无法隔离出分布式文件系统在异常情况下对模型训练流程的影响,优化效果较差,训练效率较低。


技术实现思路

1、本申请实施例提供了一种模型训练的数据交互方法、装置、设备、存储介质及产品,能够提高训练效率。所述技术方案如下。

2、一方面,提供了一种模型训练的数据交互方法,所述方法包括:

3、运行数据加载进程,所述数据加载进程用于从服务器中读取训练数据存储至本地存储空间;p>

4、基于所述本地存储空间中的训练数据运行模型训练进程,所述模型训练进程用于基于所述本地存储空间中加载的训练数据对目标模型进行训练,所述数据加载进程与所述模型训练进程符合并行独立关系;

5、基于所述模型训练进程得到的训练结果数据运行数据落盘进程,所述数据落盘进程用于将所述训练结果数据写入所述本地存储空间;

6、基于所述本地存储空间中的训练结果数据运行数据同步进程,所述数据同步进程用于将所述训练结果数据同步到所述服务器中,所述模型训练进程与所述数据同步进程符合并行独立关系。

7、另一方面,提供了一种模型训练的数据交互装置,所述装置包括:

8、进程运行模块,用于运行数据加载进程,所述数据加载进程用于从服务器中读取训练数据存储至本地存储空间;

9、所述进程运行模块,还用于基于所述本地存储空间中的训练数据运行模型训练进程,所述模型训练进程用于基于所述本地存储空间中加载的训练数据对目标模型进行训练,所述数据加载进程与所述模型训练进程符合并行独立关系;

10、所述进程运行模块,还用于基于所述模型训练进程得到的训练结果数据运行数据落盘进程,所述数据落盘进程用于将所述训练结果数据写入所述本地存储空间;

11、所述进程运行模块,还用于基于所述本地存储空间中的训练结果数据运行数据同步进程,所述数据同步进程用于将所述训练结果数据同步到所述服务器中,所述模型训练进程与所述数据同步进程符合并行独立关系。

12、另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的模型训练的数据交互方法。

13、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的模型训练的数据交互方法。

14、另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的模型训练的数据交互方法。

15、本申请实施例提供的技术方案带来的有益效果至少包括:

16、通过运行数据加载进程,从服务器中读取训练数据存储至本地存储空间,并基于本地存储空间中的训练数据运行模型训练进程,将模型训练进程与从服务器加载训练数据的数据交互过程隔离开,基于数据加载进程与模型训练进程之间的并行独立关系,提高模型训练与数据加载的并行度,从而优化训练流程,提高训练速度,达到提高训练效率的效果;此外,通过运行数据落盘进程将训练结果数据写入本地存储空间,并通过运行数据同步进程将训练结果数据同步到服务器中,基于模型训练进程与同步进程之间的并行独立关系,将数据同步过程与模型训练流程隔离开,使模型训练进程无需等待数据落盘至服务器,而只需落盘至本地存储空间,首先通过落盘至本地存储空间,保障了训练结果数据在本地存储空间进行存储时的性能和质量,其次针对与服务器的数据同步,基于模型训练进程与同步进程之间的并行独立关系,避免由于网络抖动等问题影响后续的模型训练进程,进一步提高了模型训练与数据同步的并行度,从而进一步优化了训练流程,提高训练效率。

本文档来自技高网...

【技术保护点】

1.一种模型训练的数据交互方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述本地存储空间中的训练结果数据运行数据同步进程,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述进程状态将所述训练结果数据同步到所述服务器中,包括:

4.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1至3任一所述的方法,其特征在于,所述运行数据加载进程之前,还包括:

6.根据权利要求5所述的方法,其特征在于,所述构建本地存储机制,包括:

7.根据权利要求6所述的方法,其特征在于,所述构建本地读取机制之后,还包括:

8.根据权利要求6所述的方法,其特征在于,所述构建本地写入机制之后,还包括:

9.根据权利要求8所述的方法,其特征在于,所述基于所述本地存储空间中的训练结果数据运行数据同步进程之后,还包括:

10.根据权利要求1至3任一所述的方法,其特征在于,所述训练数据包括训练集数据和验证集数据,所述训练数据与所述验证集数据之间存在对应关系,所述数据加载进程从所述服务器中读取所述训练数据存储至所述本地存储空间时,交替读取并存储所述训练集数据与所述验证集数据,所述训练集数据的优先级高于所述验证集数据;

11.根据权利要求1至3任一所述的方法,其特征在于,所述模型训练进程对应有数据规模标识,所述数据规模标识用于指示所述模型训练进程在运行过程中所需的训练数据的数据量;

12.一种模型训练的数据交互装置,其特征在于,所述装置包括:

13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行以实现如权利要求1至11任一所述的模型训练的数据交互方法。

14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段计算机程序,所述至少一段计算机程序由处理器加载并执行以实现如权利要求1至11任一所述的模型训练的数据交互方法。

15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11任一所述的模型训练的数据交互方法。

...

【技术特征摘要】

1.一种模型训练的数据交互方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述本地存储空间中的训练结果数据运行数据同步进程,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述进程状态将所述训练结果数据同步到所述服务器中,包括:

4.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1至3任一所述的方法,其特征在于,所述运行数据加载进程之前,还包括:

6.根据权利要求5所述的方法,其特征在于,所述构建本地存储机制,包括:

7.根据权利要求6所述的方法,其特征在于,所述构建本地读取机制之后,还包括:

8.根据权利要求6所述的方法,其特征在于,所述构建本地写入机制之后,还包括:

9.根据权利要求8所述的方法,其特征在于,所述基于所述本地存储空间中的训练结果数据运行数据同步进程之后,还包括:

10.根据权利要求1至3任一所述的方法,其特征在于,所述训练数据包括训练集数据和验证集数据,所述训练数据与所述验证集数据...

【专利技术属性】
技术研发人员:查冲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1