System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能领域,特别涉及一种模型训练的数据交互方法、装置、设备、存储介质及产品。
技术介绍
1、随着人工智能(artificial intelligence,ai)大模型的突起,执行ai大模型训练时,由于大模型训练的参数量大且训练过程中交换数据的规模量高,依赖于分布式文件系统做存储,训练程序与分布式文件系统的直接交互,但由于分布式文件系统存在网络抖动等情况,容易导致数据交互卡顿,影响训练进程。
2、相关技术中,针对分布式文件系统读写的优化,通过优化分布式文件系统的稳定性的角度切入,在资源层上通过使用高性能的固态硬盘(solid state disk,ssd)做存储,来提高计算机接口(input/output,i/o)吞吐量,避免由于i/o性能问题导致读写分布式文件卡住的情况,功能架构上通过优化分布式文件系统的元数据和存储程序,增加高速缓冲存储器(cache)等方式降低功能程序出错的概率。
3、然而,由于上述方法均是从功能正常运行的角度做优化,对异常场景的覆盖力度弱,无法隔离出分布式文件系统在异常情况下对模型训练流程的影响,优化效果较差,训练效率较低。
技术实现思路
1、本申请实施例提供了一种模型训练的数据交互方法、装置、设备、存储介质及产品,能够提高训练效率。所述技术方案如下。
2、一方面,提供了一种模型训练的数据交互方法,所述方法包括:
3、运行数据加载进程,所述数据加载进程用于从服务器中读取训练数据存储至本地存储空间;
...【技术保护点】
1.一种模型训练的数据交互方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述本地存储空间中的训练结果数据运行数据同步进程,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述进程状态将所述训练结果数据同步到所述服务器中,包括:
4.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1至3任一所述的方法,其特征在于,所述运行数据加载进程之前,还包括:
6.根据权利要求5所述的方法,其特征在于,所述构建本地存储机制,包括:
7.根据权利要求6所述的方法,其特征在于,所述构建本地读取机制之后,还包括:
8.根据权利要求6所述的方法,其特征在于,所述构建本地写入机制之后,还包括:
9.根据权利要求8所述的方法,其特征在于,所述基于所述本地存储空间中的训练结果数据运行数据同步进程之后,还包括:
10.根据权利要求1至3任一所述的方法,其特征在于,所述训练数据包括训练集数据和验证集数据,所述训练数据与所述验证
11.根据权利要求1至3任一所述的方法,其特征在于,所述模型训练进程对应有数据规模标识,所述数据规模标识用于指示所述模型训练进程在运行过程中所需的训练数据的数据量;
12.一种模型训练的数据交互装置,其特征在于,所述装置包括:
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行以实现如权利要求1至11任一所述的模型训练的数据交互方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段计算机程序,所述至少一段计算机程序由处理器加载并执行以实现如权利要求1至11任一所述的模型训练的数据交互方法。
15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11任一所述的模型训练的数据交互方法。
...【技术特征摘要】
1.一种模型训练的数据交互方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述本地存储空间中的训练结果数据运行数据同步进程,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述进程状态将所述训练结果数据同步到所述服务器中,包括:
4.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1至3任一所述的方法,其特征在于,所述运行数据加载进程之前,还包括:
6.根据权利要求5所述的方法,其特征在于,所述构建本地存储机制,包括:
7.根据权利要求6所述的方法,其特征在于,所述构建本地读取机制之后,还包括:
8.根据权利要求6所述的方法,其特征在于,所述构建本地写入机制之后,还包括:
9.根据权利要求8所述的方法,其特征在于,所述基于所述本地存储空间中的训练结果数据运行数据同步进程之后,还包括:
10.根据权利要求1至3任一所述的方法,其特征在于,所述训练数据包括训练集数据和验证集数据,所述训练数据与所述验证集数据...
【专利技术属性】
技术研发人员:查冲,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。