一种数据流转方法、系统、装置及可读存储介质制造方法及图纸

技术编号:39977009 阅读:32 留言:0更新日期:2024-01-09 01:13
本发明专利技术提出的一种数据流转方法、系统、装置及可读存储介质,所述方法包括:配置数据集信息;验证数据集配置信息,在节点上创建数据集目录,并进行目录挂载;配置数据流转任务,以确定任务类型和任务并行数量;启动数据流转任务,按任务类型先同步元数据再并行同步数据文件,并监控数据流转任务的实时进展;当数据流转任务结束后,查询数据流程任务信息。本发明专利技术通过设置并执行流转任务实现海量训练数据集的小文件快速并行的从对象存储流转到并行文件系统,有效的加快了AI模型开发训练的效率。

【技术实现步骤摘要】

本专利技术涉及计算机,更具体的说是涉及一种数据流转方法、系统、装置及可读存储介质


技术介绍

1、随着人工智能(artificial intelligence,英文缩写为ai)和aigc(artificialintelligence generated content,生成式人工智能)技术的迅速发展,ai大模型已成为行业热点。ai大模型训练需要有高质量、大规模、多模态的数据集做支撑,不论是单机还是分布式ai训练,存储的i/o性能都会显著影响ai大模型训练效率。云原生时代企业为解决数据孤岛问题,通常通过建设数据湖平台,以实现内部多源异构业务系统数据的统一采集、汇聚、存储和处理。数据湖平台通过对象存储平台构建底层海量数据存储能力,其中包括用于ai训练的数据集。但是,对象存储平台的小文件并发读性能不好,而ai模型训练数据集通常是由tb级海量的小文件构成,可见对象存储并不能满足ai模型训练并行数据读取的性能需求。所以在ai训练场景下,为了提升数据集读取速度加速模型训练效率,普遍使用并行文件系统存储和管理数据集。

2、相关技术中,为了实现ai模型开发训练本文档来自技高网...

【技术保护点】

1.一种数据流转方法,其特征在于,包括:

2.根据权利要求1所述的数据流转方法,其特征在于,所述配置数据集信息,包括:

3.根据权利要求2所述的数据流转方法,其特征在于,所述验证数据集配置信息,在节点上创建数据集目录,并进行目录挂载,包括:

4.根据权利要求2所述的数据流转方法,其特征在于,所述配置数据流转任务,以确定任务类型和任务并行数量,包括:

5.根据权利要求4所述的数据流转方法,其特征在于:

6.根据权利要求5所述的数据流转方法,其特征在于,所述启动数据流转任务,按任务类型先同步元数据再并行同步数据文件,并监控数据流转任...

【技术特征摘要】

1.一种数据流转方法,其特征在于,包括:

2.根据权利要求1所述的数据流转方法,其特征在于,所述配置数据集信息,包括:

3.根据权利要求2所述的数据流转方法,其特征在于,所述验证数据集配置信息,在节点上创建数据集目录,并进行目录挂载,包括:

4.根据权利要求2所述的数据流转方法,其特征在于,所述配置数据流转任务,以确定任务类型和任务并行数量,包括:

5.根据权利要求4所述的数据流转方法,其特征在于:

6.根据权利要求5所述的数据流转...

【专利技术属性】
技术研发人员:王萌胡德鹏
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1