【技术实现步骤摘要】
本专利技术涉及计算机,更具体的说是涉及一种数据流转方法、系统、装置及可读存储介质。
技术介绍
1、随着人工智能(artificial intelligence,英文缩写为ai)和aigc(artificialintelligence generated content,生成式人工智能)技术的迅速发展,ai大模型已成为行业热点。ai大模型训练需要有高质量、大规模、多模态的数据集做支撑,不论是单机还是分布式ai训练,存储的i/o性能都会显著影响ai大模型训练效率。云原生时代企业为解决数据孤岛问题,通常通过建设数据湖平台,以实现内部多源异构业务系统数据的统一采集、汇聚、存储和处理。数据湖平台通过对象存储平台构建底层海量数据存储能力,其中包括用于ai训练的数据集。但是,对象存储平台的小文件并发读性能不好,而ai模型训练数据集通常是由tb级海量的小文件构成,可见对象存储并不能满足ai模型训练并行数据读取的性能需求。所以在ai训练场景下,为了提升数据集读取速度加速模型训练效率,普遍使用并行文件系统存储和管理数据集。
2、相关技术中,为了
...【技术保护点】
1.一种数据流转方法,其特征在于,包括:
2.根据权利要求1所述的数据流转方法,其特征在于,所述配置数据集信息,包括:
3.根据权利要求2所述的数据流转方法,其特征在于,所述验证数据集配置信息,在节点上创建数据集目录,并进行目录挂载,包括:
4.根据权利要求2所述的数据流转方法,其特征在于,所述配置数据流转任务,以确定任务类型和任务并行数量,包括:
5.根据权利要求4所述的数据流转方法,其特征在于:
6.根据权利要求5所述的数据流转方法,其特征在于,所述启动数据流转任务,按任务类型先同步元数据再并行同步数据文
...【技术特征摘要】
1.一种数据流转方法,其特征在于,包括:
2.根据权利要求1所述的数据流转方法,其特征在于,所述配置数据集信息,包括:
3.根据权利要求2所述的数据流转方法,其特征在于,所述验证数据集配置信息,在节点上创建数据集目录,并进行目录挂载,包括:
4.根据权利要求2所述的数据流转方法,其特征在于,所述配置数据流转任务,以确定任务类型和任务并行数量,包括:
5.根据权利要求4所述的数据流转方法,其特征在于:
6.根据权利要求5所述的数据流转...
【专利技术属性】
技术研发人员:王萌,胡德鹏,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。