一种分布式数据并行训练系统、方法、终端及存储介质技术方案

技术编号:26170691 阅读:22 留言:0更新日期:2020-10-31 13:39
本发明专利技术提供一种分布式数据并行训练系统、方法、终端及存储介质,包括:CPU、PCIe交换机、GPU和NVMe固态硬盘,所述GPU有多个,多个所述的GPU和所述NVMe固态硬盘分别与所述PCIe交换机通信连接,所述PCIe交换机与所述CPU通信连接;所述NVMe固态硬盘用于存放训练数据;所述PCIe交换机用于将所述训练数据下发给多个所述的GPU;所述GPU用于进行数据训练并产生训练模型;所述CPU用于处理训练模型的参数。本发明专利技术提出了一种将训练数据集放入NVMe固态硬盘,由此解决训练数据集下发过程出现的GPU与CPU之间的PCIe总线拥堵问题,提高了训练效率。

【技术实现步骤摘要】
一种分布式数据并行训练系统、方法、终端及存储介质
本专利技术属于深度学习
,具体涉及一种分布式数据并行训练系统、方法、终端及存储介质。
技术介绍
随着科技的发展,人工智能已在图像、语音等多个领域上取得了重大的突破,并掀起新的科技革命,在可预见的未来,整个互联网都将因此发生翻天覆地的变化,而作为人工智能主要技术,深度学习正在被广泛的研究和应用。TensorFlow是目前广泛使用的深度学习框架之一,其支持CPU和GPU的分布式训练。TensorFlow的分布式训练分为数据并行和模型并行两种方式,其中使用模型并行方式训练的模型准确度不稳定,所以目前主要使用数据并行方式训练,该方式下每个GPU上的训练模型相同,但训练数据不同。数据并行方式下使用同步更新参数和异步更新参数求平均参数。同步更新是指每个GPU根据损失计算各自的参数,CPU汇总所有GPU的参数,并求平均参数,根据平均参数更新模型参数,损失下降稳定,容易得到最优解。异步更新是指不用等所有GPU的参数,每个GPU均可更新参数,损失下降过程抖动较大,参数容易移出最优解。所以目前广泛使用本文档来自技高网...

【技术保护点】
1.一种分布式数据并行训练系统,其特征在于,包括:CPU、PCIe交换机、GPU和NVMe固态硬盘,所述GPU有多个,多个所述的GPU和所述NVMe固态硬盘分别与所述PCIe交换机通信连接,所述PCIe交换机与所述CPU通信连接;/n所述NVMe固态硬盘用于存放训练数据;/n所述PCIe交换机用于将所述训练数据下发给多个所述的GPU;/n所述GPU用于进行数据训练并产生训练模型;/n所述CPU用于处理训练模型的参数。/n

【技术特征摘要】
1.一种分布式数据并行训练系统,其特征在于,包括:CPU、PCIe交换机、GPU和NVMe固态硬盘,所述GPU有多个,多个所述的GPU和所述NVMe固态硬盘分别与所述PCIe交换机通信连接,所述PCIe交换机与所述CPU通信连接;
所述NVMe固态硬盘用于存放训练数据;
所述PCIe交换机用于将所述训练数据下发给多个所述的GPU;
所述GPU用于进行数据训练并产生训练模型;
所述CPU用于处理训练模型的参数。


2.一种分布式数据并行训练方法,其特征在于,包括:
将NVMe固态硬盘分区为缓存空间和训练数据存放空间;
将所述训练数据按批次上传至所述缓存空间,并通过PCIe交换机下发至GPU;
GPU对所有批次的训练数据进行一对一训练,得到训练参数;
CPU根据所有批次的训练参数更新GPU的模型参数,得到最优训练模型。


3.根据权利要求2所述的一种分布式数据并行训练方法,其特征在于,所述方法还包括:
获取GPU的个数;
将所述训练数据划分成与所述GPU的个数相同的批次。


4.根据权利要求2所述的一种分布式数据并行训练...

【专利技术属性】
技术研发人员:王晓飞魏健
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1