【技术实现步骤摘要】
基于非易失内存的深度神经网络checkpoint优化系统以及方法
[0001]本专利技术涉及计算机科学领域中的存储系统领域及深度学习系统领域,特别是涉及一种基于非易失内存的深度神经网络checkpoint优化系统以及方法。
技术介绍
[0002]随着神经网络模型结构和训练集群系统的复杂性与日俱增,训练模型的持久化和数据容错性成为了大规模训练系统中重要的问题。
[0003]现有神经网络的checkpointing涉及GPU、网络、存储等多个软硬件层,复杂的软件层导致高性能硬件的设备无法充分利用,严重影响了数据持久化时读取和写入性能;并且现有方案的性能不足使得神经网络训练缺乏细粒度的checkpoint机制,使得神经网络训练的容错性较低,缺乏快速数据恢复机制;另外在分布式、多用户的现代神经网络训练过程中,由于硬件和系统故障频发,用户需要高性能的数据持久化机制,但目前缺乏类似的系统。
技术实现思路
[0004]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于非易失内存的深度神经网络checkpo ...
【技术保护点】
【技术特征摘要】
1.一种基于非易失内存的深度神经网络checkpoint优化系统,其特征在于,所述系统包括:位于装有GPU显存的计算节点内的客户端模块以及位于装有非易失内存的存储节点内的服务端模块;其中,在每个神经网络模型训练开始之前,所述客户端模块将对存储在所述GPU显存的对应神经网络模型进行初始化获得的网络结构,发送给客户端模块构建该神经网络模型在所述非易失内存上的索引结构,以建立所述GPU显存到所述非易失内存之间的端到端通信;当所述服务端模块在对应神经网络模型训练过程中接收到来自客户端模块的checkpoint请求时,基于该神经网络模型的索引结构直接将对应的模型数据由所述GPU显存读取到非易失内存上。2.根据权利要求1中所述的基于非易失内存的深度神经网络checkpoint优化系统,其特征在于,所述客户端模块对存储在所述GPU显存的对应神经网络模型进行初始化获得网络结构的方式包括:通过神经网络框架收集对应神经网络模型中指向模型每一层的GPU内存指针;使用NVIDIA Peer Memory内核模块基于模型每一层的GPU内存指针将模型每一层的GPU地址空间注册为RDMA内存区域,并给每个内存区域都赋予唯一的标识符;将各标识符与模型每一层的元数据一一对应地聚合到一个模型结构包中。3.根据权利要求2中所述的基于非易失内存的深度神经网络checkpoint优化系统,其特征在于,所述客户端模块构建该神经网络模型在所述非易失内存上的索引结构的方式包括:当接收到所述模型结构包后,从线程池中选择一线程基于该模型结构包在非易失内存中构建对应该神经网络模型的索引结构,以便将该神经网络模型的每一层一一映射到checkpoint结构。4.根据权利要求3中所述的基于非易失内存的深度神经网络checkpoint优化系统,其特征在于,所述索引结构为三级索引结构,包括:位于第一级的模型表、位于第二级的模型元数据以及位于第三级的模型数据信息。5.根据权利要求4中所述的基于非易失内存的深度神经网络checkpoint优化系统,其特征在于,所述当所述服务端模块在对应神经网络模型训练过程中接收到来自客户端模块的checkpoint请求时,基于该神经网络模型的索引结构直...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。