System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 高能效的深度神经网络训练系统的计算存储装置制造方法及图纸_技高网

高能效的深度神经网络训练系统的计算存储装置制造方法及图纸

技术编号:40994954 阅读:2 留言:0更新日期:2024-04-18 21:35
本公开涉及一种训练系统,包括:动态随机存取存储器(DRAM),被配置为对训练数据进行缓冲;中央处理单元(CPU),联接到DRAM并且被配置为对训练数据进行下采样并向DRAM提供下采样的训练数据;计算存储装置,包括固态驱动器(SSD)和现场可编程门阵列(FPGA),并且被配置为对下采样的训练数据执行降维以生成训练数据批;以及图形处理单元(GPU),被配置为对训练数据批执行训练。

【技术实现步骤摘要】

本公开的实施例涉及一种在深度神经网络中处理数据的方案。


技术介绍

1、深度神经网络(dnn)在诸如计算机视觉、自然语言处理、生物医学分析和机器人的众多领域发挥着关键作用。然而,它们的开发和部署面临挑战。当对大型数据集或包含高维数据的数据集训练dnn模型时,由于图形处理单元(gpu)的存储器容量有限,将所有训练数据存储在gpu中可能变得不切实际,这导致内存不足错误,从而无法进一步训练。为了克服这个问题,可以通过对数据进行分区来访问更小的缓冲组块中的数据。尽管如此,即使通过数据分区,由于存储器性能提高相对较低,仍然存在局限性。

2、从存储器读取数据的速度比在gpu中处理数据的速度慢,这使得从存储器访问数据成为瓶颈。这可能减慢训练过程,并潜在地导致模型收敛问题。当需要进行多个时期(epoch)的训练或需要进行超参数调整时,这种瓶颈进一步加剧。在这种情况下,必须重复访问相同的数据,这导致存储访问速度减慢,并加剧性能瓶颈。这被称为“gpu存储器容量墙”。随着数据集的大小和dnn模型的复杂度的增加,存储数据所需的内存量也增加。

3、为了解决与训练dnn模型相关的存储器问题,一种常见的方法是将每个模型的训练分配到多个gpu。已经考虑了一种在异构gpu/cpu集群中加速分布式dnn训练的统一架构。这种方法涉及将数据集或模型变量拆分到gpu,从而加快训练时间并提高性能。然而,这可能导致gpu和能源成本的线性增加。另一种最近的方法是在训练期间利用主机中央处理单元(cpu)存储器作为缓冲区来卸载一些即将发生的张量。

>4、在这种情况下,提出了本专利技术的实施例。


技术实现思路

1、本专利技术的各方面包括一种增强诸如深度神经网络的训练系统的性能和能效的方案。

2、在一方面,一种训练系统包括:动态随机存取存储器(dram),被配置为对训练数据进行缓冲;中央处理单元(cpu),联接到dram并且被配置为对训练数据进行下采样并向dram提供下采样(downsample)的训练数据;计算存储装置,包括固态驱动器(ssd)和现场可编程门阵列(fpga),并且被配置为对下采样的训练数据执行降维以生成训练数据批;以及图形处理单元(gpu),被配置为对训练数据批执行训练。

3、在另一方面,一种操作训练系统的方法包括:由动态随机存取存储器(dram)对训练数据进行缓冲;由联接到dram的中央处理单元(cpu)对训练数据进行下采样,以向dram提供下采样的训练数据;由联接到dram的计算存储装置对下采样的训练数据执行降维以生成训练数据批;以及由图形处理单元(gpu)对训练数据批执行训练。

4、根据以下描述,本专利技术的其他方面将变得明显。

本文档来自技高网...

【技术保护点】

1.一种训练系统,包括:

2.根据权利要求1所述的训练系统,其中,所述降维包括随机投影。

3.根据权利要求1所述的训练系统,其中,所述计算存储装置通过点对点直接存储器访问操作即P2P-DMA操作向所述GPU提供所述训练数据批。

4.根据权利要求1所述的训练系统,其中,所述计算存储装置包括多个计算单元,每个所述计算单元包括:

5.根据权利要求4所述的训练系统,其中,所述缓冲块存储所述输入瓦片中的两个。

6.根据权利要求5所述的训练系统,其中,由所述缓冲块同时对所述输入瓦片进行双重缓冲。

7.根据权利要求5所述的训练系统,其中,所述输入瓦片中的两个的数据访问模式是顺序的。

8.根据权利要求4所述的训练系统,其中,所述输入瓦片具有平铺数据格式,并且从行主布局重新排序为输入矩阵的数据布局,所述输入瓦片位于存储器的连续区域中。

9.根据权利要求4所述的训练系统,其中,所述下采样的训练数据包括通过对所述训练数据进行图像大小调整、数据增强和/或维度调整处理的数据。

10.根据权利要求4所述的训练系统,其中,所述训练数据被分区,然后被缓冲在所述DRAM中。

11.一种用于操作训练系统的方法,包括:

12.根据权利要求11所述的方法,其中,所述降维包括随机投影。

13.根据权利要求11所述的方法,其中,执行降维包括由所述计算存储装置通过点对点直接存储器访问操作即P2P-DMA操作向所述GPU提供所述训练数据批。

14.根据权利要求11所述的方法,其中,所述计算存储装置包括多个计算单元,由每个所述计算单元执行降维包括:

15.根据权利要求14所述的方法,其中,将所述输入瓦片中的两个存储在所述缓冲块中。

16.根据权利要求15所述的方法,其中,由所述缓冲块对所述输入瓦片同时进行双重缓冲。

17.根据权利要求15所述的方法,其中,所述输入瓦片中的两个的数据访问模式是顺序的。

18.根据权利要求14所述的方法,其中,所述输入瓦片具有平铺数据格式,并且从行主布局重新排序为输入矩阵的数据布局,所述输入瓦片位于存储器的连续区域中。

19.根据权利要求14所述的方法,其中,所述下采样的训练数据包括通过对所述训练数据进行图像大小调整、数据增强和/或维度调整处理的数据。

20.根据权利要求14所述的方法,其中,缓冲所述训练数据包括对所述训练数据进行分区并将分区的训练数据缓冲在所述DRAM中。

...

【技术特征摘要】

1.一种训练系统,包括:

2.根据权利要求1所述的训练系统,其中,所述降维包括随机投影。

3.根据权利要求1所述的训练系统,其中,所述计算存储装置通过点对点直接存储器访问操作即p2p-dma操作向所述gpu提供所述训练数据批。

4.根据权利要求1所述的训练系统,其中,所述计算存储装置包括多个计算单元,每个所述计算单元包括:

5.根据权利要求4所述的训练系统,其中,所述缓冲块存储所述输入瓦片中的两个。

6.根据权利要求5所述的训练系统,其中,由所述缓冲块同时对所述输入瓦片进行双重缓冲。

7.根据权利要求5所述的训练系统,其中,所述输入瓦片中的两个的数据访问模式是顺序的。

8.根据权利要求4所述的训练系统,其中,所述输入瓦片具有平铺数据格式,并且从行主布局重新排序为输入矩阵的数据布局,所述输入瓦片位于存储器的连续区域中。

9.根据权利要求4所述的训练系统,其中,所述下采样的训练数据包括通过对所述训练数据进行图像大小调整、数据增强和/或维度调整处理的数据。

10.根据权利要求4所述的训练系统,其中,所述训练数据被分区,然后被缓冲在所述dram中。

11.一种用于操作训练系统的方法...

【专利技术属性】
技术研发人员:金钟律凯文·唐李世举林炯辰
申请(专利权)人:爱思开海力士有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1