高能效的深度神经网络训练系统的计算存储装置制造方法及图纸

技术编号：40994954 阅读：2 留言：0更新日期：2024-04-18 21:35

本公开涉及一种训练系统，包括：动态随机存取存储器(DRAM)，被配置为对训练数据进行缓冲；中央处理单元(CPU)，联接到DRAM并且被配置为对训练数据进行下采样并向DRAM提供下采样的训练数据；计算存储装置，包括固态驱动器(SSD)和现场可编程门阵列(FPGA)，并且被配置为对下采样的训练数据执行降维以生成训练数据批；以及图形处理单元(GPU)，被配置为对训练数据批执行训练。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的实施例涉及一种在深度神经网络中处理数据的方案。

技术介绍

1、深度神经网络(dnn)在诸如计算机视觉、自然语言处理、生物医学分析和机器人的众多领域发挥着关键作用。然而，它们的开发和部署面临挑战。当对大型数据集或包含高维数据的数据集训练dnn模型时，由于图形处理单元(gpu)的存储器容量有限，将所有训练数据存储在gpu中可能变得不切实际，这导致内存不足错误，从而无法进一步训练。为了克服这个问题，可以通过对数据进行分区来访问更小的缓冲组块中的数据。尽管如此，即使通过数据分区，由于存储器性能提高相对较低，仍然存在局限性。

2、从存储器读取数据的速度比在gpu中处理数据的速度慢，这使得从存储器访问数据成为瓶颈。这可能减慢训练过程，并潜在地导致模型收敛问题。当需要进行多个时期(epoch)的训练或需要进行超参数调整时，这种瓶颈进一步加剧。在这种情况下，必须重复访问相同的数据，这导致存储访问速度减慢，并加剧性能瓶颈。这被称为“gpu存储器容量墙”。随着数据集的大小和dnn模型的复杂度的增加，存储数据所需的内存量也增加。

3、为了解决与训练dnn模型相关的存储器问题，一种常见的方法是将每个模型的训练分配到多个gpu。已经考虑了一种在异构gpu/cpu集群中加速分布式dnn训练的统一架构。这种方法涉及将数据集或模型变量拆分到gpu，从而加快训练时间并提高性能。然而，这可能导致gpu和能源成本的线性增加。另一种最近的方法是在训练期间利用主机中央处理单元(cpu)存储器作为缓冲区来卸载一些即将发生的张量。