The invention discloses a distributed deep neural network performance modeling method based on instruction queue, which is characterized by hierarchical mapping, segmentation and calculation of deep neural network according to hardware performance parameters, neural network structure, underlying computing architecture, data transmission protocol, link bandwidth characteristics and server GPU topology structure, and then an iteration of training with instruction queue. Time-consuming estimation and output data interaction between hardware. Because the distributed deep neural network performance modeling method based on instruction queue takes into account both hardware and software characteristics, the instruction level queue model is used for time-consuming analysis, thus realizing an iteration time-consuming estimation of deep neural network training and the analysis of the data interaction process of each hardware, which is suitable for different hardware environments (different servers, different types). GPU, GPU with different block numbers and different neural networks.
【技术实现步骤摘要】
一种基于指令队列的分布式深度神经网络性能建模方法
本专利技术属于基于特定计算模型的性能建模
,具体涉及对在单块或多块图形处理器(GPU)上训练的深度神经网络性能的建模方法。
技术介绍
中央处理器(CentralProcessingUnit,CPU)是一台计算机的运算核心和控制核心,图形处理器(GraphicsProcessingUnit,GPU)是一种图像运算工作的微处理器。相比CPU,GPU具有更多的计算单元,自GPU通用计算技术发展以来,GPU已广泛应用于大计算量的任务,尤其是在深度学习领域。深度神经网络(DeepNeuralNetwork,DNN)是指具有多个隐藏层的人工神经网络(ArtificialNeutralNetwork,ANN),其概念由多伦多大学的杰弗里·辛顿研究组于2006年提出。2012年会议NIPS(Advancesinneuralinformationprocessingsystems)收录的文章“Imagenetclassificationwithdeepconvolutionalneuralnetworks[C]”成功将深度神经网络引入计算机视觉领域,引发了深度学习的热潮。时至2018年,深度学习领域相关的研究已经有了数倍的增长,成功应用于计算机视觉、模式识别、自然语言处理等多个领域。在深度神经网络如此广泛应用的背景下,一种通用的高准确度的针对GPU上训练的深度神经网络性能建模方法是十分有意义的。目前针对GPU上训练的深度神经网络的性能建模方法主要通过实验收集底层数据来进行:例如,IEEE在2018年收录的文章“Perf ...
【技术保护点】
1.一种基于指令队列的分布式深度神经网络性能建模方法,针对GPU上训练的深度神经网络一次迭代耗时建模,其特征在于:根据硬件性能参数、神经网络结构、底层计算架构CUDA、数据传输协议、链路带宽特点、服务器GPU拓扑结构,对深度神经网络进行分层映射拆分、分段计算,然后利用指令队列对训练一次迭代耗时进行估计,同时输出各硬件间的数据交互情况;具体操作步骤为:首先执行软硬件关键特征参数提取:在部署神经网络的GPU服务器上,使用linux系统指令查看硬件配置,提取硬件关键特征参数‑‑‑‑包括硬件性能参数、链路带宽、服务器GPU拓扑结构;根据神经网络代码,提取软件关键特征参数‑‑‑‑包括神经网络结构参数、数据传输协议;并将提取到的软硬件关键特征参数汇总成配置文件;然后进行单GPU性能建模,将深度神经网络训练一次迭代耗时拆分为数据传输时间、前向传播时间、反向传播时间分别计算,其中前向传播时间和反向传播时间根据神经网络结构再进行分层拆分;再根据相应的CUDA核函数的计算原理得到执行一层的所有核函数,转化成指令;然后使用提出的队列模型将指令转化成耗时,最终得到一次迭代耗时的估计;最后进行多GPU性能建模, ...
【技术特征摘要】
1.一种基于指令队列的分布式深度神经网络性能建模方法,针对GPU上训练的深度神经网络一次迭代耗时建模,其特征在于:根据硬件性能参数、神经网络结构、底层计算架构CUDA、数据传输协议、链路带宽特点、服务器GPU拓扑结构,对深度神经网络进行分层映射拆分、分段计算,然后利用指令队列对训练一次迭代耗时进行估计,同时输出各硬件间的数据交互情况;具体操作步骤为:首先执行软硬件关键特征参数提取:在部署神经网络的GPU服务器上,使用linux系统指令查看硬件配置,提取硬件关键特征参数----包括硬件性能参数、链路带宽、服务器GPU拓扑结构;根据神经网络代码,提取软件关键特征参数----包括神经网络结构参数、数据传输协议;并将提取...
【专利技术属性】
技术研发人员:李陈圣,秦晓卫,裴梓茜,李晓敏,杨渡佳,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。