通过高效混合并行化减少深度神经网络训练次数制造技术

技术编号:28560481 阅读:39 留言:0更新日期:2021-05-25 17:55
提出了自动寻找深度神经网络(DNN)的有效并行化策略的系统和方法。包括有效排序的顶点序列的计算图有助于在相对短的时间内计算最佳并行化策略。在各种DNN上评估并行化策略的有效性,并且将由各种实施例提出的策略的性能与数据并行、专家设计的策略和其它现有技术的方法进行比较。实验结果表明,所提出的策略优于基线数据并行策略,并取得了比专家设计的策略和现有技术的方法更好的性能。

【技术实现步骤摘要】
通过高效混合并行化减少深度神经网络训练次数相关申请的交叉引用本专利申请根据35USC§119(e)涉及并要求2019年11月4日提交的、标题为“REDUCINGTRAININGTIMESOFDEEPNEURALNETWORKSTHROUGHEFFICIENTHYBRIDPARALLELISM”的第62/930,518号共同未决和共同拥有的美国专利申请的优先权权益,并将VenmugilElango列出作为专利技术人(案号28888-2363P),该专利文件的全部内容出于所有目的通过引用并入本文。
技术介绍
本公开总体上涉及用于计算机学习的、可以提供改进的计算机性能、特征和使用的系统和方法。更具体地,本公开涉及用于通过有效混合并行技术来减少深度神经网络(DNN)的训练时间的系统和方法。DNN在诸如计算机视觉、自然语言处理、推荐系统等多个领域取得了巨大的成功。训练DNN需要大量的计算和存储器要求。将多个设备上的训练并行化以减少训练时间已经成为标准实践。有几种可行的方法来使DNN中的不同层平行化。穷举搜索该列表以找到最优并行化策略是过于耗时和不切实际的。标准本文档来自技高网...

【技术保护点】
1.一种包括一个或多个指令序列的非暂时性计算机可读介质,所述一个或多个指令序列在由至少一个处理器执行时实现用于寻找对深度神经网络DNN的层进行并行化以增加所述DNN的硬件利用率并减少所述DNN的训练时间的有效策略的步骤,所述步骤包括:/n获得顶点序列,所述顶点序列中的顶点表示DNN的层,所述顶点序列已根据顶点排序策略排序,使得表示所述DNN的计算图中的受限邻居集合的大小得以减小;/n对于每个顶点,使用递归来计算用于对所述DNN的顶点进行并行化的子策略,每个顶点与一个或多个根据成本函数来降低配置成本的有效配置相关联;和/n输出具有用于所述计算图的最低成本的策略。/n

【技术特征摘要】
20191104 US 62/930,518;20200804 US 16/985,1211.一种包括一个或多个指令序列的非暂时性计算机可读介质,所述一个或多个指令序列在由至少一个处理器执行时实现用于寻找对深度神经网络DNN的层进行并行化以增加所述DNN的硬件利用率并减少所述DNN的训练时间的有效策略的步骤,所述步骤包括:
获得顶点序列,所述顶点序列中的顶点表示DNN的层,所述顶点序列已根据顶点排序策略排序,使得表示所述DNN的计算图中的受限邻居集合的大小得以减小;
对于每个顶点,使用递归来计算用于对所述DNN的顶点进行并行化的子策略,每个顶点与一个或多个根据成本函数来降低配置成本的有效配置相关联;和
输出具有用于所述计算图的最低成本的策略。


2.如权利要求1所述的非暂时性计算机可读介质,其中,所述受限邻居集合是右相关顶点集合。


3.如权利要求2所述的非暂时性计算机可读介质,其中,获得所述顶点序列包括以下步骤:
对于顶点集合中的一个或多个顶点,初始化所述右相关顶点集合、末端顶点集合和未排序的顶点集合;
对于每个顶点,执行以下步骤:
从所述未排序的顶点集合中迭代地选择具有最小右相关集合基数的顶点,并将所选择的顶点分配给顶点序列;
更新所述末端顶点集合和所述右相关顶点集合,以正确保持用于所述DNN的计算图中的右相关顶点集合的大小;和
输出所述顶点序列作为有序的顶点序列。


4.如权利要求1所述的非暂时性计算机可读介质,其中,所述递归包括一组末端集合。


5.如权利要求1所述的非暂时性计算机可读介质,其中,所述成本函数忽略所述DNN的不同顶点中的层间管道并行以减小搜索空间,并考虑所述DNN的层内的管道并行。


6.如权利要求1所述的非暂时性计算机可读介质,所述步骤还包括使用具有所述最低成本的所述策略来根据所述策略在多个设备上并行执行所述DNN以训练所述DNN。


7.如权利要求1所述的非暂时性计算机可读介质,所述步骤还包括从动态编程表中检索所述一个或多个有效配置及其成本以提高计算速度。


8.如权利要求1所述的非暂时性计算机可读介质或介质,其中,所述计算图包括定义为通过无向路径从顶点可达的左可达顶点集合。


9.一种包括一个或多个指令序列的非暂时性计算机可读介质,所述指令序列在由至少一个处理器执行时实现以下步骤,所述步骤用于对深度神经网络DNN的计算图的顶点进行排序以产生有效的顶点序列,其中,所述顶点序列中的顶点表示DNN的层,进而有效地计算提高所述DNN的硬件利用率和减少所述DNN的训练时间的最佳策略,所述步骤包括:
对于顶点集合中的一个或多个顶点,初始化右相关顶点集合、末端顶点集合和未排序的顶点集合;
对于每个顶点,执...

【专利技术属性】
技术研发人员:文穆吉尔·伊兰戈
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1