一种基于拓扑结构提高深度学习训练速度的方法及装置制造方法及图纸

技术编号:23025437 阅读:17 留言:0更新日期:2020-01-03 17:03
本发明专利技术为了解决现有技术中存在的问题,创新提出了一种基于拓扑结构提高深度学习训练速度的方法,包括:获取CPU以及GPU的拓扑信息;根据训练任务判断所需GPU的数量、GPU优先级关系、CPU以及GPU的拓扑关系,选择与GPU具有互联关系的CPU和所述GPU进行绑定,执行深度学习训练任务,本发明专利技术还提出了一种基于拓扑结构提高深度学习训练速度的装置,通过将与GPU具有互联关系的CPU和GPU绑定执行训练任务,省去GPU和不直接互联的CPU的通讯时间和带宽限制,有效提高了深度学习训练任务速度,降低训练任务所需时间,提高的深度学习训练的效率。

A method and device to improve the speed of deep learning training based on Topology

【技术实现步骤摘要】
一种基于拓扑结构提高深度学习训练速度的方法及装置
本专利技术涉及深度学习领域,尤其是涉及一种基于拓扑结构提高深度学习训练速度的方法及装置。
技术介绍
近年来深度学习发展迅速,图像处理、语音识别等领域都取得了飞速发展。例如在图片识别上,神经网络结构快速演进,分类的网络结构迅速发展。随着模型层次越来越深,参数越来越多,模型能力也越来越强,随着模型复杂度不断增长、训练样本的指数级增长。深度学习训练任务,尤其对于复杂模型和大规模数据集训练会耗费大量时间,并且现今的主流深度学习框架在单机和分布式训练过程中都会有使用GPU和CPU来处理不同的过程。如利用GPU进行矩阵计算和张量操作等,而CPU则进行一部分简单的训练数据的预处理和梯度处理、消息广播等任务。但是如何提高深度学习训练任务速度,降低训练任务所需时间,尤其对于复杂模型和大规模数据集训练,目前现有技术中并未有相关的方法解决。
技术实现思路
本专利技术为了解决现有技术中存在的问题,创新提出了一种基于拓扑结构提高深度学习训练速度的方法及装置,有效提高了深度学习训练任务速度,降低训练任务所需时间,提高的深度学习训练的效率。本专利技术第一方面提供了一种基于拓扑结构提高深度学习训练速度的方法,包括:获取CPU以及GPU的拓扑信息并进行保存;根据训练任务判断所需GPU是否为一个,如果判断结果为是,根据拓扑信息,选择与该GPU具有互联关系的CPU和所述GPU进行绑定,执行深度学习训练任务;如果判断结果为否,根据GPU拓扑信息确定GPU的优先级关系,根据所述GPU的优先级关系确定GPU的编号,根据确定的GPU编号依次选择与该GPU具有互联关系的CPU和所述GPU进行绑定,执行深度学习训练任务。结合第一方面,在第一方面第一种可能的实现方式中,所述训练任务包括单机单卡任务以及单机多卡任务,其中单机单卡任务为单个计算设备单个GPU完成的训练任务,所述单机多卡任务为单个计算设备多个GPU完成的训练任务。结合第一方面,在第一方面第二种可能的实现方式中,进一步地,所述保存形式为数据库或列表。结合第一方面,在第一方面第三种可能的实现方式中,所述GPU的优先级关系具体包括:第一优先级为具有nvlink方式连接的GPU,第二优先级为具有PCIEswitch方式连接的GPU,第三优先级为具有PCIE方式连接的GPU,其中,第一优先级高于第二优先级,第二优先级高于第三优先级。进一步地,所述第二优先级中PCIEswitch方式具体包括PIX模式,PXB模式。结合第一方面,在第一方面第四种可能的实现方式中,所述第三优先级中PCIE方式具体包括PHB模式,NODE模式,SYS模式。结合第一方面,在第一方面第五种可能的实现方式中,当训练任务判断所需GPU为一个时,根据拓扑信息,和所述GPU进行绑定的CPU数目为4个。结合第一方面,在第一方面第六种可能的实现方式中,选取与GPU的绑定的CPU两两不同。本专利技术第二方面提供了一种基于拓扑结构提高深度学习训练速度的装置,包括:获取模块,获取CPU以及GPU的拓扑信息并进行保存;判断模块,根据训练任务判断所需GPU是否为一个,如果判断结果为是,根据拓扑信息,选择与该GPU具有互联关系的CPU和所述GPU进行绑定,执行深度学习训练任务;多卡选择模块,如果判断结果为否,根据GPU拓扑信息确定GPU的优先级关系,根据所述GPU的优先级关系确定GPU的编号,根据确定的GPU编号依次选择与该GPU具有互联关系的CPU和所述GPU进行绑定,执行深度学习训练任务。本专利技术采用的技术方案包括以下技术效果:本专利技术省去GPU和不直接互联的CPU的通讯时间和带宽限制,有效提高了深度学习训练任务速度,降低训练任务所需时间,提高的深度学习训练的效率。应当理解的是以上的一般描述以及后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明为了更清楚说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见的,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术方案中实施例一方法的流程示意图;图2为本专利技术方案中实施例二装置的结构示意图。具体实施方式为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本专利技术进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本专利技术的不同结构。为了简化本专利技术的公开,下文中对特定例子的部件和设置进行描述。此外,本专利技术可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本专利技术省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本专利技术。实施例一如图1所示,本专利技术提供了一种基于拓扑结构提高深度学习训练速度的方法,包括:S1,获取CPU以及GPU的拓扑信息并进行保存;S2,根据训练任务判断所需GPU是否为一个,如果判断结果为是,执行步骤S3;如果判断结果为否,执行步骤S4;S3,根据拓扑信息,选择与该GPU具有互联关系的CPU和所述GPU进行绑定,执行深度学习训练任务;S4,根据GPU拓扑信息确定GPU的优先级关系,根据所述GPU的优先级关系确定GPU的编号,根据确定的GPU编号依次选择与该GPU具有互联关系的CPU和所述GPU进行绑定,执行深度学习训练任务。在步骤S1中通过nvidia驱动工具收集计算设备(例如服务器等)的CPU和GPU的拓扑信息,保存形式为数据库或列表,对获取的拓扑信息进行记录保存,以供后期任务提交查询时使用。。在步骤S2中,其中,训练任务包括单机单卡任务以及单机多卡任务,其中单机单卡任务为单个计算设备单个GPU完成的训练任务,单机多卡任务为单个计算设备多个GPU完成的训练任务。根据训练任务将所需要的GPU的数目分为单机单卡(单个计算设备单个GPU)以及单机多卡(单个计算设备多个GPU),判断所需GPU是否为一个,如果判断结果为是,则为单机单卡任务,如果判断结果为否,则为单机多卡任务。在步骤S3中,在训练任务配置时,然后在拓扑信息找到该GPU(用户可以指定,如不指定则按默认顺序指定,默认顺序为预先存储在计算设备数据库中,顺序可以根据GPU编号,也可以根据其他规则),如果用户指定CPU的个数,则选择相应数量的与该GPU具有互联关系(具有亲和性)的CPU和所述GPU进行绑定,如果用户没有指定CPU个数,则默认1个GPU配备4个CPU(经过实际测试后,该数量具有最好的加速效果),在与该GPU具有互联关系(具有亲和性)的CPU中选择4个和所述GPU进行绑定,一起进行训练任务。在步骤S4中,根据GPU拓扑信息确定GPU的优先级关系,根据所述GPU的优先级关本文档来自技高网...

【技术保护点】
1.一种基于拓扑结构提高深度学习训练速度的方法,其特征是,包括:/n获取CPU以及GPU的拓扑信息并进行保存;/n根据训练任务判断所需GPU是否为一个,如果判断结果为是,根据拓扑信息,选择与该GPU具有互联关系的CPU和所述GPU进行绑定,执行深度学习训练任务;/n如果判断结果为否,根据GPU拓扑信息确定GPU的优先级关系,根据所述GPU的优先级关系确定GPU的编号,根据确定的GPU编号依次选择与该GPU具有互联关系的CPU和所述GPU进行绑定,执行深度学习训练任务。/n

【技术特征摘要】
1.一种基于拓扑结构提高深度学习训练速度的方法,其特征是,包括:
获取CPU以及GPU的拓扑信息并进行保存;
根据训练任务判断所需GPU是否为一个,如果判断结果为是,根据拓扑信息,选择与该GPU具有互联关系的CPU和所述GPU进行绑定,执行深度学习训练任务;
如果判断结果为否,根据GPU拓扑信息确定GPU的优先级关系,根据所述GPU的优先级关系确定GPU的编号,根据确定的GPU编号依次选择与该GPU具有互联关系的CPU和所述GPU进行绑定,执行深度学习训练任务。


2.根据权利要求1所述的基于拓扑结构提高深度学习训练速度的方法,其特征是,所述训练任务包括单机单卡任务以及单机多卡任务,其中单机单卡任务为单个计算设备单个GPU完成的训练任务,所述单机多卡任务为单个计算设备多个GPU完成的训练任务。


3.根据权利要求1所述的基于拓扑结构提高深度学习训练速度的方法,其特征是,所述保存形式为数据库或列表。


4.根据权利要求1所述的基于拓扑结构提高深度学习训练速度的方法,其特征是,所述GPU的优先级关系具体包括:第一优先级为具有nvlink方式连接的GPU,第二优先级为具有PCIEswitch方式连接的GPU,第三优先级为具有PCIE方式连接的GPU,其中,第一优先级高于第二优先级,第二优先级高于第三优先级。

【专利技术属性】
技术研发人员:王超
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1