【技术实现步骤摘要】
分布式模型训练方法、装置、设备、存储介质及程序产品
[0001]本公开涉及数据处理
,尤其涉及人工智能、深度学习、分布式
,具体涉及一种分布式模型训练方法、装置、设备、存储介质以及程序产品。
技术介绍
[0002]随着人工智能技术的发展,深度学习作为人工智能的一个重要分支在例如计算机视觉、智能推荐以及自然语言等场景具有广泛应用前景。深度学习模型不断优化更迭,随之带来模型参数规模和相关数据量的快速攀升,如何应对模型数据量的增加成为一个亟需解决的技术问题。
技术实现思路
[0003]本公开提供了一种分布式模型训练方法、装置、设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种分布式模型训练方法,包括:接收来自针对目标计算单元的模型数据,其中,模型数据包括模型参数、训练数据以及计算图;根据计算图和分布式策略,确定分布式全局计算图;对模型参数进行初始化,得到初始模型参数;将分布式全局计算图和初始模型参数发送至多个分布式计算单元;以及响应于接收到来自分布式计算单元的目标深度学习模 ...
【技术保护点】
【技术特征摘要】
1.一种分布式模型训练方法,包括:接收来自针对目标计算单元的模型数据,其中,所述模型数据包括模型参数、训练数据以及计算图;根据所述计算图和分布式策略,确定分布式全局计算图;对所述模型参数进行初始化,得到初始模型参数;将所述分布式全局计算图和所述初始模型参数发送至多个分布式计算单元;以及响应于接收到来自所述分布式计算单元的目标深度学习模型,将所述目标深度学习模型发送至所述目标计算单元;其中,所述目标深度学习模型,是所述分布式计算单元根据所述训练数据和所述全局计算图对所述初始模型参数进行更新后得到的。2.根据权利要求1所述的方法,其中,所述分布式策略包括:张量划分策略和操作划分策略;所述张量划分策略针对数据张量,其中,所述数据张量包括所述模型参数、所述训练数据中的至少一个,所述操作划分策略针对所述分布式全局计算图的运算操作,所述操作划分策略表征:所述分布式全局计算图的运算操作和与所述运算操作相关的操作数据张量分别存储于不同的所述分布式计算单元的情况下,所述操作数据张量的划分策略。3.根据权利要求2所述的方法,还包括:根据所述操作划分策略,确定与每一个分布式计算单元子集合对应的操作数据子张量,其中,所述分布式计算单元子集合是对多个所述分布式计算单元划分得到的;所述操作划分策略表征所述分布式计算单元子集合与所述操作数据张量的维度之间的映射关系。4.根据权利要求3所述的方法,其中,所述根据所述计算图和分布式策略,确定分布式全局计算图包括:根据所述操作划分策略,确定与所述运算操作映射的第一分布式计算单元和与多个所述操作数据子张量映射的多个第二分布式计算单元;根据所述操作划分策略,确定第一通信算子,所述第一通信算子用于在所述第一分布式计算单元与多个所述第二分布式计算单元之间进行通信和数据交互;以及根据所述第一通信算子对所述计算图进行修改,得到所述分布式全局计算图。5.根据权利要求2所述的方法,还包括:根据所述张量划分策略,确定与每一个分布式计算单元集合对应的数据子张量,其中,所述分布式计算单元子集合是对多个所述分布式计算单元划分得到的;所述张量划分策略表征所述分布式计算单元子集合与所述数据张量的维度之间的映射关系。6.根据权利要求5所述的方法,其中,所述根据所述计算图和分布式策略,确定分布式全局计算图包括:根据所述张量划分策略,确定与多个所述数据子张量映射的多个第三分布式计算单元;根据所述张量划分策略,确定第二通信算子,所述第二通信算子用于在多个所述第三分布式计算单元进行通信和数据交互;以及根据所述第二通信算子对所述计算图进行修改,得到所述分布式全局计算图。7.根据权利要求3或5所述的方法,其中,多个所述分布式计算单元的标识排布为分布
式计算单元编码阵列,所述分布式计算单元编码阵列的每一个维度为一个所述分布式计算单元子集合。8.根据权利要求1
‑
6中任一项所述的方法,其中,所述训练数据为批量训练数据,所述批量训练数据包括多个独立训练数据;所述分布式模型训练方法还包括:根据所述批量训练数据和独立训练数据描述数据,确定与所述独立训练数据描述数据匹配的目标独立训练数据,其中,所述独立训练数据描述数据用于表征所述目标独立训练数据;接收来自分布式计算单元的与所述目标独立训练数据相关的数据,其中,与所述目标独立训练数据相关的数据是所述分布式计算单元,根据所述目标独立训练数据和所述分布式全局计算图得到的。9.根据权利要求1
‑
6中任一项所述的方法,其中,所述训练数据包括验证数据;还包括:利用验证数据对所述模型训练进行评估,得到模型训练评估数值,所述模型训练评估数值用于评估所述模型训练的效率。10.根据权利要求1
‑
6中任一项所述的方法,还包括:利用所述目标深度学习模型对待预测数据进行预测,得到预测数值,所述预测数值用于表征所述目标深度学习模型的模型性能。11.根据权利要求1
‑
6中任一项所述的方法,其中,所述计算图为动态;所述根据所述分布式策略和所述计算图,确定分布式全局计算图还包括:将动态的所述计算图转换为静态的计算图;以及根据所述静态的计算图和所述分布式策略,确定分布式全局计算图,其中,所述分布式全局计算图为静态。12.一种分布式模型训练方法,包括:响应于接收到分布式全局计算图和初始模型参数,根据训练数据和所述全局计算图对具有所述初始模型参数的初始深度学习模型进行训练,得到目标深度学习模型;以及发送所述目标深度学习模型。13.根据权利要求12所述的方法,还包括以下中的至少一个:根据操作划分策略,存储多个操作数据子张量;根据张量划分策略,存储多个数据子张量。14.一种分布式模型训练装置,包括:模型数据接收模块,用于接收来自针对目标计算单元的模型数据,其中,所述模型数据包括模型参数、训练数据以及计算图;分布式全局计算图确定模块,用于根据所述计算图和分布式策略,确定分布式全局计算图;初始模型参数确定模块,用于对所述模型参数进行初始化,得到初始模型参数;第一发送模块,用于将所述分布式全局计算图和所述初始模型参数发送至多个分布式计算单元;以及第二发送模块,用于响应于接收到来自所述分布式计算单元的目标深度学习模型,将所述目标深度学习模型发送至所述目标计算单元;其中,所述目标深度学习模型,是所述分布式计算单元根据所述训练数据和所述全局计算图对所述初始模型参数进行更新后得到
的。15.根据权利要求...
【专利技术属性】
技术研发人员:赵英利,敖玉龙,梁建中,曹州,于佃海,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。