用于训练模型的虚拟环境构建方法及模型的训练方法技术

技术编号:36289429 阅读:68 留言:0更新日期:2023-01-13 10:01
本发明专利技术公开了一种用于训练深度学习模型的虚拟环境的构建方法、深度学习模型的训练方法、计算设备及可读存储介质,其中,用于训练深度学习模型的虚拟环境的构建方法,包括:构建运行预定计算机语言的虚拟环境;在虚拟环境中安装分布式处理系统和分布式深度学习框架;在虚拟环境中,对运行预定计算机语言的执行器和分布式深度学习框架对应的令牌文件分别生成统一路径;将虚拟环境打包后分发至基于分布式处理系统的集群上。本发明专利技术的技术方案使得通过虚拟环境在分布式处理系统的集群中运行分布式深度学习框架具有可行性。式深度学习框架具有可行性。式深度学习框架具有可行性。

【技术实现步骤摘要】
用于训练模型的虚拟环境构建方法及模型的训练方法


[0001]本专利技术涉及计算机
,尤其涉及一种用于训练深度学习模型的虚拟环境的构建方法、深度学习模型的训练方法、计算设备及可读存储介质。

技术介绍

[0002]近年来深度学习在诸多领域得到了广泛应用,深度学习模型优良的效果通常依赖于大规模数据的参与,使得模型的规模也很庞大,这对模型的训练方式和训练速度持续性地提出挑战。因此,在深度学习领域,对模型进行分布式训练由于能够提升模型的训练速度而有着广泛的需求。
[0003]分布式训练通常采用多台GPU/CPU服务器,通过构建高性能通信网络进行数据分发和模型同步,形成分布式深度学习计算的模式。分布式训练通常有数据并行和模型并行两种方式,其中,数据并行适用于对绝大部分深度学习模型训练进行加速。常见的深度学习框架或平台包括TensorFlow、PyTorch、Apache MXNet都提供了内置方法以支持多GPU、多工作节点的分布式训练。除此之外,还可以通过使用分布式深度学习框架(例如:Horovod)实现模型的分布式训练。
[0004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练深度学习模型的虚拟环境的构建方法,所述方法包括:构建运行预定计算机语言的虚拟环境;在所述虚拟环境中安装分布式处理系统和分布式深度学习框架;在所述虚拟环境中,对运行所述预定计算机语言的执行器和所述分布式深度学习框架对应的令牌文件分别生成统一路径;将所述虚拟环境打包后分发至基于所述分布式处理系统的集群上。2.根据权利要求1所述的方法,其中,对运行所述预定计算机语言的执行器生成统一路径,包括:在所述分布式深度学习框架的第一预定脚本和第二预定脚本中,判断是否存在所述预定计算机语言的执行器对应的第一统一路径;如果不存在,则创建一个所述预定计算机语言的执行器的第一软链接,所述第一软链接指向所述第一统一路径。3.根据权利要求1或2所述的方法,其中,对运行所述预定计算机语言的执行器生成第一统一路径,包括:在所述分布式深度学习框架的第三预定脚本中,将所述预定计算机语言的执行器的路径设置为第一统一路径。4.根据权利要求1至3中任一项所述的方法,其中,对分布式深度学习框架对应的令牌文件生成统一路径,包括:在所述分布式深度学习框架的第一预定脚本和第二预定脚本中,判断是否存在令牌文件对应的第二统一路径;如果不存在,则创建一个所述令牌文件的第二软连接,所述第二软链接指向所述第二统一路径。5.根据权利要求1至4中任一项所述的方法,其中,对分布式深度学习框架对应的令牌文件生成统一路径...

【专利技术属性】
技术研发人员:田董涛
申请(专利权)人:海南车友家信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1