【技术实现步骤摘要】
【国外来华专利技术】行星规模计算机的透明抢占和迁移
技术介绍
[0001]人工智能
(AI)
创新以高度可缩放
、
高性能
、
稳健且技术高效的
AI
基础设施为基础
。
逐步扩展现有的通用基础设施即服务
(IaaS)
和基于云的环境的当前方法具有很大的局限性,因为
AI
工作负载根本上是不同的并且需要专门构建的
AI
基础设施
。
管理当前基础设施的细节给试图加速
AI
算法创新的数据科学家带来了巨大的挑战
。
[0002]如今,
AI
计算领域日益流行的计算趋势是深度学习
(DL)
领域
。DL
已经对广泛用于语音和图像识别的个人产品产生了重大影响,并且具有影响企业的巨大潜力
。DL
作业表示尤其是云数据中心中的重要且不断增长的计算工作负载集
。
但是,与大多数
AI
模型一样,
DL />作业是计算密集型本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.
一种用于在云计算环境中的一个节点处提供深度学习训练
(DLT)
作业的检查点化
、
并且在不同节点上从检查点化状态复原所述
DLT
作业的方法,所述方法包括:捕获在所述
DLT
作业上执行的图形处理单元
(GPU)
的
GPU
状态,其中,所述
GPU
状态包括
GPU
数据,所述
GPU
数据包括在检查点化时位于所述
GPU
中的模型参数和优化器状态;捕获在所述
DLT
作业上执行的中央处理单元
(CPU)
的
CPU
状态;使用所述
GPU
状态和所述
CPU
状态将所述
DLT
作业以所述检查点化状态迁移到所述不同节点;以及在所述不同节点上从所述检查点化状态发起所述
DLT
作业的处理的复原
。2.
根据权利要求1所述的方法,还包括:捕获在原始节点上所述
DLT
作业的处理期间是活动的
GPU
存储器的部分,所述
GPU
存储器的所述部分包含所述模型参数
。3.
根据权利要求1‑2中任一项所述的方法,还包括:分别在不同于所述
GPU
和所述
CPU
的第二
GPU
和第二
CPU
上复原所述
DLT
作业
。4.
根据权利要求1‑3中任一项所述的方法,还包括:保存与所述
DLT
作业相关联的程序状态;以及通过将控制流切换到所述程序状态来复原另一节点上的所述
DLT
作业
。5.
根据权利要求1‑4中任一项所述的方法,还包括:将
GPU
相关活动隔离到单独的代理进程中,所述单独的代理进程具有与所述
GPU
不同的地址空间;以及在与所述
CPU
相关联的主进程中计算所述
DLT
作业,其中,所述代理进程是跨检查点无状态的,将临时的
GPU
相关映射隔离到所述代理进程的所述地址空间
。6.
根据权利要求1‑5中任一项所述的方法,还包括:建立屏障,其中,主进程地址空间保持没有任何
GPU
相关状态
。7.
根据权利要求5所述的方法,还包括:引导代理服务器从共享存储器中读取
GPU
函数调用参数,并且在所述代理进程的地址空间中执行对应的
GPU
函数调用;以及通过所述共享存储器将返回值运送回代理客户端
。8.
根据权利要求1‑7中任一项所述的方法,还包括:使用
GPU
相关调用上的动态库插入将所述
DLT
作业的
GPU
相关活动移动至单独的地址空间,其中,所述
GPU
相关调用在所述主进程中由代理进程的客户端拦截,所述代理进程的所述客户端对所述
GPU
函数调用参数序列化并且将所述
GPU
函数调用参数写入到共享存储器中
。9.
根据权...
【专利技术属性】
技术研发人员:M,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。