【技术实现步骤摘要】
【国外来华专利技术】用于错误恢复的系统和方法
技术介绍
[0001]本公开涉及一种计算。更具体地,本公开涉及用于人工智能处理中的错误恢复的技术。
[0002]人工智能(AI)处理通常包括将AI模型(例如,神经网络模型)中的一些或全部加载到一个或多个处理器上。数据集被应用于AI模型的输入,并且输出被生成。对于推理,输出可以与输入数据集的特定特征的分类或识别相对应。对于训练,输出与输入数据的已知输出进行比较,并且错误被反向传播通过模型,并且模型的参数被调节。对于大型模型和数据集,处理可以跨多个处理器被划分以更快地获得结果。
[0003]这样的系统的一个问题是当多处理器系统的一个节点遇到错误时。在很多情况下,重新启动计算可能要求不得不重新计算大量数据。
附图说明
[0004]本公开的各种实施例在附图的图中通过示例而非限制的方式进行说明。
[0005]图1图示了根据实施例的多处理器计算环境中的错误恢复。
[0006]图2图示了根据实施例的从多处理器计算环境中的处理器错误恢复的方法。
[0007]图3图示了根据实施例的在多处 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种系统,包括:多个人工智能处理器;一个或多个控制器;以及存储器,所述存储器上存储有由所述一个或多个控制器和所述多个人工智能处理器可执行的程序代码,所述程序代码使所述系统:在来自数据集的数据的第一处理迭代期间检测多个人工智能处理器中的第一人工智能处理器中的计算错误;消除来自所述第一人工智能处理器的所述错误;以及在所述人工智能处理器中的包括所述第一人工智能处理器的一个或多个人工智能处理器加载模型,其中所述模型与在来自所述数据集的所述数据的所述第一处理迭代期间由所述多个人工智能处理器处理的相同模型相对应。2.根据权利要求1所述的系统,其中除了所述第一人工智能处理器以外的所述多个人工智能处理器在所述第一人工智能处理器消除所述错误时等待,并且其中所述多个处理器在下一处理迭代中使用从在所述第一处理迭代中使用的所述相同模型而生成的第二相同模型同时处理来自所述数据集的数据。3.根据权利要求1所述的系统,其中所述计算错误在所述第一处理迭代的结果聚合阶段期间被检测,并且其中所述多个人工智能处理器的至少一部分等待所述第一人工智能处理器在完成所述结果聚合阶段之前在所述聚合阶段期间产生有效结果。4.根据权利要求3所述的系统,其中所述第一人工智能处理器向所述多个人工智能处理器的所述至少一部分发送无效结果指示符以触发所述等待。5.根据权利要求3所述的系统,其中所述结果聚合阶段是全规约。6.根据权利要求1所述的系统,其中所述加载所述模型包括在包括所述第一人工智能处理器的所述一个或多个人工智能处理器加载所述模型的不同部分,所述方法还包括在包括所述第一人工智能处理器的所述多个人工智能处理器中处理由所述第一人工智能处理器在所述第一处理迭代中接收的所述数据的第一部分。7.根据权利要求1所述的系统,其中所述加载所述模型...
【专利技术属性】
技术研发人员:B,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。