一种异常恢复方法和服务器技术

技术编号:23983003 阅读:35 留言:0更新日期:2020-04-29 12:12
本发明专利技术实施例提供了一种异常恢复方法和服务器,在确定多个目标执行器针对训练数据集执行训练任务的情况下,分别检测所述多个目标执行器对消息队列中的样本数据的读取速度;根据所述读取速度确定所述多个目标执行器的平均读取速度;根据所述平均读取速度确定所述多个目标执行器中是否存在读取速度异常的异常执行器;若存在所述异常执行器,则停止所述异常执行器的训练任务,并采用备选执行器继续执行训练任务。在上述方法中,可以实时检测在线训练过程中目标执行机出现的异常情况,并可利用备选执行机继续执行训练任务,降低了训练的失败率,使得深度学习模型可以及时对发生的事件进行预测,提高了预测时效性。

An abnormal recovery method and server

【技术实现步骤摘要】
一种异常恢复方法和服务器
本专利技术涉及深度学习领域,特别是涉及一种异常恢复方法和服务器。
技术介绍
深度学习模型为了达到比较高的时效性,通常会进行实时的在线训练,让模型实时读取最新的数据样本进行训练,可以很好的对实时发生的事件进行预测。例如,谷歌的Tensorflow(多维数组基于数据流图的计算)深度学习模型可以通过实时读取数据集来进行深度学习。当深度学习的训练数据太多的时候,Tensorflow会通过分布式训练的方式来启动多个执行器同时读取训练数据进行训练,进而加快了训练速度。然而,在线训练不同于离线训练,它对于训练的持久性和可靠性都有比较高的要求。在实际的环境下,分布式训练的多个执行器中难免会存在出现问题的执行机,从而导致整个训练任务失败,只能重新开启训练任务,导致在线训练的模型无法对发生的事件进行实时预测,失去了预测的时效性。由此可见,目前深度学习模型的在线训练失败率较高,对事件预测的时效性较差。
技术实现思路
本专利技术实施例的目的在于提供一种异常恢复方法和服务器,以实现解决深度学习模型的在线训练失败率较高,对事件预测的时效性较差的问题。具体技术方案如下:在本专利技术实施的第一方面,首先提供了一种异常恢复方法,所述方法包括:在确定多个目标执行器针对训练数据集执行训练任务的情况下,分别获取所述多个目标执行器对消息队列中的样本数据的读取速度;根据所述读取速度确定所述多个目标执行器的平均读取速度;根据所述平均读取速度确定所述多个目标执行器中是否存在读取速度异常的异常执行器;若存在所述异常执行器,则停止所述异常执行器的训练任务,并采用备选执行器继续执行训练任务。可选地,所述多个目标执行器中包括第一目标执行器,所述第一目标执行器用于执行训练任务并保存检查点信息,所述方法还包括:检测所述第一目标执行器保存检查点信息的进度是否存在异常;所述检查点信息为所述第一目标执行器从目标参数器中获取的;若所述第一目标执行器保存检查点信息的进度存在异常,则暂停所述第一目标执行器和所述多个目标执行器的训练任务;确定备选第一目标执行器,采用所述备选第一目标执行器和所述多个目标执行器继续执行训练任务,并采用所述第一目标执行器继续保存检查点信息。可选地,所述检测所述第一目标执行器保存检查点信息的进度是否存在异常,包括:记录所述第一目标执行器向服务器开始发送检查点信息的第一时间点,并记录所述第一目标执行器发送完成所述检查点信息的第二时间点;根据所述第二时间点和所述第一时间点之间的差值确定第一数据延迟时间;若所述第一数据延迟时间大于或等于第一阈值,则确定所述第一目标执行器保存检查点信息的进度存在异常。可选地,所述根据所述平均读取速度确定所述多个目标执行器中是否存在读取速度异常的异常执行器,包括:分别确定每个所述目标执行器的读取速度与所述平均读取速度的差值的绝对值,得到绝对差值;将所述绝对差值大于或等于第二阈值的目标执行器确定为读取速度异常的异常执行器。可选地,所述方法还包括:检测所述目标参数器是否存在异常;所述目标参数器用于保存所述多个目标执行器返回的参数信息,所述参数信息为所述目标执行器根据当前训练更新的模型梯度信息;若所述目标参数器存在异常,则将所述目标参数器已保存的参数信息转存到备选参数器,并采用所述备选参数器保存所述多个目标执行器后续返回的参数信息。可选地,所述检测所述目标参数器是否存在异常,包括:检测所述目标参数器的内存使用率;若所述内存使用率大于或等于第三阈值,则确定所述目标参数器存在异常。可选地,所述检测所述目标参数器是否存在异常,包括:记录所述目标执行器向所述目标参数器上报已更新的参数信息的第三时间点,并记录所述目标参数器根据所述已更新的参数信息更新所述目标参数器中的参数信息的第四时间点;根据所述第三时间点和所述第四时间点之间的差值确定第二数据延迟时间;若所述第二数据延迟时间大于或等于第四阈值,则确定所述目标参数器存在异常。在本专利技术实施的第二方面,还提供了一种服务器,所述服务器包括:读取速度确定模块,用于在确定多个目标执行器针对训练数据集执行训练任务的情况下,分别获取所述多个目标执行器对消息队列中的样本数据的读取速度;平均读取速度确定模块,用于根据所述读取速度确定所述多个目标执行器的平均读取速度;异常执行器确定模块,用于根据所述平均读取速度确定所述多个目标执行器中是否存在读取速度异常的异常执行器;继续执行模块,用于若存在所述异常执行器,则停止所述异常执行器的训练任务,并采用备选执行器继续执行训练任务。可选地,所述多个目标执行器中包括第一目标执行器,所述第一目标执行器用于执行训练任务并保存检查点信息,所述服务器还包括:进度异常检测模块,用于检测所述第一目标执行器保存检查点信息的进度是否存在异常;所述检查点信息为所述第一目标执行器从目标参数器中获取的;训练任务暂停模块,用于若所述第一目标执行器保存检查点信息的进度存在异常,则暂停所述第一目标执行器和所述多个目标执行器的训练任务;备选执行器确定模块,用于确定备选第一目标执行器,采用所述备选第一目标执行器和所述多个目标执行器继续执行训练任务,并采用所述第一目标执行器继续保存检查点信息。可选地,所述进度异常检测模块包括:第一记录子模块,用于记录所述第一目标执行器向服务器开始发送检查点信息的第一时间点,并记录所述第一目标执行器发送完成所述检查点信息的第二时间点;第一延迟时间确定子模块,用于根据所述第二时间点和所述第一时间点之间的差值确定第一数据延迟时间;第一异常确定模块,用于若所述第一数据延迟时间大于或等于第一阈值,则确定所述第一目标执行器保存检查点信息的进度存在异常。可选地,所述异常执行器确定模块包括:绝对差值确定子模块,用于分别确定每个所述目标执行器的读取位置与所述平均读取位置的差值的绝对值,得到绝对差值;第二异常确定子模块,用于将所述绝对差值大于或等于第二阈值的目标执行器确定为读取速度异常的异常执行器。可选地,所述服务器还包括:参数器异常检测模块,用于检测所述目标参数器是否存在异常;所述目标参数器用于保存所述多个目标执行器返回的参数信息,所述参数信息为所述目标执行器根据当前训练更新的模型梯度信息;转存模块,用于若所述目标参数器存在异常,则将所述目标参数器已保存的参数信息转存到备选参数器,并采用所述备选参数器保存所述多个目标执行器后续返回的参数信息。可选地,所述参数器异常检测模块包括:内存检测子模块,用于检测所述目标参数器的内存使用率;参数器异常确定子模块,用于若所述内存使用率大于或等于第三阈值,则确定所述目标参数器存在异常。可选地,所述参数器异常检测模块包括:第二记录子模块,用于记录所述目标执行器向所述本文档来自技高网...

【技术保护点】
1.一种异常恢复方法,其特征在于,所述方法包括:/n在确定多个目标执行器针对训练数据集执行训练任务的情况下,分别获取所述多个目标执行器对消息队列中的样本数据的读取速度;/n根据所述读取速度确定所述多个目标执行器的平均读取速度;/n根据所述平均读取速度确定所述多个目标执行器中是否存在读取速度异常的异常执行器;/n若存在所述异常执行器,则停止所述异常执行器的训练任务,并采用备选执行器继续执行训练任务。/n

【技术特征摘要】
1.一种异常恢复方法,其特征在于,所述方法包括:
在确定多个目标执行器针对训练数据集执行训练任务的情况下,分别获取所述多个目标执行器对消息队列中的样本数据的读取速度;
根据所述读取速度确定所述多个目标执行器的平均读取速度;
根据所述平均读取速度确定所述多个目标执行器中是否存在读取速度异常的异常执行器;
若存在所述异常执行器,则停止所述异常执行器的训练任务,并采用备选执行器继续执行训练任务。


2.根据权利要求1所述的方法,其特征在于,所述多个目标执行器中包括第一目标执行器,所述第一目标执行器用于执行训练任务并保存检查点信息,所述方法还包括:
检测所述第一目标执行器保存检查点信息的进度是否存在异常;所述检查点信息为所述第一目标执行器从目标参数器中获取的;
若所述第一目标执行器保存检查点信息的进度存在异常,则暂停所述第一目标执行器和所述多个目标执行器的训练任务;
确定备选第一目标执行器,采用所述备选第一目标执行器和所述多个目标执行器继续执行训练任务,并采用所述第一目标执行器继续保存检查点信息。


3.根据权利要求2所述的方法,其特征在于,所述检测所述第一目标执行器保存检查点信息的进度是否存在异常,包括:
记录所述第一目标执行器向服务器开始发送检查点信息的第一时间点,并记录所述第一目标执行器发送完成所述检查点信息的第二时间点;
根据所述第二时间点和所述第一时间点之间的差值确定第一数据延迟时间;
若所述第一数据延迟时间大于或等于第一阈值,则确定所述第一目标执行器保存检查点信息的进度存在异常。


4.根据权利要求1所述的方法,其特征在于,所述根据所述平均读取速度确定所述多个目标执行器中是否存在读取速度异常的异常执行器,包括:
分别确定每个所述目标执行器的读取速度与所述平均读取速度的差值的绝对值,得到绝对差值;
将所述绝对差值大于或等于第二阈值的目标执行器确定为读取速度异常的异常执行器。


5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
检测所述目标参数器是否存在异常;...

【专利技术属性】
技术研发人员:张俊钦
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1