驱动升级方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:34491559 阅读:10 留言:0更新日期:2022-08-10 09:10
本申请提供了一种驱动升级方法、装置、电子设备及可读存储介质,属于驱动升级技术领域。本申请通过,针对多个节点中的任一节点,确定所述节点对应的GPU任务的数量,其中,所述节点为分布式集群管理系统中存在GPU驱动的节点;在多个所述节点中,基于所述GPU任务的数量确定第一节点和所述第一节点对应的第二节点,所述第一节点中的GPU驱动处于待升级状态;确定所述第一节点执行的所有第一GPU任务,并将所有所述第一GPU任务切换至所述第二节点,以使所述第二节点继续执行所有所述第一GPU任务;在将所述第一节点执行的所有所述第一GPU任务切换至所述第二节点后,对所述第一节点对应的GPU驱动进行升级。从而提高GPU驱动升级的效率。效率。效率。

【技术实现步骤摘要】
驱动升级方法、装置、电子设备及可读存储介质


[0001]本申请涉及驱动升级
,尤其涉及一种驱动升级方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着人脸识别、语音识别及自然语言处理等技术的研究和应用,越来越多的人工智能创新研究需要应用GPU(graphics processing unit,图形处理器)进行大规模的数据处理与加速。为了适应不断更新的功能技术,需要不断的升级GPU驱动,以支持新的算法。而升级GPU驱动,会影响所有基于该GPU运行的任务,使这些任务因无法使用GPU而被迫中断。因此,目前在升级GPU驱动时,一般需要等基于该GPU运行的所有任务均运行结束时,再进行GPU驱动的升级。然而,利用上述方式升级GPU驱动效率十分低下,若其中某个任务需要长时间运行,则会导致GPU驱动长时间不能更新,使其它任务无法及时使用新的算法功能。

技术实现思路

[0003]为了解决上述升级GPU驱动效率低下的技术问题,本申请提供了一种驱动升级方法、装置、电子设备及可读存储介质。
[0004]第一方面,提供了一种驱动升级方法,所述方法包括:
[0005]针对多个节点中的任一节点,确定所述节点对应的GPU任务的数量,其中,所述节点为分布式集群管理系统中存在GPU驱动的节点;
[0006]在多个所述节点中,基于所述GPU任务的数量确定第一节点和所述第一节点对应的第二节点,所述第一节点中的GPU驱动处于待升级状态;
[0007]确定所述第一节点执行的所有第一GPU任务,并将所有所述第一GPU任务切换至所述第二节点,以使所述第二节点继续执行所有所述第一GPU任务;
[0008]在将所述第一节点执行的所有所述第一GPU任务切换至所述第二节点后,对所述第一节点对应的GPU驱动进行升级。
[0009]在一个可能的实施方式中,所述在多个所述节点中,基于所述GPU任务的数量确定第一节点,包括:
[0010]通过桶排序算法对多个所述节点进行排序,将目标桶中的节点确定为所述第一节点,所述目标桶中的任一节点对应的GPU任务的数量少于其他桶中的任一节点对应的GPU数量。
[0011]在一个可能的实施方式中,所述在多个所述节点中,基于所述GPU任务的数量确定第一节点,还包括:
[0012]按照所述GPU任务的数量由少到多的顺序,将多个所述节点进行排序,并将排序靠前的预设数量的节点确定为所述第一节点。
[0013]在一个可能的实施方式中,所述在多个所述节点中,基于所述GPU任务的数量确定所述第一节点对应的第二节点,包括:
[0014]在多个所述节点中,将GPU任务的数量小于预设数量阈值的节点确定为第一候选节点,所述预设数量阈值等于节点可同时执行的GPU任务的最大数量;
[0015]在所述第一候选节点中确定所述第二节点,其中,所述第二节点对应的GPU任务的数量与所述第一节点对应的GPU任务的数量的和,小于或等于所述预设数量阈值。
[0016]在一个可能的实施方式中,所述在所述第一候选节点中确定所述第二节点,包括:
[0017]在所述第一候选节点中确定第二候选节点,所述第二候选节点中的GPU驱动处于已升级状态,并在所述第二候选节点中确定所述第二节点。
[0018]在一个可能的实施方式中,所述将所有所述第一GPU任务切换至所述第二节点,包括:
[0019]针对所有所述第一GPU任务中的任一第一GPU任务,在所述第一节点中确定所述第一GPU任务对应的第一任务管理单元,以及,在所述第二节点中创建与所述第一任务管理单元对应的第二任务管理单元;
[0020]将所述第一GPU任务对应的数据流从所述第一任务管理单元切换至所述第二任务管理单元;
[0021]在将所述第一GPU任务对应的数据流从所述第一任务管理单元切换至所述第二任务管理单元之后,删除所述第一任务管理单元。
[0022]在一个可能的实施方式中,所述方法还包括:
[0023]针对多个所述节点中的任一节点,获取所述节点对应的任务管理单元的数量;
[0024]将所述任务管理单元的数量作为所述节点对应的GPU任务的数量,更新至预设的任务数量表中;
[0025]所述确定所述节点对应的GPU任务的数量,包括:
[0026]在所述任务数量表中确定所述节点对应的GPU任务的数量。
[0027]第二方面,提供了一种驱动升级装置,所述装置包括:
[0028]数量确定模块,用于针对多个节点中的任一节点,确定所述节点对应的GPU任务的数量,其中,所述节点为分布式集群管理系统中存在GPU驱动的节点;
[0029]节点确定模块,用于在多个所述节点中,基于所述GPU任务的数量确定第一节点和所述第一节点对应的第二节点,所述第一节点中的GPU驱动处于待升级状态;
[0030]切换模块,用于确定所述第一节点执行的所有第一GPU任务,并将所有所述第一GPU任务切换至所述第二节点,以使所述第二节点继续执行所有所述第一GPU任务;
[0031]升级模块,用于在将所述第一节点执行的所有所述第一GPU任务切换至所述第二节点后,对所述第一节点对应的GPU驱动进行升级。
[0032]在一个可能的实施方式中,所述节点确定模块,具体用于:
[0033]通过桶排序算法对多个所述节点进行排序,将目标桶中的节点确定为所述第一节点,所述目标桶中的任一节点对应的GPU任务的数量少于其他桶中的任一节点对应的GPU数量。
[0034]在一个可能的实施方式中,所述节点确定模块,还用于:
[0035]按照所述GPU任务的数量由少到多的顺序,将多个所述节点进行排序,并将排序靠前的预设数量的节点确定为所述第一节点。
[0036]在一个可能的实施方式中,所述节点确定模块,还用于:
[0037]在多个所述节点中,将GPU任务的数量小于预设数量阈值的节点确定为第一候选节点,所述预设数量阈值等于节点可同时执行的GPU任务的最大数量;
[0038]在所述第一候选节点中确定所述第二节点,其中,所述第二节点对应的GPU任务的数量与所述第一节点对应的GPU任务的数量的和,小于或等于所述预设数量阈值。
[0039]在一个可能的实施方式中,所述节点确定模块,还用于:
[0040]在所述第一候选节点中确定第二候选节点,所述第二候选节点中的GPU驱动处于已升级状态,并在所述第二候选节点中确定所述第二节点。
[0041]在一个可能的实施方式中,所述切换模块,具体用于:
[0042]针对所有所述第一GPU任务中的任一第一GPU任务,在所述第一节点中确定所述第一GPU任务对应的第一任务管理单元,以及,在所述第二节点中创建与所述第一任务管理单元对应的第二任务管理单元;
[0043]将所述第一GPU任务对应的数据流从所述第一任务管理单元切换至所述第二任务管理单元;
[0044]在将所述第一GPU任务对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种驱动升级方法,其特征在于,所述方法包括:针对多个节点中的任一节点,确定所述节点对应的GPU任务的数量,其中,所述节点为分布式集群管理系统中存在GPU驱动的节点;在多个所述节点中,基于所述GPU任务的数量确定第一节点和所述第一节点对应的第二节点,所述第一节点中的GPU驱动处于待升级状态;确定所述第一节点执行的所有第一GPU任务,并将所有所述第一GPU任务切换至所述第二节点,以使所述第二节点继续执行所有所述第一GPU任务;在将所述第一节点执行的所有所述第一GPU任务切换至所述第二节点后,对所述第一节点对应的GPU驱动进行升级。2.根据权利要求1所述的方法,其特征在于,所述在多个所述节点中,基于所述GPU任务的数量确定第一节点,包括:通过桶排序算法对多个所述节点进行排序,将目标桶中的节点确定为所述第一节点,所述目标桶中的任一节点对应的GPU任务的数量少于其他桶中的任一节点对应的GPU数量。3.根据权利要求1所述的方法,其特征在于,所述在多个所述节点中,基于所述GPU任务的数量确定第一节点,包括:按照所述GPU任务的数量由少到多的顺序,将多个所述节点进行排序,并将排序靠前的预设数量的节点确定为所述第一节点。4.根据权利要求1所述的方法,其特征在于,所述在多个所述节点中,基于所述GPU任务的数量确定所述第一节点对应的第二节点,包括:在多个所述节点中,将GPU任务的数量小于预设数量阈值的节点确定为第一候选节点,所述预设数量阈值等于节点可同时执行的GPU任务的最大数量;在所述第一候选节点中确定所述第二节点,其中,所述第二节点对应的GPU任务的数量与所述第一节点对应的GPU任务的数量的和,小于或等于所述预设数量阈值。5.根据权利要求4所述的方法,其特征在于,所述在所述第一候选节点中确定所述第二节点,包括:在所述第一候选节点中确定第二候选节点,所述第二候选节点中的GPU驱动处于已升级状态,并在所述第二候选节点中确定所述第二节点。6.根据权利要求1所述的方法,其特征在于,所述将所有所述第一GPU任务切换至所述第二节点,包括:针对所有所...

【专利技术属性】
技术研发人员:杨静
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1