一种快速屏蔽集群中故障显卡的方法、装置及电子设备制造方法及图纸

技术编号:27771901 阅读:17 留言:0更新日期:2021-03-23 12:50
本发明专利技术属于数据信息处理技术领域,提供一种快速屏蔽集群中故障显卡的方法、装置、电子设备和记录介质,其中方法包括:预先设置显卡故障阈值,对集群中每个显卡发生的故障进行计数;当故障的数量超过预先设置的显卡故障阈值时,对所述显卡进行屏蔽操作。本发明专利技术通过对每个显卡的故障进行计数,及时屏蔽故障显卡,将发往故障显卡请求转移到其他显卡,从而保证了系统的稳定性,提高了用户使用体验和满意度。

【技术实现步骤摘要】
一种快速屏蔽集群中故障显卡的方法、装置及电子设备
本专利技术属于数据信息处理
,特别适用于人工智能中的实时数据信息处理,更具体的是涉及一种快速屏蔽集群中故障显卡的方法、装置及电子设备。
技术介绍
随着互联网技术和人工智能技术的发展,在线服务中越来越多的使用人工智能对数据信息进行处理。目前人工智能需要处理的数据信息量非常庞大,由于架构设计的不同,在浮点运算能力方面显卡远远高于中央处理器,因此通常使用显卡来对数据进行处理。随着业务的扩展,后期需要增加大量的显卡来对人工智能的运算进行支持。但显卡由于经常高负荷运算存在稳定性差的问题,经常会出现故障无法对数据进行处理,如果屏蔽不及时会导致大量业务请求处理失败,给用户带来非常不好的体验。
技术实现思路
(一)要解决的技术问题本专利技术旨在解决现有使用人工智能的在线服务中无法快速屏蔽故障显卡,导致业务请求处理失败,给用户体验不好的问题。(二)技术方案为解决上述技术问题,本专利技术的一方面提出一种快速屏蔽集群中故障显卡的方法,包括:预先设置显卡故障阈值,对集群中每个显卡发生的故障进行计数;当故障的数量超过预先设置的显卡故障阈值时,对所述显卡进行屏蔽操作。根据本专利技术的优选实施方式,所述显卡为物理显卡,采用进程间通信对每个显卡的故障进行计数。根据本专利技术的优选实施方式,所述进行间通信为共享内存通信方式。根据本专利技术的优选实施方式,对集群中每个显卡发生的故障进行计数具体为:<br>收到显卡返回的请求处理失败的消息则该显卡的故障计数加1;如果返回的是请求处理成功的消息则该显卡的故障计数减1。根据本专利技术的优选实施方式,对所述显卡进行屏蔽操作具体为,屏蔽该显卡的地址,将发送到该显卡的业务请求转发到其他显卡。根据本专利技术的优选实施方式,设置显卡屏蔽时长,如果在显卡屏蔽时长内对显卡执行屏蔽操作,当时间长度超过显卡屏蔽时长则允许向该显卡发送业务请求。本专利技术第二方面提出一种快速屏蔽集群中故障显卡的装置,包括:故障计数模块,预先设置显卡故障阈值,对集群中每个显卡发生的故障进行计数;显卡屏蔽模块,当故障的数量超过预先设置的显卡故障阈值时,对所述显卡进行屏蔽操作。根据本专利技术的优选实施方式,所述显卡为物理显卡,采用进程间通信对每个显卡的故障进行计数。根据本专利技术的优选实施方式,所述进行间通信为共享内存通信方式。根据本专利技术的优选实施方式,对集群中每个显卡发生的故障进行计数具体为:收到显卡返回的请求处理失败的消息则该显卡的故障计数加1;如果返回的是请求处理成功的消息则该显卡的故障计数减1。根据本专利技术的优选实施方式,对所述显卡进行屏蔽操作具体为,屏蔽该显卡的地址,将发送到该显卡的业务请求转发到其他显卡。根据本专利技术的优选实施方式,设置显卡屏蔽时长,如果在显卡屏蔽时长内对显卡执行屏蔽操作,当时间长度超过显卡屏蔽时长则允许向该显卡发送业务请求。本专利技术第三方面提出一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述的方法。本专利技术第四方面还提出一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的方法。(三)有益效果本专利技术通过对每个显卡的故障进行计数,及时屏蔽故障显卡,将发往故障显卡请求转移到其他显卡,从而保证了系统的稳定性,提高了用户使用体验和满意度。附图说明图1是本专利技术实施例所提供的任务处理系统的场景示意图;图2是本专利技术的一个实施例的一种快速屏蔽集群中故障显卡的方法流程示意图;图3是本专利技术的一个实施例的客户端业务请求处理流程的流程示意图;图4是本专利技术的一个实施例的客户端检测显卡是否可用的流程示意图;图5是本专利技术的一个实施例的一种快速屏蔽集群中故障显卡的装置结构示意图;图6是本专利技术的一个实施例的电子设备的结构示意图;图7是本专利技术的一个实施例的计算机可读记录介质的示意图。具体实施方式在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本专利技术。附图中的流程图仅是一种示例性的流程演示,不代表本专利技术的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本专利技术的专利技术主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本专利技术实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。近年来,由于人工智能(AI)和图像处理的发展越来越快速,因此对基于显卡的计算系统的要求也日益提高,计算系统需要能够处理不同大小的任务请求并且能够在忙或不忙状态下均能够高效地处理任务。显卡又称为GPU、显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。用途是将计算机系统所需要的显示信息进行转换驱动,并向显示器提供行扫描信号,控制显示器的正确显示,是连接显示器和个人电脑主板的重要元件。由于显卡在处理浮点运算的能力上远远高于中央处理器CPU,所以现在人工智能、机器学习需要大量运算的场景都通过显卡来进行运算,运算效率远远高于中央处理器CPU,逐渐成为人工智能中不可缺少的设备。图1为本申请实施例所提供的任务处理系统的场景示意图,如图1所示,任务处理系统中包括多个服务器101、102、…、1XX,每个服务器上设置有多个显卡,在本实施方式中每个服务器上设置有8个显卡,在其他实施方式中也可以设置2个显卡或4个显卡。系统包括多个客户端201、202、…、2XX,其中客户端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制。在本实施方式本文档来自技高网...

【技术保护点】
1.一种快速屏蔽集群中故障显卡的方法,其特征在于:/n预先设置显卡故障阈值,对集群中每个显卡发生的故障进行计数;/n当故障的数量超过预先设置的显卡故障阈值时,对所述显卡进行屏蔽操作。/n

【技术特征摘要】
1.一种快速屏蔽集群中故障显卡的方法,其特征在于:
预先设置显卡故障阈值,对集群中每个显卡发生的故障进行计数;
当故障的数量超过预先设置的显卡故障阈值时,对所述显卡进行屏蔽操作。


2.如权利要求1所述的快速屏蔽集群中故障显卡的方法,其特征在于,所述显卡为物理显卡,采用进程间通信对每个显卡的故障进行计数。


3.如权利要求2所述的快速屏蔽集群中故障显卡的方法,其特征在于,所述进行间通信为共享内存通信方式。


4.如权利要求3所述的快速屏蔽集群中故障显卡的方法,其特征在于,对集群中每个显卡发生的故障进行计数具体为:
收到显卡返回的请求处理失败的消息则该显卡的故障计数加1;
如果返回的是请求处理成功的消息则该显卡的故障计数减1。


5.如权利要求4所述的快速屏蔽集群中故障显卡的方法,其特征在于,对所述显卡进行屏蔽操作具体为,屏蔽该显卡的地址,将发送到该显卡的业务请求转发到其他显卡。


6.如权利要求5所述的快速屏蔽集群中故障显卡的方法,其特征在于,设置显卡屏蔽时长,如果在显卡屏蔽时长内对显卡执行屏蔽操作,当时间长度超过显卡屏蔽时长则允许向该显卡发送业务请求。


7.一种快速屏蔽集群中故障显卡的装...

【专利技术属性】
技术研发人员:程童张浩然吕亚霖王岩
申请(专利权)人:作业帮教育科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1