【技术实现步骤摘要】
数据处理装置集群的管理系统和控制方法
[0001]本申请涉及数据处理
,尤其涉及数据处理装置集群的管理系统和控制方法。
技术介绍
[0002]数据处理装置组合成集群,每一个数据处理装置都能够完成一定的数据处理任务,因此,数据处理装置集群能够完成复杂的数据处理任务。
[0003]在数据处理装置集群中,数据处理装置例如可以是:中央处理器(CPU)或图形处理器(GPU)等。
[0004]应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
技术实现思路
[0005]具有高可靠性的数据处理装置集群能够高质量地完成数据处理任务,从而最大程度上发挥数据处理装置集群的优势。因此,如何不断提高数据处理装置集群的可靠性,是一个需要解决的问题。
[0006]为了解决至少上述技术问题或类似的技术问题,本申请实施例提供一种数据处理装置集群的管理系 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理装置集群的管理系统,其特征在于,所述管理系统包括:通信分发装置,其接收远端设备的任务,并分发任务;以及管理卡,其与所述通信分发装置连接,接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务。2.如权利要求1所述的管理系统,其特征在于,所述通信分发装置包括:第一通信模块,其与所述管理卡和所述远端设备通信;第一分发规则模块,其存储第一分发规则;以及负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一折,设置为所述管理卡分发的任务,其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置。3.如权利要求2所述的管理系统,其特征在于,所述第一通信模块还与所述管理卡所管理的所述数据处理装置通信,其中,所述第一通信模块将从所述管理卡和/或所述数据处理装置接收的第一预定信息发送给所述远端设备,和/或,所述第一通信模块将从所述远端设备收到的第二预定信息发送给所述管理卡和/或所述数据处理装置。4.如权利要求2所述的管理系统,其特征在于,所述第一分发规则模块还根据所述数据处理装置的负载,调整所述第一分发规则。5.如权利要求2所述的管理系统,其特征在于,所述通信分发装置还包括:第一状态监控模块,其监控所述管理卡的状态,所述状态包括负载状态,异常状态和在位状态中的至少一者。6.如权利要求5所述的管理系统,其特征在于,所述第一状态监控模块还具有如下功能:监控所述通信分发装置的状态;和/或对所述通信分发装置的异常进行处理;和/或对所述管理卡和/或所述数据处理装置的异常进行处理。7.如权利要求1所述的管理系统,其特征在于,所述管理卡包括:第二通信模块,其与所述通信分发装置和所述数据处理装置通信;分发切换规则模块,其存储第二分发规则;以及任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。8.如权利要求7所述的管理系统,其特征在于,所述任务分发模块不向异常状态的所述数据处理装置设置任务,所述异常状态包括:所述数据处理装置下线,所述数据处理装置失效,或者所述数据处
理装置重启。9.如权利要求7所述的管理系统,其特征在于,在所述管理卡处于异常状态时,所述任务分发模块不向所述数据处理装置下发任务,所述异常状态包括:所述管理卡下线,所述管理卡失效,或者所述管理卡重启。10.如权利要求7所述的管理系统,其特征在于,所述分发切换规则模块还存储切换规则,在所述管理卡失效时,失效的所述管理卡所管理的数据处理装置基于所述切换规则选择接管所述数据处理装置的其他管理卡,其中,所述切换规则由所述远端设备、所述通信分发装置以及所述分发切换规则模块中的至少一者配置。11.如权利要求7所述的管理系统,其特征在于,所述管理卡还包括:失效切换模块,其控制所述管理卡接管失效的管理卡的任务以及所述失效的管理卡所管理的数据处理装置;以及回切模块,在所述失效的管理卡的功能恢复后,使属于所述失效的管理卡所管理的数据处理装置切换为由第一管理卡进行管理。12.如权利要求11所述的管理系统,其特征在于,在所述管理卡收到回切请求和第一恢复通知中的至少一者的情况下,所述回切模块还使所述管理卡停止向属于所述失效的管理卡所管理的数据处理装置下发任务。13.如权利要求12所述的管理系统,其特征在于,在属于所述失效的管理卡所管理的数据处理装置的任务结束后,所述回切模块使所述管理卡向属于所述失效的管理卡所管理的数据处理装置下发回切命令,使属于所述失效的管理卡所管理的数据处理装置切换为由所述第一管理卡进行管理。14.如权利要求7所述的管理系统,其特征在于,所述管理卡还包括:查询模块,在所述管理卡从失效状态恢复为正常状态后,所述查询模块确认所述管理卡失去管理的数据处理装置。15.如权利要求7所述的管理系统,其特征在于,所述管理卡还包括:复位模块,其与其它管理卡连接,用于恢复或复位失效的所述其它管理卡;以及状态监控及修复模块,其中,所述状态监控及修复模块具有如下功能:监控所述管理卡的状态和/或所述管理卡所管理的数据处理装置的状态;和/或修复失效的所述数据处理装置;和/或对所述管理卡自身的故障进行修复。16.如权利要求1所述的管理系统,其特征在于,所述管理卡具有数据处理装置的功能。17.一种数据处理装置集群的控制方法,其特征在于,所述控制方法包括:通信分发装置接收远端设备的任务,并分发任务;以及
与所述通信分发装置连接的管理卡接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务。18.一种数据处理装置集群的控制方法,应用于管理卡,其特征在于,所述控制方法包括:所述管理卡接收选主信息,所述选主信息用于请求所述管理卡接管失效的管理卡所管理的数据处理装置; 以及所述管理卡基于接收到的选主信息,或者所述选主信息与存储的切换规则,接管失效的管理卡的任务以及所述失效的管理卡所管理的数据处理装置。19.如权利要求18所述的控制方法,其特征在于,所述控制方法还包括:所述管理卡接收所述失效的管理卡所管理的数据处理装置发送的第一指示信息,所述第一指示信息用于指示所述失效的管理卡有关的信息。20.如权利要求18所述的控制方法,其特征在于,所述管理卡在具有接管能力的情况下,进行所述接管;和/或所述管理卡在不具有接管能力的情况下,向所述失效的管理卡所管理的数据处理装置发送拒绝接管应答。21.如权利要求18所述的控制方法,其特征在于,所述管理卡向通信分发装置和/或远端设备发送与所述失效的管理卡有关的信息。22.如权利要求18所述的控制方法,其特征在于,所述管理卡接收所述失效的管理卡所管理的数据处理装置发送的任务处理结果;以及向远端设备发送所述任务处理结果。23.如权利要求18所述的控制方法,其特征在于,所述...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:摩尔线程智能科技成都有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。