故障处理的方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:34495634 阅读:12 留言:0更新日期:2022-08-10 09:15
本申请涉及互联网产业的电数字数据处理领域,公开了一种故障处理的方法、装置、计算机设备和存储介质。其中方法包括:响应于检测到数据处理器中的嵌入式处理器出现故障,进入代答模式,代答模式包括向计算机主机发送热插拔中断信号,以使计算机主机与嵌入式处理器故障隔离,热插拔中断信号用于指示嵌入式处理器执行了热插拔操作;响应于检测到嵌入式处理器修复完成,向计算机主机发送热插信号,退出代答模式,以完成故障恢复,热插信号用于指示嵌入式处理器执行了热插操作。实施本申请实施例,可以有效实现故障隔离,无需对计算机主机进行重启,可以最大限度减少对计算机主机的影响,从而可以保证计算机主机的正常运行。从而可以保证计算机主机的正常运行。从而可以保证计算机主机的正常运行。

【技术实现步骤摘要】
故障处理的方法、装置、计算机设备和存储介质


[0001]本申请涉及互联网产业的电数字数据处理领域,尤其涉及一种故障处理的方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着数据中心的高速发展,通信能力和计算能力成为数据中心基础设施的相辅相成的两个重要发展方向。若数据中心仅关注计算能力的提升,通信基础设施的提升跟不上,那么数据中心的整体系统性能依然受限,无法发挥出真正的潜力。为了应对日益庞大且复杂的数据量,数据处理器(data processing unit,DPU)应运而生。
[0003]数据处理器定位于协同处理单元,是数据面与控制面分离思想的一种实现,其与中央处理器(central processing unit,CPU)协作配合,后者负责通用控制,前者专注于数据处理。也就是说,数据处理器可以将数据处理/预处理从中央处理器卸载,同时将算力分布在更靠近数据发生的地方,从而降低通信量。由于数据处理器需要将计算移至接近数据的位置,这也意味着对数据处理器的可靠性和可用性提出了更高的要求。为了满足网络对大数据传输的需求,数据处理器需要用到高速串行计算机扩展总线标准(peripheral component interconnect express,PCIe)接口做数据传输。因此,数据处理器通常会涉及PCIe设备的故障,需要数据处理器系统协助PCIe设备进行故障恢复。
[0004]目前,数据处理器会在嵌入式处理器(embedded central processing unit,ECPU)端模拟出PCIe设备,主机的PCIe相关的处理层数据包(transaction layer pocket,TLP)都会转发到嵌入式处理器处理。这意味着当嵌入式处理器的PCIe模拟程序或者系统本身出现故障时,可能会出现如下两种情形:一是影响主机用户业务,甚至会导致主机挂死;二是恢复数据处理器需要重启主机,导致正在运行的所有程序中断。因此,如何进行故障隔离,从而不影响用户业务处理,是本领域技术人员需要解决的问题。

技术实现思路

[0005]本申请实施例提供了一种故障处理的方法、装置、计算机设备和存储介质,可以有效实现故障隔离,无需对计算机主机进行重启,可以最大限度减少对计算机主机的影响,从而可以保证计算机主机的正常运行。
[0006]第一方面,本申请实施例提供了一种故障处理的方法,应用于可编程逻辑器件,其中:响应于检测到数据处理器中的嵌入式处理器出现故障,所述可编程逻辑器件进入代答模式,所述代答模式包括向计算机主机发送热插拔中断信号,以使所述计算机主机与所述嵌入式处理器故障隔离,所述热插拔中断信号用于指示所述嵌入式处理器执行了热插拔操作;响应于检测到所述嵌入式处理器修复完成,所述可编程逻辑器件向所述计算机主机发送热插信号,退出所述代答模式,以完成故障恢复,所述热插信号用于指示所述嵌入式
处理器执行了热插操作。
[0007]第二方面,本申请实施例提供了一种故障处理的装置,应用于可编程逻辑器件,其中:故障隔离单元,用于响应于检测到数据处理器中的嵌入式处理器出现故障,所述可编程逻辑器件进入代答模式,所述代答模式包括向计算机主机发送热插拔中断信号,以使所述计算机主机与所述嵌入式处理器故障隔离,所述热插拔中断信号用于指示所述嵌入式处理器执行了热插拔操作;故障恢复单元,用于响应于检测到所述嵌入式处理器修复完成,所述可编程逻辑器件向所述计算机主机发送热插信号,退出所述代答模式,以完成故障恢复,所述热插信号用于指示所述嵌入式处理器执行了热插操作。
[0008]第三方面,本申请实施例提供了一种计算机设备,包括处理器、存储器和通信接口,其中,所述存储器存储有计算机程序,所述计算机程序被配置由所述处理器执行,所述计算机程序包括用于如本申请实施例第一方面中所描述的部分或全部步骤的指令。
[0009]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
[0010]实施本申请实施例,将具有如下有益效果:采用上述的故障处理的方法、装置、计算机设备和存储介质,在检测到数据处理器中的嵌入式处理器出现故障之后,可编程逻辑器件可以进入代答模式,通过向计算机主机发送热插拔中断信号,该热插拔中断信号用于指示嵌入式处理器执行了热插拔操作,以断开计算机主机与嵌入式处理器的通信,简单高效地完成了故障隔离。如此,可以避免传统技术方案中,一旦嵌入式处理器出现故障,必须对计算机主机进行重启,导致正在运行的所有程序中断的问题,从而最大限度减少对计算机主机的影响,保证了计算机主机的正常运行。在检测到嵌入式处理器修复完成之后,可编程逻辑器件向计算机主机发送热插信号,该热插信号用于指示嵌入式处理器执行了热插操作,并退出代答模式,使得计算机主机与嵌入式处理器重新通信,从而快速完成故障恢复,提高了故障处理的效率。此外,本申请实施例不需要BMC系统、管控平台等外部工具的参与,可以减少依赖程度,可靠性也更高。
附图说明
[0011]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以基于这些附图获得其他的附图。其中:图1为本申请实施例提供的一种系统架构示意图;图2为本申请实施例提供的一种故障处理的方法的流程示意图;图3为本申请实施例提供的一种故障处理的装置的结构示意图;图4为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0012]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0013]本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“预设”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0014]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0015]还应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障处理的方法,应用于可编程逻辑器件,其特征在于,包括:响应于检测到数据处理器中的嵌入式处理器出现故障,所述可编程逻辑器件进入代答模式,所述代答模式包括向计算机主机发送热插拔中断信号,以使所述计算机主机与所述嵌入式处理器故障隔离,所述热插拔中断信号用于指示所述嵌入式处理器执行了热插拔操作;响应于检测到所述嵌入式处理器修复完成,所述可编程逻辑器件向所述计算机主机发送热插信号,退出所述代答模式,以完成故障恢复,所述热插信号用于指示所述嵌入式处理器执行了热插操作。2.根据权利要求1所述的方法,其特征在于,所述可编程逻辑器件包括状态寄存器,在所述响应于检测到数据处理器中的嵌入式处理器出现故障,所述可编程逻辑器件进入代答模式之前,还包括:所述可编程逻辑器件获取所述状态寄存器的寄存器信息,所述寄存器信息用于记录所述嵌入式处理器的运行状态;所述可编程逻辑器件根据所述寄存器信息判断所述嵌入式处理器是否出现故障。3.根据权利要求2所述的方法,其特征在于,所述可编程逻辑器件根据所述寄存器信息判断所述嵌入式处理器是否出现故障,包括:所述可编程逻辑器件按照预设周期从所述寄存器信息中读取所述状态寄存器中的第一标志位的状态值;所述可编程逻辑器件根据读取的所述第一标志位的状态值判断所述第一标志位是否置位;响应于到达预设时间所述第一标志位未被置位,所述可编程逻辑器件确定所述嵌入式处理器出现故障。4.根据权利要求2所述的方法,其特征在于,所述可编程逻辑器件根据所述寄存器信息判断所述嵌入式处理器是否出现故障,包括:所述可编程逻辑器件从所述寄存器信息中读取所述状态寄存器中的第二标志位的状态值,所述第二标志位的状态值与复杂可编程逻辑器件反馈的第一信号关联,所述复杂可编程逻辑器件用于检测所述嵌入式处理器的运行状态,并根据所述嵌入式处理器的运行状态向所述可编程逻辑器件反馈所述第一信号;响应于读取到所述第二标志位的状态值为预设值,所述可编程逻辑器件确定所述嵌入式处理器出现故障。5.根据权利要求1所述的方法,其特征在于,所述代答模式还包括:所述可编程逻辑器件向所述计算机主机发送用于报错的第一处理层数据包,以使所述...

【专利技术属性】
技术研发人员:赵建平孙路遥
申请(专利权)人:深圳星云智联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1