异构计算系统和服务器系统技术方案

技术编号:39188552 阅读:11 留言:0更新日期:2023-10-27 08:35
本申请提供了一种异构计算系统和服务器系统,该异构计算系统包括:多个终端设备;处理器,用于确定多个终端设备中的目标终端设备是否处于需要复位的状态,在确定处于需要复位的状态时,拦截目标终端设备上报至根复合体的中断信号,并使得目标终端设备将设备标识发送至根复合体,在接收到根复合体发送的存储完成信息的情况下,对目标终端设备进行复位,并发送复位完成信息至根复合体;根复合体,用于接收设备标识,根据设备标识存储对应的当前状态信息,在存储完成当前状态信息时,发送存储完成信息至处理器,在接收到复位完成信息时将当前状态信息发送至目标终端设备,解决了PCIe设备故障造成主机无法正常运行的问题。故障造成主机无法正常运行的问题。故障造成主机无法正常运行的问题。

【技术实现步骤摘要】
异构计算系统和服务器系统


[0001]本申请实施例涉及计算机领域,具体而言,涉及一种异构计算系统和服务器系统。

技术介绍

[0002]随着异构计算系统性能的提高,用户对异构计算系统的功能要求也越来越多样化,相应地,实现这些功能的PCIe(peripheral component interconnect express,高速串行计算机扩展总线标准)设备也越来越多样化,不同的异构计算系统所配置的PCIe设备并不完全相同,不同的PCIe设备具备不同的功能,如果某一种PCIE设备发生故障,就会导致异构计算系统相应功能中断或系统宕机,系统主机被迫复位,进而造成重要数据的丢失等严重问题。因此,当系统中PCIe设备发生故障时,如何发现故障并对故障PCIE设备进行处理,是个重要问题。

技术实现思路

[0003]本申请实施例提供了一种异构计算系统和服务器系统,以至少解决相关技术中PCIe设备故障造成主机无法正常运行的问题。
[0004]根据本申请的一个实施例,提供了一种异构计算系统,包括:多个终端设备;处理器,与多个所述终端设备通信连接,所述处理器用于确定多个终端设备中的目标终端设备是否处于需要复位的状态,在确定所述目标终端设备处于所述需要复位的状态的情况下,拦截所述目标终端设备上报至根复合体的中断信号,并使得所述目标终端设备将设备标识发送至所述根复合体,所述处理器还用于在接收到所述根复合体发送的存储完成信息的情况下,对所述目标终端设备进行复位,并发送复位完成信息至所述根复合体;所述根复合体,分别与多个所述终端设备连接,所述根复合体用于接收所述设备标识,根据所述设备标识,存储所述设备标识对应的当前状态信息,在存储完成所述当前状态信息的情况下,发送所述存储完成信息至所述处理器,在接收到所述复位完成信息的情况下,与复位后的所述目标终端设备建立连接并将所述当前状态信息发送至所述目标终端设备。
[0005]在一个示例性实施例中,所述处理器还用于:启动各所述终端设备对应的看门狗定时器的计数功能,并在接收到所述终端设备发送的喂狗信号的情况下,对所述终端设备对应的所述看门狗定时器进行清零;确定所述目标终端设备对应的看门狗定时器的计数值是否超出阈值;在所述目标终端设备对应的看门狗定时器的计数值超出阈值的情况下,确定所述目标终端设备故障,且确定所述目标终端设备处于所述需要复位的状态。
[0006]在一个示例性实施例中,所述处理器还用于:在确定所述目标终端设备故障的情况下,关闭所述目标终端设备对应的所述看门狗定时器的计数功能;在发送复位完成信息至所述根复合体之后,恢复所述目标终端设备对应的所述看门狗定时器的计数功能。
[0007]在一个示例性实施例中,所述终端设备还用于每隔第一预定时长发送一次心跳信号至所述处理器,所述处理器还用于:每隔所述第一预定时长确定是否接收到各所述终端设备发送的所述心跳信号;在未接收到所述心跳信号的情况下,确定未收到所述心跳信号
的所述终端设备为所述目标终端设备,且确定所述目标终端设备出现故障,处于所述需要复位的状态。
[0008]在一个示例性实施例中,所述处理器还用于:确定是否接收到所述目标终端设备的操作系统的复位请求信息,其中,所述复位请求信息为所述操作系统在所述目标终端设备的软件更新之后生成的信息,所述复位请求信息用于请求复位所述目标终端设备;在接收到所述复位请求信息的情况下,确定所述目标终端设备处于所述需要复位的状态。
[0009]在一个示例性实施例中,所述复位请求信息为所述操作系统响应于作用在人机交互界面上的预定操作生成的,所述预定操作为反馈所述人机交互界面上显示的问询信息的操作,所述问询信息为在所述目标终端设备的软件更新的情况下,基本输入输出系统生成并发送给所述操作系统的,所述问询信息用于问询软件更新后是否对所述操作系统进行复位。
[0010]在一个示例性实施例中,所述处理器还用于:拦截所述目标终端设备发送至所述根复合体的错误报告信息,所述错误报告信息包括所述中断信号、所述设备标识、错误类型、错误地址以及错误源;屏蔽所述错误报告信息中的所述中断信号,屏蔽所述中断信号后的所述错误报告信息构成屏蔽后信息;将所述屏蔽后信息发送至所述根复合体。
[0011]在一个示例性实施例中,所述处理器还用于:在拦截所述目标终端设备发送至所述根复合体的错误报告信息之后,根据所述设备标识、所述错误类型、所述错误地址以及所述错误源,生成错误日志。
[0012]在一个示例性实施例中,所述处理器还用于:在对所述目标终端设备进行复位之后,确定所述目标终端设备是否处于所述需要复位的状态;在确定所述目标终端设备处于所述需要复位的状态的情况下,控制所述目标终端设备对应的连续复位次数计数一次;在确定所述目标终端设备未处于所述需要复位的状态的情况下,控制所述连续复位次数清零;确定所述连续复位次数是否大于或者等于预定阈值;在确定所述连续复位次数大于或者等于所述预定阈值的情况下,不拦截所述中断信号。
[0013]在一个示例性实施例中,所述根复合体还用于在接收到所述中断信号的情况下,响应于所述中断信号进行复位。
[0014]在一个示例性实施例中,所述处理器还用于:在确定所述目标终端设备处于所述需要复位的状态且所述目标终端设备对应的所述连续复位次数小于所述预定阈值的情况下,拦截所述中断信号。
[0015]在一个示例性实施例中,所述处理器还用于以下之一:控制所述目标终端设备复位;将所述目标终端设备的下游端口对应的寄存器状态信息恢复至初始状态。
[0016]在一个示例性实施例中,所述当前状态信息包括所述目标终端设备的配置空间信息、BAR空间映射关系以及内存空间信息。
[0017]在一个示例性实施例中,所述根复合体还用于:根据所述设备标识,将所述设备标识对应的配置空间信息、BAR空间映射关系以及内存空间信息存储至硬盘中。
[0018]在一个示例性实施例中,所述根复合体还用于:根据所述设备标识对复位后的所述目标终端设备进行扫描,以恢复与所述目标终端设备之间的通信连接;通过内存从所述硬盘中读取所述当前状态信息;将读取的所述当前状态信息发送至所述目标终端设备。
[0019]在一个示例性实施例中,所述根复合体还用于:在存储完成所述当前状态信息的
情况下,断开与所述目标终端设备的连接。
[0020]在一个示例性实施例中,所述根复合体通过PCIe链路与各所述终端设备通信连接。
[0021]在一个示例性实施例中,所述根复合体还用于:在根据所述设备标识,存储所述当前状态信息之前,采用深度优先搜索算法对所述PCIe链路进行扫描,为每个所述终端设备分配地址空间。
[0022]在一个示例性实施例中,所述终端设备包括:片上系统,所述片上系统用于运行Orin平台和NV平台中之一。
[0023]在一个示例性实施例中,所述处理器包括基板管理控制器。
[0024]根据本申请的另一个实施例,还提供了一种服务器系统,包括任一种所述的异构计算系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异构计算系统,其特征在于,包括:多个终端设备;处理器,与多个所述终端设备通信连接,所述处理器用于确定多个终端设备中的目标终端设备是否处于需要复位的状态,在确定所述目标终端设备处于所述需要复位的状态的情况下,拦截所述目标终端设备上报至根复合体的中断信号,并使得所述目标终端设备将设备标识发送至所述根复合体,所述处理器还用于在接收到所述根复合体发送的存储完成信息的情况下,对所述目标终端设备进行复位,并发送复位完成信息至所述根复合体;所述根复合体,分别与多个所述终端设备连接,所述根复合体用于接收所述设备标识,根据所述设备标识,存储所述设备标识对应的当前状态信息,在存储完成所述当前状态信息的情况下,发送所述存储完成信息至所述处理器,在接收到所述复位完成信息的情况下,与复位后的所述目标终端设备建立连接并将所述当前状态信息发送至所述目标终端设备。2.根据权利要求1所述的系统,其特征在于,所述处理器还用于:启动各所述终端设备对应的看门狗定时器的计数功能,并在接收到所述终端设备发送的喂狗信号的情况下,对所述终端设备对应的所述看门狗定时器进行清零;确定所述目标终端设备对应的看门狗定时器的计数值是否超出阈值;在所述目标终端设备对应的看门狗定时器的计数值超出阈值的情况下,确定所述目标终端设备故障,且确定所述目标终端设备处于所述需要复位的状态。3.根据权利要求2所述的系统,其特征在于,所述处理器还用于:在确定所述目标终端设备故障的情况下,关闭所述目标终端设备对应的所述看门狗定时器的计数功能;在发送复位完成信息至所述根复合体之后,恢复所述目标终端设备对应的所述看门狗定时器的计数功能。4.根据权利要求1所述的系统,其特征在于,所述终端设备还用于每隔第一预定时长发送一次心跳信号至所述处理器,所述处理器还用于:每隔所述第一预定时长确定是否接收到各所述终端设备发送的所述心跳信号;在未接收到所述心跳信号的情况下,确定未收到所述心跳信号的所述终端设备为所述目标终端设备,且确定所述目标终端设备出现故障,处于所述需要复位的状态。5.根据权利要求1所述的系统,其特征在于,所述处理器还用于:确定是否接收到所述目标终端设备的操作系统的复位请求信息,其中,所述复位请求信息为所述操作系统在所述目标终端设备的软件更新之后生成的信息,所述复位请求信息用于请求复位所述目标终端设备;在接收到所述复位请求信息的情况下,确定所述目标终端设备处于所述需要复位的状态。6.根据权利要求5所述的系统,其特征在于,所述复位请求信息为所述操作系统响应于作用在人机交互界面上的预定操作生成的,所述预定操作为反馈所述人机交互界面上显示的问询信息的操作,所述问询信息为在所述目标终端设备的软件更新的情况下,基本输入输出系统生成并发送给所述操作系统的,所述问询信息用于问询软件更新后是否对所述操作系统进行复位。7.根据权利要求1所述的系统,其特征在于,所述处理器还用于:
拦截所述目标终端设备发送至所述根复合体的错误报告信息,所述错误报告信息包括所述中断信号、所述设备标识、错误类型、错误地址以及错误源;屏蔽所述错误报...

【专利技术属性】
技术研发人员:张德光张晶威
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1