容错处理的方法、装置和服务器制造方法及图纸

技术编号:23474851 阅读:43 留言:0更新日期:2020-03-06 15:32
本申请提供了一种容错处理的方法,包括:服务器向该外部控制器发送读数据报文,读数据报文用于请求外部控制器从指示的存储位置中读取数据,读数据报文的报文格式符合该内存语义网络协议规定的报文格式;服务器接收该外部控制器发送的指示信息,指示信息用于指示该外部控制器对该读数据报文的响应状态;该服务器根据该指示信息,确定外部控制器对该读数据报文的响应状态,并在该响应状态为响应异常时进行容错处理。该方法能够有效降低数据访问系统失效重启的概率。

Fault tolerant methods, devices and servers

【技术实现步骤摘要】
【国外来华专利技术】容错处理的方法、装置和服务器
本申请涉及信息
,并且更具体地,涉及容错处理的方法、装置和服务器。
技术介绍
新型存储类存储器(storage class memory,SCM)已经达到商用化标准,例如,3D XPoint已开始商用,该类存储器的访问时延可以达到200~500纳秒(ns)。基于传统的无线带宽(infiniband,IB)网络、远程直接内存访问(remote direct memory access,RDMA)网络以及基于融合以太网的RDMA(RDMA over converged ethernet)网络的访问时延通常为10微秒(us),该类网络的访问时延与新型存储类存储器的访问时延并不匹配。内存语义网络协议(memory-semantic network protocol)应运而生。在内存语义网络中,由于不同服务器之间的通信属于跨网络通信,不同服务器之间要经过多重物理介质(例如,交换机或用于通信消息转发的服务器),甚至还需要经过多级交换机进行交换,使得在跨网络通信时网络出现拥塞或异常的概率较高。现有数据处理中,处理器读数据访问的机制默认读数据访问必须成功。而在存储介质异常的情况下,外部控制器会返回无效数据作为读数据报文的响应;在读数据报文超时时,内部控制器生成无效数据作为读数据报文的响应,以上异常的情况下,当处理器需要消费该无效数据时,例如,对该无效数据做运算,则会触发数据访问系统失效重启。
技术实现思路
本申请提供一种容错处理的方法,该方法能够有效降低数据访问系统失效重启的概率。第一方面,提供了一种容错处理的方法,所述方法应用于服务器,所述服务器与外部控制器之间通过内存语义网络协议通信,所述外部控制器位于所述服务器的外部,包括:所述服务器向所述外部控制器发送读数据报文,所述读数据报文用于请求所述外部控制器从指示的存储位置中读取数据,所述读数据报文的报文格式符合所述内存语义网络协议规定的报文格式;所述服务器接收所述外部控制器发送的指示信息,所述指示信息用于指示所述外部控制器对所述读数据报文的响应状态;所述服务器根据所述指示信息,确定所述外部控制器对所述读数据报文的响应状态,并在所述响应状态为响应异常时进行容错处理。服务器在进行读数据访问时,通过在处理器核对外部控制器返回的无效数据做运算之前,确定被请求读数据的服务器对读数据报文的响应状态,在响应状态为响应异常时进行容错处理,从而避免在未察觉响应异常的情况下对无效数据做运算时,导致数据访问系统失效重启。在一种可能的实现方式中,所述服务器包括处理器,处理器包括内部控制器和处理器核,所述处理器核与所述内部控制器之间通过内部总线网络协议通信;所述服务器向所述外部控制器发送读数据报文包括:所述内部控制器对来自所述处理器的报文进行格式转换,生成所述读数据报文;所述内部控制器向所述外部控制器发送所述读数据报文。在一种可能的实现方式中,所述服务器确定所述外部控制器对所述读数据报文的响应状态包括:所述内部控制器根据所述指示信息,确定所述外部控制器的读数据结果,所述读数据结果用于指示所述外部控制器是否成功读取数据;所述内部控制器根据所述读数据结果,生成通知消息,所述通知消息包括响应状态标识,所述响应状态标识指示所述外部控制器从所述读数据报文指示的存储空间读取目标所述数据失败。在数据访问发生响应异常(例如,读取目标数据失败)的情况下,通过生成携带有响应状态标识的通知消息区分不同故障,并将该响应状态标识存入处理器核的寄存器中。与此同时,在服务器的内部存储器中增加指令,使得处理器核执行该指令从寄存器中读取响应状态标识,保证处理器核在对无效数据做运算之前,可以根据该响应状态标识,确定外部控制器对读数据报文的响应状态。当响应状态为异常时,能够针对该响应异常做容错处理,避免在未察觉响应异常的情况下对该无效数据做运算时,导致数据访问系统失效重启。在一种可能的实现方式中,所述方法还包括:所述内部控制器向所述处理器发送所述通知消息;所述处理器核从所述通知消息中获取所述响应状态标识;所述处理器将所述响应状态标识保存至所述处理器的寄存器中;所述处理器核从所述寄存器中获取所述响应状态标识;所述服务器根据所述指示信息,确定所述外部控制器对所述读数据报文的响应状态,包括:所述处理器核根据所述响应状态标识,确定所述外部控制器对所述读数据报文的响应状态。可选地,处理器核中仅有一个寄存器用于存储响应状态标识,该寄存器可以为处理器原有的寄存器中的任意一个,可以仅利用该寄存器中部分字段存储响应状态标识,或者,该寄存器为该处理器中新增的寄存器,该寄存器可以专用于存储标识。该寄存器可以用于存储内部控制器对处理器核的多个读数据报文(例如,该多个读数据报文包括读数据报文)返回的多个通知消息中携带的多个响应状态标识。此时,该多个标识可以是以覆盖存储的方式进行存储的,则处理器核在接收到通知消息后,从寄存器中获取的标识即为通知消息携带的标识;该多个标识也可以不是以覆盖存储的方式进行存储的,例如,可以在寄存器中对与处理器核发送的多个读数据报文对应的多个标识分别分配字段,该分配的字段用于存储该多个标识,并创建关于该多个读数据报文与为该多个读数据报文对应的标识分配的字段之间的关联关系,处理器核在从寄存器中获取该通知消息携带的标识时,可以根据关联关系,从寄存器中相应的字段获取该通知消息携带的响应状态标识。可选地,处理器核中包括至少两个寄存器用于存储内部控制器返回的通知消息中携带的响应状态标识,该至少两个寄存器可以属于处理器原有的寄存器,可以仅利用该至少两个寄存器中的部分字段存储标识,或者,该至少两个寄存器为该处理器核中新增的寄存器,该至少两个寄存器可以专用于存储标识。该寄存器可以用于存储内部控制器对处理器的多个读数据报文(例如,该多个读数据报文包括读数据报文)返回的多个通知消息中携带的多个响应状态标识。此时,该多个标识存储在不同的寄存器中,例如,该多个标识与多个寄存器之间可以是一一对应的关系,即,一个寄存器仅用于存储一个标识,此时,可以创建关于该多个读数据报文与该多个寄存器之间的关联关系。处理器核在获取通知消息携带的标识时,可以根据该关联关系,确定与该通知消息对应的寄存器,并在该寄存器中获取该响应状态标识。还例如,该多个标识与该多个寄存器之间是多对一的关系。即,一个寄存器中存储有至少两个标识,此时,可以创建关于该多个读数据报文、多个寄存器以及寄存器中用于存储标识的字段之间的关联关系。处理器核在获取通知消息时,可以根据该关联关系,确定与该通知消息对应的寄存器,并进一步确定该寄存器中用于存储该通知消息携带的标识的字段,从而在该寄存器中的相应存储空间获取该通知消息携带的标识。通过使处理器核将从通知消息中获得的响应状态标识存入寄存器中,并且在服务器的内部存储器中增加指令,处理器核执行该指令从寄存器中获取响应状态标识,使得处理器核在对返回的无效数据做运算之前,能够根据该响应状态标识,确定外部控制器对读数据报本文档来自技高网...

【技术保护点】
一种容错处理的方法,其特征在于,所述方法应用于服务器,所述服务器与外部控制器之间通过内存语义网络协议通信,所述外部控制器位于所述服务器的外部,所述方法包括:/n所述服务器向所述外部控制器发送读数据报文,所述读数据报文用于请求所述外部控制器从指示的存储位置中读取数据,所述读数据报文的报文格式符合所述内存语义网络协议规定的报文格式;/n所述服务器接收所述外部控制器发送的指示信息,所述指示信息用于指示所述外部控制器对所述读数据报文的响应状态;/n所述服务器根据所述指示信息,确定所述外部控制器对所述读数据报文的响应状态,并在所述响应状态为响应异常时进行容错处理。/n

【技术特征摘要】
【国外来华专利技术】一种容错处理的方法,其特征在于,所述方法应用于服务器,所述服务器与外部控制器之间通过内存语义网络协议通信,所述外部控制器位于所述服务器的外部,所述方法包括:
所述服务器向所述外部控制器发送读数据报文,所述读数据报文用于请求所述外部控制器从指示的存储位置中读取数据,所述读数据报文的报文格式符合所述内存语义网络协议规定的报文格式;
所述服务器接收所述外部控制器发送的指示信息,所述指示信息用于指示所述外部控制器对所述读数据报文的响应状态;
所述服务器根据所述指示信息,确定所述外部控制器对所述读数据报文的响应状态,并在所述响应状态为响应异常时进行容错处理。


根据权利要求1所述的方法,其特征在于,所述服务器包括处理器,所述处理器包括内部控制器和处理器核,所述处理器核与所述内部控制器之间通过内部总线网络协议通信;
所述服务器向所述外部控制器发送读数据报文包括:
所述内部控制器对来自所述处理器的报文进行格式转换,生成所述读数据报文;
所述内部控制器向所述外部控制器发送所述读数据报文。


根据权利要求2所述的方法,其特征在于,所述服务器确定所述外部控制器对所述读数据报文的响应状态包括:
所述内部控制器根据所述指示信息,确定所述外部控制器的读数据结果,所述读数据结果用于指示所述外部控制器是否成功读取数据;
所述内部控制器根据所述读数据结果,生成通知消息,所述通知消息包括响应状态标识,所述响应状态标识指示所述外部控制器从所述读数据报文指示的存储空间读取目标所述数据失败。


根据权利要求3所述的方法,其特征在于,所述方法还包括:
所述内部控制器向所述处理器核发送所述通知消息;
所述处理器核从所述通知消息中获取所述响应状态标识;
所述处理器核将所述响应状态标识保存至所述处理器核的寄存器中;
所述处理器核从所述寄存器中获取所述响应状态标识;
所述服务器根据所述指示信息,确定所述外部控制器对所述读数据报文的响应状态,包括:
所述处理器核...

【专利技术属性】
技术研发人员:周超陈俊杰龚陈继
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1