一种基于国产龙芯处理器间互连的计算机故障容错装置制造方法及图纸

技术编号:15616187 阅读:165 留言:0更新日期:2017-06-14 03:24
本发明专利技术涉及地面核心信息控制设备的主控单元技术领域,具体涉及一种基于国产龙芯处理器间互连的计算机故障容错装置。本发明专利技术技术方案利用国产龙芯3A多核处理器特有的级间互连接口,以及HT总线的高速双向、串行点对点、包交换、虚通道、乱序执行等特有技术,实现了双机数据状态共享的同步一致和握手互检的故障检测。本发明专利技术将有效弥补国产通用处理器可靠性和资源发挥的不足,通过对系统功能的冗余备份及故障容错设计,全面提升信息系统中核心主控单元的安全性、可靠性及测试性,有力确保信息系统国产化建设后的工作性能与适用性。

【技术实现步骤摘要】
一种基于国产龙芯处理器间互连的计算机故障容错装置
本专利技术涉及地面核心信息控制设备的主控单元
,具体涉及一种基于国产龙芯处理器间互连的计算机故障容错装置。
技术介绍
信息控制设备主控单元日常应用中,完成了大量的数据监管与信息应用工作,直接关系着整个信息系统的工作性能。受信息安全等因素困扰,国产化处理器已经成为了信息系统的优先选择,然而由于测试不足、技术薄弱等原因,基于国产处理器的计算机系统往往可靠性较低,缺乏备保措施,难以满足实际使用需求。现有国产化计算机系统往往具有以下几项不足:系统内各台主机间功能相互独立,未形成系统,即使通过传统总线交互数据,数量不足,价值有限,难以进行更深层次的分析应用,无法充分发挥计算机系统的性能特点;系统内各台主机的各个功能模块间相互重叠,无法独立完成所需功能,系统构成灵活度不足,系统内存在故障单点模式,严重影响系统工作可靠性;系统内各台主机间缺乏必要的检测和诊断机制,故障或者错误,特别是程序跑飞现象难以有效隔离,无法保障整个系统对于故障的适应性。
技术实现思路
针对上述现有技术,本专利技术的目的在于提供一种基于国产龙芯处理器间互连的计算机故障容错装置,提高国产计算机系统的工作可靠性,充分发挥国产计算机系统的工作性能,有效隔离单机故障模式对系统影响,满足信息系统工作需要。为了达到上述目的,本专利技术采用以下技术方案。一种基于国产龙芯处理器间互连的计算机故障容错装置,该装置包括主计算机系统模块和从计算机系统模块;主计算机系统模块和从计算机系统模块都包括:CPU单元、北/南桥单元、存储单元、接口单元、供电单元;CPU单元包括龙芯3A多核处理器,主计算机系统模块的CPU单元和从计算机系统模块的CPU单元通过HT总线接口实现互连;存储单元包括内存、启动ROM和硬盘;龙芯3A多核处理器集成2组独立的HT总线接口,HT0总线接口和HT1总线接口,主计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口与从计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口连接,实现主计算机系统模块和从计算机系统模块的互连;HT1总线接口与北/南桥单元的HT总线接口相连接,龙芯3A多核处理器未使用管脚要通过电阻下拉。所述基于国产龙芯处理器间互连的计算机故障容错装置,龙芯3A多核处理器为龙芯3A四核处理器;北/南桥单元包括RS780E北桥芯片和SB710南桥芯片;存储单元包括DDR内存、启动配置ROM和硬盘,HT总线为16位或8位HT总线。所述基于国产龙芯处理器间互连的计算机故障容错装置,该装置正常工作时,由主计算机系统模块完成该装置的控制与数据管理工作,从计算机系统模块通过HT总线跟踪主计算机系统模块CPU单元的进程操作及工作状态,并在从计算机系统模块存储单元的硬盘中同步备份主计算机系统模块存储单元硬盘中的数据,利用高速缓存一致性协议,保证主计算机系统模块和从计算机系统模块的数据与缓存状态均保持一致。所述基于国产龙芯处理器间互连的计算机故障容错装置,主计算机系统模块和从计算机系统模块间的CPU单元龙芯3A处理器通过HT0总线实现龙芯3A处理器的GPIO和INT相互连接;实现主计算机系统模块CPU单元和从计算机系统模块CPU单元之间中断握手操作,实现主计算机系统模块和从计算机系统模块的相互监测与备份,避免故障串扰和时钟差异的存在;从计算机系统模块或主计算机系统模块通过利用供电单元的称供电信号构成逻辑判断,并将判断结果传送给主计算机系统模块或从计算机系统模块;从计算机系统模块或主计算机系统模块,通过接口单元采集主计算机系统模块或从计算机系统模块的实时信息,实时信息包括电流信号、电压信号和温度信号;当从计算机系统模块或主计算机系统模块采集到对方的供电信息和实时信息中,与被采集的主计算机系统模块或从计算机系统模块的接口单元相关的供电信息和实时信息中任一信息超出了设定的故障限时,认为被采集的主计算机系统模块或从计算机系统模块的接口单元发生故障;当从计算机系统模块或主计算机系统模块采集到对方的供电信息、实时信息和握手信息中,与被采集的主计算机系统模块或从计算机系统模块的CPU单元相关的供电信息和实时信息、以及被采集的主计算机系统模块或从计算机系统模块的CPU单元的握手信息中,任一信息超出了设定的故障限,认为被采集的主计算机系统模块或从计算机系统模块的CPU单元故障。所述基于国产龙芯处理器间互连的计算机故障容错装置,当从计算机系统模块诊断出主计算机系统模块的接口单元故障时,认为主计算机系统模块接口单元失效,从计算机系统模块的CPU单元仍保持通过HT总线接口获取主计算机系统模块的CPU单元进程操作数据,从计算机系统模块的接口单元将取代主计算机系统模块的接口单元完成对外信息交互工作。所述基于国产龙芯处理器间互连的计算机故障容错装置,当从计算机系统模块诊断出主计算机系统模块的CPU单元故障时,认为主计算机系统模块的CPU单元失效,从计算机系统模块利用存储单元的硬盘之中同步备份的主计算机系统模块存储单元的硬盘中的操作数据,从计算机系统模块的CPU单元取代主计算机系统模块的CPU单元完成对外信息交互工作,独立保证信息系统工作的正常。所述基于国产龙芯处理器间互连的计算机故障容错装置,当主计算机系统模块诊断出从计算机系统模块接口单元或CPU单元故障时,认为从计算机系统模块接口单元或CPU单元失效,主计算机系统模块将断开与从计算机系统模块之间的HT总线互连,停止采集从计算机系统模块的握手信息、供电信息和实时信息,主计算机系统模块将独立保证信息系统工作的正常。一种基于国产龙芯处理器间互连的计算机故障容错装置进行计算机故障容错的方法,该方法包括以下步骤:步骤一、故障诊断;主计算机系统模块和从计算机系统模块间的CPU单元龙芯3A处理器通过HT0总线实现龙芯3A处理器的GPIO和INT相互连接;实现主计算机系统模块CPU单元和从计算机系统模块CPU单元之间中断握手操作,实现主计算机系统模块和从计算机系统模块的相互监测与备份,避免故障串扰和时钟差异的存在;从计算机系统模块或主计算机系统模块通过利用供电单元的称供电信号构成逻辑判断,并将判断结果传送给主计算机系统模块或从计算机系统模块;从计算机系统模块或主计算机系统模块,通过接口单元采集主计算机系统模块或从计算机系统模块的实时信息,实时信息包括电流信号、电压信号和温度信号;当从计算机系统模块或主计算机系统模块采集到对方的供电信息、实时信息和握手信息中;1)与被采集的主计算机系统模块或从计算机系统模块的接口单元相关的供电信息和实时信息中任一信息超出了设定的故障限时,认为被采集的主计算机系统模块或从计算机系统模块的接口单元发生故障;2)与被采集的主计算机系统模块或从计算机系统模块的CPU单元相关的供电信息和实时信息、以及被采集的主计算机系统模块或从计算机系统模块的CPU单元的握手信息中,任一信息超出了设定的故障限,认为被采集的主计算机系统模块或从计算机系统模块的CPU单元故障;3)否则,认为被采集的主计算机系统模块或从计算机系统模块工作正常;步骤二、故障容错;1)当从计算机系统模块诊断出主计算机系统模块的接口单元故障时,认为主计算机系统模块接口单元失效,从计算机系统模块的CPU单元仍本文档来自技高网...
一种基于国产龙芯处理器间互连的计算机故障容错装置

【技术保护点】
一种基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,该装置包括主计算机系统模块和从计算机系统模块;主计算机系统模块和从计算机系统模块都包括:CPU单元、北/南桥单元、存储单元、接口单元、供电单元;CPU单元包括龙芯3A多核处理器,主计算机系统模块的CPU单元和从计算机系统模块的CPU单元通过HT总线接口实现互连;存储单元包括内存、启动ROM和硬盘;龙芯3A多核处理器集成2组独立的HT总线接口,HT0总线接口和HT1总线接口,主计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口与从计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口连接,实现主计算机系统模块和从计算机系统模块的互连;HT1总线接口与北/南桥单元的HT总线接口相连接,龙芯3A多核处理器未使用管脚通过电阻下拉。

【技术特征摘要】
1.一种基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,该装置包括主计算机系统模块和从计算机系统模块;主计算机系统模块和从计算机系统模块都包括:CPU单元、北/南桥单元、存储单元、接口单元、供电单元;CPU单元包括龙芯3A多核处理器,主计算机系统模块的CPU单元和从计算机系统模块的CPU单元通过HT总线接口实现互连;存储单元包括内存、启动ROM和硬盘;龙芯3A多核处理器集成2组独立的HT总线接口,HT0总线接口和HT1总线接口,主计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口与从计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口连接,实现主计算机系统模块和从计算机系统模块的互连;HT1总线接口与北/南桥单元的HT总线接口相连接,龙芯3A多核处理器未使用管脚通过电阻下拉。2.根据权利要求1所述基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,龙芯3A多核处理器为龙芯3A四核处理器;北/南桥单元包括RS780E北桥芯片和SB710南桥芯片;存储单元包括DDR内存、启动配置ROM和硬盘,HT总线为16位或8位HT总线。3.根据权利要求1或2所述基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,该装置正常工作时,由主计算机系统模块完成该装置的控制与数据管理工作,从计算机系统模块通过HT总线跟踪主计算机系统模块CPU单元的进程操作及工作状态,并在从计算机系统模块存储单元的硬盘中同步备份主计算机系统模块存储单元硬盘中的数据,利用高速缓存一致性协议,保证主计算机系统模块和从计算机系统模块的数据与缓存状态均保持一致。4.根据权利要求1或2所述基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,主计算机系统模块和从计算机系统模块间的CPU单元龙芯3A处理器通过HT0总线实现龙芯3A处理器的GPIO和INT相互连接;实现主计算机系统模块CPU单元和从计算机系统模块CPU单元之间中断握手操作,实现主计算机系统模块和从计算机系统模块的相互监测与备份,避免故障串扰和时钟差异的存在;从计算机系统模块或主计算机系统模块通过利用供电单元的称供电信号构成逻辑判断,并将判断结果传送给主计算机系统模块或从计算机系统模块;从计算机系统模块或主计算机系统模块,通过接口单元采集主计算机系统模块或从计算机系统模块的实时信息,实时信息包括电流信号、电压信号和温度信号;当从计算机系统模块或主计算机系统模块采集到对方的供电信息和实时信息中,与被采集的主计算机系统模块或从计算机系统模块的接口单元相关的供电信息和实时信息中任一信息超出了设定的故障限时,认为被采集的主计算机系统模块或从计算机系统模块的接口单元发生故障;当从计算机系统模块或主计算机系统模块采集到对方的供电信息、实时信息和握手信息中,与被采集的主计算机系统模块或从计算机系统模块的CPU单元相关的供电信息和实时信息、以及被采集的主计算机系统模块或从计算机系统模块的CPU单元的握手信息中,任一信息超出了设定的故障限,认为被采集的主计算机系统模块或从计算机系统模块的CPU单元故障。5.根据权利要求4所述基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,当从计算机系统模块诊断出主计算机系统模块的接口单元故障时,认为主计算机系统模块接口单元失效,从计算机系统模块的CPU单元仍保持通过HT总线接口获取主计算机系统模块的CPU单元进程操作数据,从计算机系统模块的接口单元将取代主计算机系统模块的接口单元完成对外信息交互工作。6.根据权利要求4所述基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,当从计算机系统模块诊断出主计算机系统模块的CPU单元故障时...

【专利技术属性】
技术研发人员:黄晨施清平白健安雪岩罗一丹汪文明易航张利彬
申请(专利权)人:北京宇航系统工程研究所中国运载火箭技术研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1