一种超大规模机器自动化维修的方法和装置制造方法及图纸

技术编号:15691611 阅读:67 留言:0更新日期:2017-06-24 04:57
本发明专利技术的目的是提供一种超大规模机器自动化维修的方法和装置。与现有技术相比,本发明专利技术收集超大规模机器中的软和/或硬件故障;对所述软和/或硬件故障进行故障分析,获得对应的故障数据;基于所述故障数据,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修,其中,对于需要迁移的数据所对应的机器进行迁移整机维修,对于存储型服务所对应的机器进行在线修盘。对于超大规模机器,本发明专利技术可以满足诸如故障检测、服务迁移、环境部署、机器维修状态流转、快速交付等,节约了运维人力、通过提高流转效率节约机器;检测、维修、服务迁移和部署实现全部自动化无需人工接入;机器交付效率高,可以实现小时级和分钟级交付。

Method and device for ultra large scale machine automatic maintenance

The object of the invention is to provide a method and an apparatus for ultra large scale machine automatic maintenance. Compared with the prior art, the invention collects large scale machine in soft and / or hardware failure; the soft and / or hardware fault analysis, fault data correspondence; the fault data based on the state machine maintenance, maintenance of the complete automation, large scale machine for each state which transfer the need for migration, data migration machine machine maintenance, for the corresponding storage service machine for online repair disk. For large scale machine, the invention can meet the requirements such as fault detection, service migration, environment deployment, machine maintenance and state transfer, rapid delivery, saving manpower, improve circulation efficiency of operation by saving machines; testing, maintenance, service migration and deployment to achieve full automatic without manual access; machine delivery can achieve high efficiency hours and minutes of delivery.

【技术实现步骤摘要】
一种超大规模机器自动化维修的方法和装置
本专利技术涉及计算机
,尤其涉及一种超大规模机器自动化维修的技术。
技术介绍
现有的机器维修一般分为如下场景:1)初具规模(几十台)时,一般由运维人员通过监控、手动监控进行维修和交付;2)中型规模和大规模(百台规模、千台规模)时,一般会通过监控+脚本,或者小型自动化系统实现。然而,对于超大规模(万台、几十万台)机器,则存在诸如人力成本、维修交付效率等问题。现有的自动化维修实现方案一般有如下几种:1)脚本式维修系统:一般是应对小规模集群的办法,这种集群可能连虚拟化都没有完全实现,一般通过监控、通过部署工具迁移服务、触发服务API命令操作机器,这种系统简单易开发,但是缺点是没有固定的收集和分析系统,维修和部署这些一般针对简单场景,功能简单,不能适用于大规模系统。2)触发式维修系统:也可以称为一种半自动维修系统,一般有独立的收集器进行收集故障和对故障进行分级,然后有一套独立的故障池和维修推送系统,这种系统满足了大部分的维修系统的需求,但是缺点是没有独立的服务迁移对接服务、出现问题还需要使用方获取故障主动推送,缺少交互流程。然而,现有的这些维修方案无法满足多样性,也无法满足超大规模机器,大部分维修系统对于机型、系统、环境都相对统一。而在实际运作中,需要考虑机型的多样性,业务的多样性,需要满足不同业务的需求和系统,如存储、计算等不同配置和环境。因此,如何提供一种超大规模机器自动化维修的方法和装置,成为本领域技术人员亟需解决的技术问题之一。
技术实现思路
本专利技术的目的是提供一种超大规模机器自动化维修的方法和装置。根据本专利技术的一个方面,提供了一种超大规模机器自动化维修的方法,其中,该方法包括:a收集超大规模机器中的软和/或硬件故障;b对所述软和/或硬件故障进行故障分析,获得对应的故障数据;c基于所述故障数据,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修,其中,对于需要迁移的数据所对应的机器进行迁移整机维修,对于存储型服务所对应的机器进行在线修盘。优选地,所述步骤a包括:基于对所述超大规模机器的软件检测和/或硬件检测,获得所述软和/或硬件故障,并将所述软和/或硬件故障上报至主服务端;其中,所述步骤b包括:对所述主服务端中存储的软和/或硬件故障进行故障分析,获得对应的故障数据。优选地,该方法还包括:将基于对所述软和/或硬件故障进行故障分析所获得的故障数据作为故障源,建立或更新对应的数据库;其中,所述步骤c包括:基于所述数据库中的故障源,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修。优选地,所述步骤b还包括:对经故障分析所获得的故障数据进行分类,获得分类后的故障数据;其中,所述步骤c包括:基于所述分类后的故障数据,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修。优选地,所述步骤c包括:基于所述故障数据,采用维修状态机,结合配置信息所对应的阈值,对各个状态流转完成对所述超大规模机器的自动化维修。优选地,所述步骤c包括:采用通用的迁移服务平台对于需要迁移的数据所对应的机器进行迁移整机维修;对于迁移后剩余的机器,继续采用所述维修状态机,对各个状态流转进行自动化维修。优选地,所述步骤c包括:对于存储型服务所对应的机器,采用单盘中控决策是否下盘,以对所述机器进行在线修盘。根据本专利技术的另一个方面,还提供了一种超大规模机器自动化维修的装置,其中,该装置包括:故障收集装置,用于收集超大规模机器中的软和/或硬件故障;故障分析装置,用于对所述软和/或硬件故障进行故障分析,获得对应的故障数据;故障维修装置,用于基于所述故障数据,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修,其中,对于需要迁移的数据所对应的机器进行迁移整机维修,对于存储型服务所对应的机器进行在线修盘。优选地,所述故障收集装置用于:基于对所述超大规模机器的软件检测和/或硬件检测,获得所述软和/或硬件故障,并将所述软和/或硬件故障上报至主服务端;其中,所述故障分析装置用于:对所述主服务端中存储的软和/或硬件故障进行故障分析,获得对应的故障数据。优选地,该装置还包括:更新装置,用于将基于对所述软和/或硬件故障进行故障分析所获得的故障数据作为故障源,建立或更新对应的数据库;其中,所述故障维修装置用于:基于所述数据库中的故障源,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修。优选地,所述故障分析装置还用于:对经故障分析所获得的故障数据进行分类,获得分类后的故障数据;其中,所述故障维修装置用于:基于所述分类后的故障数据,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修。优选地,所述故障维修装置用于:基于所述故障数据,采用维修状态机,结合配置信息所对应的阈值,对各个状态流转完成对所述超大规模机器的自动化维修。优选地,所述故障维修装置用于:采用通用的迁移服务平台对于需要迁移的数据所对应的机器进行迁移整机维修;对于迁移后剩余的机器,继续采用所述维修状态机,对各个状态流转进行自动化维修。优选地,所述故障维修装置用于:对于存储型服务所对应的机器,采用单盘中控决策是否下盘,以对所述机器进行在线修盘。根据本专利技术的又一个方面,还提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序;当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前任一项所述的方法。与现有技术相比,本专利技术收集超大规模机器中的软和/或硬件故障;对所述软和/或硬件故障进行故障分析,获得对应的故障数据;基于所述故障数据,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修,其中,对于需要迁移的数据所对应的机器进行迁移整机维修,对于存储型服务所对应的机器进行在线修盘。对于超大规模(万台、几十万台)机器,本专利技术提供了一个完整的自动化维修系统,可以满足诸如故障检测、服务迁移、环境部署、机器维修状态流转、快速交付等,在成本方面,节约了运维人力、通过提高流转效率节约机器;在全自动化方面,本专利技术检测、维修、服务迁移和部署实现全部自动化无需人工接入;在效率方面,本专利技术机器交付效率高,可以实现小时级和分钟级交付。进一步地,本专利技术可以满足多种场景的系统、环境支持,还可以满足在离线混部场景的业务在线修机器和自动化维修机器的场景。本专利技术还可以在机器不断增加的场景下,依旧可以满足高效的机器流转、交付、满足业务使用,可以不断的横向扩展,可以进行快速的交付,例如,扩容可以在分钟级、重装或重启在小时级,维修在天级别,并且可以满足几十万台机器的高性能运转。进一步地,本专利技术对于存储型服务进行热插拔维修硬盘,并且有一套可控的单盘中控服务用来保证下盘的数量,保证安全和快速交付维修及迁移。此外,本专利技术通过加快机器维修和时效性,提高机器的在线利用率,从中可以进行节约机器的资源,如:之前如果故障率在2%,在线率98%,总机器是10W,那么将会有2000台机器持续不可用,所以需要有2000台做冗余备份;如果增加维修效率后机器故障率可以降低到1%,那么在线率可以达到99%,那么机器持续故障数就可以减少1000,那么就可以减少1000台机器,本文档来自技高网...
一种超大规模机器自动化维修的方法和装置

【技术保护点】
一种超大规模机器自动化维修的方法,其中,该方法包括:a收集超大规模机器中的软和/或硬件故障;b对所述软和/或硬件故障进行故障分析,获得对应的故障数据;c基于所述故障数据,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修,其中,对于需要迁移的数据所对应的机器进行迁移整机维修,对于存储型服务所对应的机器进行在线修盘。

【技术特征摘要】
1.一种超大规模机器自动化维修的方法,其中,该方法包括:a收集超大规模机器中的软和/或硬件故障;b对所述软和/或硬件故障进行故障分析,获得对应的故障数据;c基于所述故障数据,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修,其中,对于需要迁移的数据所对应的机器进行迁移整机维修,对于存储型服务所对应的机器进行在线修盘。2.根据权利要求1所述的方法,其中,所述步骤a包括:基于对所述超大规模机器的软件检测和/或硬件检测,获得所述软和/或硬件故障,并将所述软和/或硬件故障上报至主服务端;其中,所述步骤b包括:对所述主服务端中存储的软和/或硬件故障进行故障分析,获得对应的故障数据。3.根据权利要求1或2所述的方法,其中,该方法还包括:将基于对所述软和/或硬件故障进行故障分析所获得的故障数据作为故障源,建立或更新对应的数据库;其中,所述步骤c包括:基于所述数据库中的故障源,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修。4.根据权利要求1或2所述的方法,其中,所述步骤b还包括:对经故障分析所获得的故障数据进行分类,获得分类后的故障数据;其中,所述步骤c包括:基于所述分类后的故障数据,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修。5.根据权利要求1或2所述的方法,其中,所述步骤c包括:基于所述故障数据,采用维修状态机,结合配置信息所对应的阈值,对各个状态流转完成对所述超大规模机器的自动化维修。6.根据权利要求1或2所述的方法,其中,所述步骤c包括:采用通用的迁移服务平台对于需要迁移的数据所对应的机器进行迁移整机维修;对于迁移后剩余的机器,继续采用所述维修状态机,对各个状态流转进行自动化维修。7.根据权利要求1或2所述的方法,其中,所述步骤c包括:对于存储型服务所对应的机器,采用单盘中控决策是否下盘,以对所述机器进行在线修盘。8.一种超大规模机器自动化维修的装置,其中,该装置包括:故障收集装置,用于收集超大规模机器中的软和/或硬件故障;故障分析装置,用于对所述软和/或硬件故障进行故障分析,获...

【专利技术属性】
技术研发人员:胡志广张祐胡达
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1