The object of the invention is to provide a method and an apparatus for ultra large scale machine automatic maintenance. Compared with the prior art, the invention collects large scale machine in soft and / or hardware failure; the soft and / or hardware fault analysis, fault data correspondence; the fault data based on the state machine maintenance, maintenance of the complete automation, large scale machine for each state which transfer the need for migration, data migration machine machine maintenance, for the corresponding storage service machine for online repair disk. For large scale machine, the invention can meet the requirements such as fault detection, service migration, environment deployment, machine maintenance and state transfer, rapid delivery, saving manpower, improve circulation efficiency of operation by saving machines; testing, maintenance, service migration and deployment to achieve full automatic without manual access; machine delivery can achieve high efficiency hours and minutes of delivery.
【技术实现步骤摘要】
一种超大规模机器自动化维修的方法和装置
本专利技术涉及计算机
,尤其涉及一种超大规模机器自动化维修的技术。
技术介绍
现有的机器维修一般分为如下场景:1)初具规模(几十台)时,一般由运维人员通过监控、手动监控进行维修和交付;2)中型规模和大规模(百台规模、千台规模)时,一般会通过监控+脚本,或者小型自动化系统实现。然而,对于超大规模(万台、几十万台)机器,则存在诸如人力成本、维修交付效率等问题。现有的自动化维修实现方案一般有如下几种:1)脚本式维修系统:一般是应对小规模集群的办法,这种集群可能连虚拟化都没有完全实现,一般通过监控、通过部署工具迁移服务、触发服务API命令操作机器,这种系统简单易开发,但是缺点是没有固定的收集和分析系统,维修和部署这些一般针对简单场景,功能简单,不能适用于大规模系统。2)触发式维修系统:也可以称为一种半自动维修系统,一般有独立的收集器进行收集故障和对故障进行分级,然后有一套独立的故障池和维修推送系统,这种系统满足了大部分的维修系统的需求,但是缺点是没有独立的服务迁移对接服务、出现问题还需要使用方获取故障主动推送,缺少交互流程。然而,现有的这些维修方案无法满足多样性,也无法满足超大规模机器,大部分维修系统对于机型、系统、环境都相对统一。而在实际运作中,需要考虑机型的多样性,业务的多样性,需要满足不同业务的需求和系统,如存储、计算等不同配置和环境。因此,如何提供一种超大规模机器自动化维修的方法和装置,成为本领域技术人员亟需解决的技术问题之一。
技术实现思路
本专利技术的目的是提供一种超大规模机器自动化维修的方法和装置。根据本专利 ...
【技术保护点】
一种超大规模机器自动化维修的方法,其中,该方法包括:a收集超大规模机器中的软和/或硬件故障;b对所述软和/或硬件故障进行故障分析,获得对应的故障数据;c基于所述故障数据,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修,其中,对于需要迁移的数据所对应的机器进行迁移整机维修,对于存储型服务所对应的机器进行在线修盘。
【技术特征摘要】
1.一种超大规模机器自动化维修的方法,其中,该方法包括:a收集超大规模机器中的软和/或硬件故障;b对所述软和/或硬件故障进行故障分析,获得对应的故障数据;c基于所述故障数据,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修,其中,对于需要迁移的数据所对应的机器进行迁移整机维修,对于存储型服务所对应的机器进行在线修盘。2.根据权利要求1所述的方法,其中,所述步骤a包括:基于对所述超大规模机器的软件检测和/或硬件检测,获得所述软和/或硬件故障,并将所述软和/或硬件故障上报至主服务端;其中,所述步骤b包括:对所述主服务端中存储的软和/或硬件故障进行故障分析,获得对应的故障数据。3.根据权利要求1或2所述的方法,其中,该方法还包括:将基于对所述软和/或硬件故障进行故障分析所获得的故障数据作为故障源,建立或更新对应的数据库;其中,所述步骤c包括:基于所述数据库中的故障源,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修。4.根据权利要求1或2所述的方法,其中,所述步骤b还包括:对经故障分析所获得的故障数据进行分类,获得分类后的故障数据;其中,所述步骤c包括:基于所述分类后的故障数据,采用维修状态机,对各个状态流转完成对所述超大规模机器的自动化维修。5.根据权利要求1或2所述的方法,其中,所述步骤c包括:基于所述故障数据,采用维修状态机,结合配置信息所对应的阈值,对各个状态流转完成对所述超大规模机器的自动化维修。6.根据权利要求1或2所述的方法,其中,所述步骤c包括:采用通用的迁移服务平台对于需要迁移的数据所对应的机器进行迁移整机维修;对于迁移后剩余的机器,继续采用所述维修状态机,对各个状态流转进行自动化维修。7.根据权利要求1或2所述的方法,其中,所述步骤c包括:对于存储型服务所对应的机器,采用单盘中控决策是否下盘,以对所述机器进行在线修盘。8.一种超大规模机器自动化维修的装置,其中,该装置包括:故障收集装置,用于收集超大规模机器中的软和/或硬件故障;故障分析装置,用于对所述软和/或硬件故障进行故障分析,获...
【专利技术属性】
技术研发人员:胡志广,张祐,胡达,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。