The invention discloses a workflow based cloud system task operation fault diagnosis method and system, which includes: extracting the correlation based on the log features, dividing the discrete logs into workflows according to the tasks; forming a reference with task marks, determining the task category of the workflow through the similarity between the generated workflow and the reference; based on the automata model, for each Task construction diagnosis automata, through the matching recognition process of automata to complete the fault diagnosis and location. The invention can provide high-speed and accurate fault diagnosis and location for complex cloud environment.
【技术实现步骤摘要】
基于工作流的云系统任务运行故障诊断方法与系统
本专利技术涉及云计算领域,特别涉及一种云计算的故障诊断方法和系统。
技术介绍
伴随着网络功能虚拟化技术(NetworkFunctionsVirtualization,NFV)的成熟,云系统得以迅速发展壮大。阿里云、谷歌云、亚马逊云等一系列成熟的云系统开始为公众提供商业服务。云系统的一大优势是能够按需合理配置资源。例如,云系统可以按需给虚拟机配置相应的内存、CPU。这种方式在保证用户需求的前提下极大的提升了系统资源的利用率从而避免资源浪费。云系统灵活的资源配置也给自身的可靠性与稳定性带来了挑战。云服务系统通常包含多个服务,这些服务分别部署于不同的物理机器上。分布式的服务部署模式使得服务间的消息同步面临可靠性的挑战。云系统的资源配置是通过对用户虚拟机的创建、删除等任务完成的,一个任务的完成需要多个服务的密切配合。任意服务的功能异常或错误都会导致任务的失败。因此,如何对云系统进行精确地故障诊断和定位成为了工业界和学术界广泛讨论的话题。为了对系统中的进程或网络问题进行精确的定位和诊断,许多的研究者致力于使用历史数据来探索进程或网络的潜在特性。一种方法基于系统硬件数据为每个进程构建一个状态。这些数据包括内存占用率、CPU使用率、进程配置等。根据状态数据变化的相关性来探索进程可能的相互影响关系。但是系统内存占用率、CPU使用率等关键数据受系统负载影响,因此该方式的精确性会随系统负载波动。另外一种类型的方法通过收集网络事件(数据包的到达或发送等)来构建网络事件溯源树。该 ...
【技术保护点】
1.一种基于工作流的云系统任务运行故障诊断方法,其特征在于,包括:/n步骤1、分布式云系统包括多个节点,集合节点中各模块产生的日志,得到日志集合,将日志拆分为变量部分与非变量部分,并将具有相同非变量部分的日志条目分配同一种日志类型;/n步骤2、获取该日志集合中下一条日志作为当前日志,根据日志类型判断是否有与该当前日志相匹配的待测工作流,若是,则将该当前日志添加到相匹配待测工作流的末端,否则新建待测工作流,将该当前日志作为新建待测工作流的首条日志条目;/n步骤3、通过多次运行指定的任务类型,得到多个属于相同任务类型的工作流,保留工作流中共有部分,得到具有任务类型标识的参照工作流;提取每个待测工作流的日志类型,得到待测工作流日志类型序列;提取每个参照工作流的日志类型,得到参照工作流日志类型序列,根据待测类型序列和参照类型序列的相似性,确定待测工作流所属的任务类型;/n步骤4、为每个待测工作流构建其对应的有限状态自动机,通过该有限状态自动机的匹配识别过程完成故障的诊断和定位,其中构建过程包括为待测工作流中第i条日志创建一个新状态,新状态与自动机最后一个状态增加一条唯一的连接边,该连接边的值为 ...
【技术特征摘要】
1.一种基于工作流的云系统任务运行故障诊断方法,其特征在于,包括:
步骤1、分布式云系统包括多个节点,集合节点中各模块产生的日志,得到日志集合,将日志拆分为变量部分与非变量部分,并将具有相同非变量部分的日志条目分配同一种日志类型;
步骤2、获取该日志集合中下一条日志作为当前日志,根据日志类型判断是否有与该当前日志相匹配的待测工作流,若是,则将该当前日志添加到相匹配待测工作流的末端,否则新建待测工作流,将该当前日志作为新建待测工作流的首条日志条目;
步骤3、通过多次运行指定的任务类型,得到多个属于相同任务类型的工作流,保留工作流中共有部分,得到具有任务类型标识的参照工作流;提取每个待测工作流的日志类型,得到待测工作流日志类型序列;提取每个参照工作流的日志类型,得到参照工作流日志类型序列,根据待测类型序列和参照类型序列的相似性,确定待测工作流所属的任务类型;
步骤4、为每个待测工作流构建其对应的有限状态自动机,通过该有限状态自动机的匹配识别过程完成故障的诊断和定位,其中构建过程包括为待测工作流中第i条日志创建一个新状态,新状态与自动机最后一个状态增加一条唯一的连接边,该连接边的值为该条目的日志类型,对于第i条日志中提取到的变量部分,若一个或多个变量存在于该第i条目之前的i-1条日志中,则标记该一个或多个变量。
2.如权利要求1所述的基于工作流的云系统任务运行故障诊断方法,其特征在于,该步骤2中该当前日志与该待测工作流的匹配具体为:该待测工作流的指纹集与该当前日志的变量部分具有公共元素且该指纹集合中该公共元素的更新时间与该日志的产生时间具有最小的时间间隔。
3.如权利要求1或2所述的基于工作流的云系统任务运行故障诊断方法,其特征在于,该自动机的状态迁移条件为:输入的日志条目其日志类型与状态A到状态B边所代表的日志类型相同,且该输入日志条目中具有标记变量。
4.如权利要求3所述的基于工作流的云系统任务运行故障诊断方法,其特征在于,该自动机的匹配识别过程包括:
若输入的日志条目与自动机边上相对应的内容相同,则自动机跳转到下一个状态;及
将该自动机的最后一个状态标记为接受状态,若自动机到达了接受状态,则任务完成了一次云系统任务运行故障诊断,诊断结果为该自动机的工作流标记。
5.一种基于工作流的云系统任务运行故障诊断系统,其特征在于,包括:
模块1、分布式云系统包括多个节点,集合节点中各模块产生的日志,得到日志集合,将日志拆分为变量部分...
【专利技术属性】
技术研发人员:周朋朋,王阳,李振宇,谢高岗,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。