大规模集群作业异常检测方法技术

技术编号:32475690 阅读:12 留言:0更新日期:2022-03-02 09:37
本发明专利技术提供的一种大规模集群的作业异常检测方法,涉及异常检测方法,包括从数据资料库中联合获取作业性能数据;对获取的作业性能数据进行筛选,获得作业I/O的性能数据;对获得的作业I/O的性能数据进行二次筛选,分成若干独立的I/O阶段,获得I/O阶段数据;获取I/O阶段的总吞吐量、持续时间、带宽峰值、带宽众数作为该I/O阶段的特征数据;将I/O阶段的特征数据与历史I/O阶段特征数据进行聚类,判断I/O阶段的特征数据是否异常。本发明专利技术通过将将I/O阶段的特征数据与历史I/O阶段特征数据进行聚类,及时发现I/O的性能异常,方便根据判断出的异常类型及时的进行处置解决,以实时对I/O性能进行优化,提升系统资源利用率,提高I/O性能。提高I/O性能。提高I/O性能。

【技术实现步骤摘要】
大规模集群作业异常检测方法


[0001]本专利技术涉及异常检测方法,尤其涉及一种大规模集群作业异常检测方法。

技术介绍

[0002]随着大规模集群的计算能力迅猛提升,对于存储设备来说,无论是速度还是容量都无法跟上这种步伐。同时,大规模集群中的I/O子系统对于应用来说访问路径长、竞争程度高,导致总体资源利用率难以提升,应用体验不好。因此,大规模应用的并行度不断增加,I/O性能往往取代计算能力成为性能瓶颈。

技术实现思路

[0003]针对上述技术问题,本专利技术提供的一种大规模集群作业异常检测方法,能够对I/O性能进行优化,提高系统资源利用率,提高I/O性能。
[0004]为实现上述目的,本专利技术采取的技术方案为:
[0005]本专利技术提供的一种大规模集群的作业异常检测方法,包括
[0006]从数据资料库中联合获取作业性能数据;
[0007]对获取的作业性能数据进行筛选,获得作业I/O的性能数据;
[0008]对获得的作业I/O的性能数据进行二次筛选,分成若干独立的I/O阶段,获得I/O阶段数据;
[0009]获取I/O阶段的总吞吐量、持续时间、带宽峰值、带宽众数作为该I/O阶段的特征数据;
[0010]将I/O阶段的特征数据与历史I/O阶段特征数据进行聚类,判断I/O阶段的特征数据是否异常;
[0011]其中,作业性能数据包括从作业数据库中获取的数据和从系统级数据中获取对应时间内计算节点的性能数据;作业数据库中获取的数据主要包括作业的起止时间和用到的计算节点;从系统级数据中获取对应时间内计算节点的性能数据主要包括读写带宽、读写IOPS、读写请求分布和访问文件;性能数据包括每秒的读写带宽大小、每秒的读写操作数、每秒读写的文件数、每秒进行I/O的进程数、主要访问文件列表、读写请求大小分布、I/O总时间、整体读写连续性。
[0012]本专利技术提供的大规模集群的作业异常检测方法,优选地,在步骤“获取I/O阶段的总吞吐量、持续时间、带宽峰值、带宽众数作为该I/O阶段的特征数据”之后,还包括将I/O阶段的特征数据作为新的特征数据加入到历史I/O阶段特征数据。
[0013]本专利技术提供的大规模集群的作业异常检测方法,优选地,所述“对获得的作业I/O的性能数据进行二次筛选”包括:选择一个小波基函数,对作业I/O的带宽波形信号进行等间隔抽样,得到信号对应的样点序列;基于样点序列进行N级离散小波变换,得到N级不同尺度的小波展开系数;对小波展开系数选择相应的阈值以及阈值规则进行阈值化处理,得到阈值处理后的各级小波展开系数;根据阈值处理后的小波展开系数以及未处理的小波展开
系数进行N级重构,得到去噪信号;通过去噪信号,将不同的I/O阶段分离。
[0014]本专利技术提供的大规模集群的作业异常检测方法,优选地,所述步骤“将I/O阶段的特征数据与历史I/O阶段特征数据进行聚类,判断I/O阶段的特征数据是否异常”具体为:采用DBSCAN算法将I/O阶段的特征数据与历史I/O阶段特征数据进行聚类;若某个I/O阶段的特征数据无法归入任何一类,则判断该I/O阶段的特征数据异常,将该I/O阶段为标记为异常。
[0015]本专利技术提供的大规模集群的作业异常检测方法,优选地,所述步骤“将I/O阶段的特征数据与历史I/O阶段特征数据进行聚类,判断I/O阶段的特征数据是否异常”之后,还包括:若有I/O阶段为标记为异常,把与异常相关的数据进行汇总,并对汇总的数据判断异常类型。
[0016]本专利技术提供的大规模集群的作业异常检测方法,优选地,所述与异常相关的数据包括I/O模式;所述I/O模式包括1

1、N

1、N

M和N

N四种模式;
[0017]当进程数为1,所述I/O模式为1

1;
[0018]当r≥0.5时,所述I/O模式为N

1;
[0019]当0.2≤r<0.5时,所述I/O模式为N

M;
[0020]当r<0.2时,所述I/O模式为N

N;
[0021]其中,所述r为进程数除以文件数的值。
[0022]本专利技术提供的大规模集群的作业异常检测方法,优选地,所述异常类型包括应用I/O低效异常类型、其他应用干扰造成的低效异常类型、系统服务组件造成的低效异常类型;所述应用I/O低效类型主要包括I/O模式、I/O请求大小、元数据开销和非连续访问造成的低效类型;
[0023]其中,I/O模式为N

1和1

1时,会造成低效异常类型;密集的小的I/O请求会造成低效异常类型;元数据开销过大,会造成低效异常类型。
[0024]上述技术方案具有如下优点或者有益效果:
[0025]本专利技术提供的一种大规模集群的作业异常检测方法,包括从数据资料库中联合获取作业性能数据;对获取的作业性能数据进行筛选,获得作业I/O的性能数据;对获得的作业I/O的性能数据进行二次筛选,分成若干独立的I/O阶段,获得I/O阶段数据;获取I/O阶段的总吞吐量、持续时间、带宽峰值、带宽众数作为该I/O阶段的特征数据;将I/O阶段的特征数据与历史I/O阶段特征数据进行聚类,判断I/O阶段的特征数据是否异常。本专利技术通过将将I/O阶段的特征数据与历史I/O阶段特征数据进行聚类,及时发现I/O的性能异常,方便根据判断出的异常类型及时的进行处置解决,以实时对I/O性能进行优化,提升系统资源利用率,提高I/O性能。
附图说明
[0026]通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未刻意按照比例绘制附图,重点在于示出本专利技术的主旨。
[0027]图1是本专利技术实施例1提供的一种大规模集群的作业异常检测方法的流程示意图。
具体实施方式
[0028]下面结合附图和具体的实施例对本专利技术作进一步的说明,但是不作为本专利技术的限定。
[0029]实施例1:
[0030]如图1所示,本专利技术实施例1提供的一种大规模集群的作业异常检测方法,包括
[0031]S101:从数据资料库中联合获取作业性能数据;
[0032]S102:对获取的作业性能数据进行筛选,获得作业I/O的性能数据;
[0033]S103:对获得的作业I/O的性能数据进行二次筛选,分成若干独立的I/O阶段,获得I/O阶段数据;
[0034]S104:获取I/O阶段的总吞吐量、持续时间、带宽峰值、带宽众数作为该I/O阶段的特征数据;
[0035]S105:将I/O阶段的特征数据与历史I/O阶段特征数据进行聚类,判断I/O阶段的特征数据是否异常;
[0036]其中,作业性能数据包括从作业数据库中获取的数据和从系统级数据中获取对应时间内计算节点的性能数据;作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大规模集群的作业异常检测方法,其特征在于,包括从数据资料库中联合获取作业性能数据;对获取的作业性能数据进行筛选,获得作业I/O的性能数据;对获得的作业I/O的性能数据进行二次筛选,分成若干独立的I/O阶段,获得I/O阶段数据;获取I/O阶段的总吞吐量、持续时间、带宽峰值、带宽众数作为该I/O阶段的特征数据;将I/O阶段的特征数据与历史I/O阶段特征数据进行聚类,判断I/O阶段的特征数据是否异常;其中,作业性能数据包括从作业数据库中获取的数据和从系统级数据中获取对应时间内计算节点的性能数据;作业数据库中获取的数据主要包括作业的起止时间和用到的计算节点;从系统级数据中获取对应时间内计算节点的性能数据主要包括读写带宽、读写IOPS、读写请求分布和访问文件;性能数据包括每秒的读写带宽大小、每秒的读写操作数、每秒读写的文件数、每秒进行I/O的进程数、主要访问文件列表、读写请求大小分布、I/O总时间、整体读写连续性。2.如权利要求1所述的大规模集群的作业异常检测方法,其特征在于,在步骤“获取I/O阶段的总吞吐量、持续时间、带宽峰值、带宽众数作为该I/O阶段的特征数据”之后,还包括将I/O阶段的特征数据作为新的特征数据加入到历史I/O阶段特征数据。3.如权利要求1所述的大规模集群的作业异常检测方法,其特征在于,所述“对获得的作业I/O的性能数据进行二次筛选”包括:选择一个小波基函数,对作业I/O的带宽波形信号进行等间隔抽样,得到信号对应的样点序列;基于样点序列进行N级离散小波变换,得到N级不同尺度的小波展开系数;对小波展开系数选择相应的阈值以及阈值规则进行阈值化处理,得到阈值处理后的各级小波展开系数;根据阈值处理后的小波展开系数以及未处理的小波展开系数进行N级重构,得到去噪信号;通过去噪信号,将不同的I/O阶段分离。4.如权利要求1所述的大规模集群的作业异常检测方法,其特征在于,所述步骤...

【专利技术属性】
技术研发人员:薛巍杨斌邵明山矫志宏
申请(专利权)人:无锡恒鼎超级计算中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1