一种云集群环境下的异常作业预测方法技术

技术编号:20221580 阅读:27 留言:0更新日期:2019-01-28 20:09
一种云集群环境下的异常作业预测方法。其包括从原始任务集中获取任务集;从任务集中提取任务的静态特征;经过支持向量机将任务分为正常任务和异常任务;计算正常任务'动态特征,并构成动态特征序列;利用改进的单元门控递归神经网络同时对多个时刻的动态特征序列进行在线处理;检索异常任务的ID,若检索出ID一致的异常任务,则停止其运行,并将该异常任务所属作业标记为异常作业等步骤。本发明专利技术提供的云集群环境下的异常作业预测方法在准确度及预测时间等方面明显优于其他方法,从而能够有效控制异常作业能耗。

【技术实现步骤摘要】
一种云集群环境下的异常作业预测方法
本专利技术属于网络信息安全
,特别是涉及一种云集群环境下的异常作业预测方法。
技术介绍
云计算近年来成为现代社会信息化的重要组成部分,其不仅能够为科学、工业和商业提供非常高效、先进的工具,也为普通用户日常处理数据提供了一个平台。用户上传的数据和任务由云提供商进行管理,调度,并以几乎完全自动化的方式进行处理。在云集群环境下的计算过程中,大量的作业同时被处理、运行,如何在云计算系统下保证海量的作业快速而有效的运行是十分必要的,与此同时,如何保证云计算系统处理的任务都是可靠的,不惧威胁性的,不会恶意损坏用户存放在云端的资源或者云服务器,这对于用户和云提供商来说都是必不可少的。通常那些会对云计算系统安全造成威胁的作业我们称之为异常作业。预测异常作业不仅可以快速识别海量的待处理作业,将正常的作业放置到运行队列中,中止运行异常作业,可以有效地防止异常作业对云计算系统以及平台下存储的资源造成威胁。通过分析Google发布的数据中心资源负载日志,发现超过670000个作业,囊括了2600万个任务中只有57.6%的任务被成功执行,超过40%的任务因发生异常被云计算系统终止。同时由于一个作业通常会被划分成多个任务执行,某一任务的异常也会影响整个作业终止状态。为了提高计算的效率,云计算系统会对异常任务进行反复调度,并且由于云集群平台没有调度次数限制,对异常任务的反复调度会显著增加调度负载,从而导致云计算系统资源剧烈变动,而这可能被攻击者利用实施任务注入攻击或拒绝服务攻击。不仅对云集群系统产生危害,也会威胁云集群系统的用户隐私。在动态云集群环境中,预测作业终止状态是否异常的方法已成为目前的研究趋势。而异常作业预测,主要就是对作业进行分类。将作业分成正常与异常的,执行正常的作业,同时直接中止对异常作业的调度或者运行。现在主流的对作业进行预测的方法就是支持向量机模型、长短时记忆模型和在线序列极限学习机方法,通过已知数据集的训练,使上述模型能够在任务执行之前快速判断出任务是否正常以及任务是否会恶意消耗系统资源,有效的防止了任务注入攻击、拒绝服务攻击等系统安全问题。但目前尚缺少有效的方法。
技术实现思路
为了解决上述问题,本专利技术的目的在于提供一种云集群环境下的异常作业预测方法(AJP-IGRU)。为了达到上述目的,本专利技术提供的云集群环境下的异常作业预测方法包括按顺序进行的下列步骤:1)从原始任务集中获取任务集;原始任务集选用Google发布的集群任务性能数据集中前10天的任务数据集,该任务数据集中包含18623个作业,随机选取18000个作业,这些作业一共包括了650万个任务,每个作业包括一或者多个任务,由所有任务组成任务集;2)从上述任务集中提取任务的静态特征;在任务总量为N的任务集中,针对待处理任务,提取其在线时已具备的静态特征,并由所有静态特征构成静态特征序列αni(n=1,2,...,n);3)在离线状态下,将上述静态特征序列αni作为支持向量机的输入,经过支持向量机计算最大间隔超平面之后,将所有任务分为能够在云集群环境下成功执行的“正常任务”和无法正常完成且可能造成云集群系统负载过大的“异常任务”两种类型,如果分类结果为正常任务,执行步骤4);而如果分类结果为异常任务,云集群系统直接停止对其进行调度,并跳转至步骤6);4)计算第t个时刻云集群系统处理的正常任务'的动态特征,并由所有动态特征构成动态特征序列;5)利用改进的单元门控递归神经网络同时对多个时刻的动态特征序列进行在线处理,以预测该正常任务的终止状态,一旦预测出该正常任务的终止状态为异常,则立即终止该正常任务的运行并跳转至步骤6);若无异常,则继续运行该正常任务;6)检索步骤3)和步骤5)中确定出的异常任务的ID,若检索出ID一致的异常任务,则停止其运行,并将该异常任务所属作业标记为异常作业,由此完成预测过程。在步骤2)中,所述的静态特征包括调度类、任务同ID的任务数、任务优先级、任务的请求资源量。在步骤3)中,所述的经过支持向量机计算最大间隔超平面的方法如下:对于输入的静态特征序列αni,求正常任务与异常任务的最大间隔超平面问题等价于求解下面公式中二次优化问题:其中,ω为分类平面的法向量,e为常量,G为惩罚参数,ξi为允许任务偏离平面的距离。在步骤4)中,所述的计算动态特征具体方法如下:对于正常任务i在运行阶段中的第t个时刻,若此时刻资源占用量Zt满足公式(2),则该正常任务的异常次数Qi加1;其中,Vavr表示第t个时刻之前资源占用量的平均值;同时,若第t个时刻及第t-1个时刻满足公式(3),则异常次数Qi累计加1;Vmax表示第t个时刻之前资源占用量变动的最大值;将正常任务i在第t个时刻的资源占用量Zt、异常次数Qi作为其特征值,并将这些特征值称为正常任务i在第t个时刻的动态特征;由所有动态特征构成第t个时刻的动态特征序列βki(k=1,2,..,k)。在步骤5)中,所述的利用改进的单元门控递归神经网络对多个时刻的动态特征序列进行在线处理的方法如下:步骤1:正常任务i在第t个时刻时,将上一时刻t-1的输出状态信息ht-1和第t个时刻的动态特征序列βki由输入节点Ic输入改进的单元门控递归神经网络中的重置门rc与更新门zc;步骤2:利用重置门与更新门同时对上述信息进行处理,其中重置门rc决定上一时刻t-1的输出状态信息ht-1中信息的丢弃程度,并由公式(4)计算出信息丢弃之后的状态值vt:vt=μ(xtWr+ht-1Ur)(4)其中,Wr为第t个时刻到重置门rc的连接矩阵,Ur表示上一时刻t-1到重置门rc的连接矩阵,μ为动态权重,该值可由公式(5)计算得到;其中,Qk为第t个时刻所属窗口中的异常次数,为常数;更新门zc则控制上一时刻t-1的输出状态信息ht-1被保留在当前状态中的程度,由公式(6)可得到更新后的状态值ut:ut=μ(xtWz+ht-1Uz)(6)其中,Wz为第t个时刻到更新门zc的连接矩阵,Uz是上一时刻t-1到更新门zc的连接矩阵;步骤3:使用tanh激活函数处理信息丢弃之后的状态值vt,得到待选状态值st:其中,W为第t个时刻到待选状态值st的连接矩阵,U是上一时刻t-1到待选状态值st的连接矩阵;步骤4:在IGRU中,将信息丢弃之后的状态值vt与更新后的状态值ut以及待选状态值st在隐含层融合,得到丢弃了次要信息同时保留重要信息的隐含层状态值ht;ht=(1-ut)ht-1+utst(8)步骤5:将第t个时刻的最终输出信息pt由输出节点Oc输出并作为下一时刻ht+1的状态信息:其中,WO表示第t个时刻到输出节点Oc的连接矩阵。本专利技术提供的云集群环境下的异常作业预测方法,目的是为解决传统云集群异常作业预测方法效率低、预测时间长的问题。方法从作业子任务的静态特征及动态特征角度分别考虑作业异常。首先,离线阶段采用静态特征初步分类任务;根据动态特征提出一种改进门控递归单元神经网络,之后再依据动态特征在线预测异常任务;依据作业与任务的相关性检索异常作业并实现对异常作业的预测。实验结果表明,与其他方法相比,本文方法在灵敏度、精确度和时间占比方面具有明显优势。附图说明图1为任务生命周期示意图;图2为改进的本文档来自技高网
...

【技术保护点】
1.一种云集群环境下的异常作业预测方法,其特征在于:所述的云集群环境下的异常作业预测方法包括按顺序进行的下列步骤:1)从原始任务集中获取任务集;原始任务集选用Google发布的集群任务性能数据集中前10天的任务数据集,该任务数据集中包含18623个作业,随机选取18000个作业,这些作业一共包括了650万个任务,每个作业包括一或者多个任务,由所有任务组成任务集;2)从上述任务集中提取任务的静态特征;在任务总量为N的任务集中,针对待处理任务,提取其在线时已具备的静态特征,并由所有静态特征构成静态特征序列αni,其中n=1,2,...,n;3)在离线状态下,将上述静态特征序列αni作为支持向量机的输入,经过支持向量机计算最大间隔超平面之后,将所有任务分为能够在云集群环境下成功执行的“正常任务”和无法正常完成且可能造成云集群系统负载过大的“异常任务”两种类型,如果分类结果为正常任务,执行步骤4);而如果分类结果为异常任务,云集群系统直接停止对其进行调度,并跳转至步骤6);4)计算第t个时刻云集群系统处理的正常任务'的动态特征,并由所有动态特征构成动态特征序列;5)利用改进的单元门控递归神经网络同时对多个时刻的动态特征序列进行在线处理,以预测该正常任务的终止状态,一旦预测出该正常任务的终止状态为异常,则立即终止该正常任务的运行并跳转至步骤6);若无异常,则继续运行该正常任务;6)检索步骤3)和步骤5)中确定出的异常任务的ID,若检索出ID一致的异常任务,则停止其运行,并将该异常任务所属作业标记为异常作业,由此完成预测过程。...

【技术特征摘要】
1.一种云集群环境下的异常作业预测方法,其特征在于:所述的云集群环境下的异常作业预测方法包括按顺序进行的下列步骤:1)从原始任务集中获取任务集;原始任务集选用Google发布的集群任务性能数据集中前10天的任务数据集,该任务数据集中包含18623个作业,随机选取18000个作业,这些作业一共包括了650万个任务,每个作业包括一或者多个任务,由所有任务组成任务集;2)从上述任务集中提取任务的静态特征;在任务总量为N的任务集中,针对待处理任务,提取其在线时已具备的静态特征,并由所有静态特征构成静态特征序列αni,其中n=1,2,...,n;3)在离线状态下,将上述静态特征序列αni作为支持向量机的输入,经过支持向量机计算最大间隔超平面之后,将所有任务分为能够在云集群环境下成功执行的“正常任务”和无法正常完成且可能造成云集群系统负载过大的“异常任务”两种类型,如果分类结果为正常任务,执行步骤4);而如果分类结果为异常任务,云集群系统直接停止对其进行调度,并跳转至步骤6);4)计算第t个时刻云集群系统处理的正常任务'的动态特征,并由所有动态特征构成动态特征序列;5)利用改进的单元门控递归神经网络同时对多个时刻的动态特征序列进行在线处理,以预测该正常任务的终止状态,一旦预测出该正常任务的终止状态为异常,则立即终止该正常任务的运行并跳转至步骤6);若无异常,则继续运行该正常任务;6)检索步骤3)和步骤5)中确定出的异常任务的ID,若检索出ID一致的异常任务,则停止其运行,并将该异常任务所属作业标记为异常作业,由此完成预测过程。2.根据权利要求1所述的云集群环境下的异常作业预测方法,其特征在于:在步骤2)中,所述的静态特征包括调度类、任务同ID的任务数、任务优先级、任务的请求资源量。3.根据权利要求1所述的云集群环境下的异常作业预测方法,其特征在于:在步骤3)中,所述的经过支持向量机计算最大间隔超平面的方法如下:对于输入的静态特征序列αni,求正常任务与异常任务的最大间隔超平面问题等价于求解下面公式中二次优化问题:其中,ω为分类平面的法向量,e为常量,G为惩罚参数,ξi为允许任务偏离平面的距离。4.根据权利要求1所述的云集群环境下的异常作业预测方法,其特征在于:在步骤4)中,所述的计算动态特征具体方法如下:对于正常任务i在运行阶...

【专利技术属性】
技术研发人员:谢丽霞汪子荧杨宏宇
申请(专利权)人:中国民航大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1