针对大数据处理平台Hadoop的攻击方法技术

技术编号:24176274 阅读:45 留言:0更新日期:2020-05-16 04:45
本发明专利技术属于计算机领域中的大数据安全领域,涉及针对大数据处理平台Hadoop的攻击方法。具有推测任务调度攻击模型、心跳攻击模型、数据攻击模型和Shuffle攻击;推测任务调度攻击模型针对集群中推测任务调度算法攻击,能拖慢个别任务的执行,进而拖慢整个作业的执行;心跳攻击模型针对集群中心跳机制的攻击,将心跳的发送时间延长到超时时间,影响集群的性能;数据攻击模型对mapreduce任务执行过程中中间数据攻击,对中间结果的内容进行修改、删除和增加等操作,影响整个作业执行结果;Shuffle攻击模型对集群在任务执行过程中Shuffle阶段攻击,通过延长Shuffle阶段的执行时间延长整个任务执行时间。

Attack methods for Hadoop, a big data processing platform

【技术实现步骤摘要】
针对大数据处理平台Hadoop的攻击方法
本专利技术属于计算机领域中的大数据安全领域,涉及针对大数据处理平台Hadoop的攻击方法。
技术介绍
随着云计算和大数据的兴起和发展,越来越多的企业和用户使用Hadoop和Spark等大数据处理平台来处理和分析海量数据。例如,平台即服务(PAAS)平台通过云计算技术提供应用程序开发和运行时环境。由于大数据分析的结果为大量应用程序提供了关键信息,因此数据处理框架的安全性成为一个非常重要的问题。现有的大数据处理平台是分布式平台。所有操作不在一台机器上执行,而是分布在不同的机器上,这可以缩短作业的执行时间并提高执行效率。但是,由于集群规模较大,用户无法处理每个节点,这使得一些恶意用户有机会攻击这些节点[1][2]。在Hadoop集群中,由于集群的规模较大,用户无法针对每个节点进行处理,这就使得一些恶意的用户有了攻击节点的机会。现有的技术和专利技术并没有对Hadoop集群中可能出现的安全风险进行系统的研究和实验分析;现有的研究既没有系统地研究Hadoop的安全风险,也没有通过实验评估这些安全风险对Hadoop的威胁。论文“FuX,GaoY,LuoB,etal.SecurityThreatstoHadoop:DataLeakageAttacksandInvestigation[J].IEEENetwork,2017,31(2):67-71.”虽然针对数据泄露攻击进行了详细的分析,但是并没有给出攻击的具体实现方案,并且也没有和其他类型的攻击方案做对比。论文“WangJ,WangT,YangZ,etal.SEINA:AStealthyandEffectiveInternalAttackinHadoopSystems[C]//InternationalConferenceonComputing,NetworkingandCommunications(ICNC2017).IEEE,2017:525-530.”提出了一种Hadoop内部的攻击方案,但它也同样没有对其他的安全漏洞进行分析,并且和其它的攻击方案进行对比。本说明书中提到的文献来源于如下的期刊:[1]FuX,GaoY,LuoB,etal.SecurityThreatstoHadoop:DataLeakageAttacksandInvestigation[J].IEEENetwork,2017,31(2):67-71。[2]WinTY,TianfieldH,MairQ.BigDataBasedSecurityAnalyticsforProtectingVirtualizedInfrastructuresinCloudComputing[J].IEEETransactionsonBigData,2018:11-25。[3]YangHC.Map-reduce-merge:simplifiedrelationaldataprocessingonlargeclusters[J].2007ACMSIGMODInternationalConfnerenceonManagementofData,2007:2019-1040。[4]DasR,SinghRP,PatgiriR.MAPREDUCESCHEDULER:A360-DEGREEVIEW[J].2017:88-100。[5]GaoY,FuX,LuoB,etal.Haddle:AFrameworkforInvestigatingDataLeakageAttacksinHadoop.[C]//IEEEGlobalCommunicationsConference.IEEE,2015:1-6。[6]KhorshedMT,SharmaNA,DuttAV,etal.RealtimeshuffleattackanalysisonHadoopecosystemusingmachinelearningalgorithms[C]//ComputerScience&Engineering.IEEE,2016,pp:1-7。
技术实现思路
本专利技术的目的是针对上述不足之处提出针对大数据处理平台Hadoop的攻击方法,该方法中包括四种攻击模型,以保证管理员在Hadoop集群发生问题时可以根据问题的特征迅速定位到问题发生的原因;针对Hadoop集群可能出现的安全进行了详细的分析,并从内部攻击和外部攻击两个部分系统的描述了Hadoop集群可能出现的安全威胁,并且在此基础上设计了四种针对Hadoop集群的攻击方法模型,为用户定位集群问题提供了一种有效的思路和方案。本专利技术是采取以下技术方案实现的:针对大数据处理平台Hadoop的攻击方法的四种攻击模型,包括推测任务调度攻击模型、心跳攻击模型、数据攻击模型和Shuffle攻击,这四种攻击模型是基于大数据处理框架Hadoop的攻击模型。所述推测任务调度攻击(MRSpeculativeAttack)模型,主要是针对Hadoop集群中推测任务调度算法的攻击,Hadoop集群将会为执行较慢的任务创建一个推测任务,通过该攻击方案,可以选取一部分正常的任务,暂缓这些任务的执行,直到Hadoop集群将要为它们创建推测任务时再将它们唤醒。推测任务调度攻击模型可以拖慢个别任务的执行,进而拖慢整个作业的执行。所述心跳攻击(HeartBeatAttack)模型,主要是针对Hadoop集群中心跳机制的攻击。在Hadoop集群中,NameNode(文件系统目录节点)和DataNode(文件系统数据节点)、JobTracker(作业跟踪器)和TaskTracker(任务跟踪器)通过心跳机制进行通信,并且每3秒发送一次心跳,为了防止心跳时间过长,Hadoop设置了一个超时时间,如果超过超时时间还没有发送心跳,则master节点(主节点)就会将该节点标记为dead节点(死亡节点)。心跳攻击模型可以将心跳的发送时间延长到超时时间,将会在很大程度上影响集群的性能。所述数据攻击(DataAttack)模型,是针对mapreduce任务执行过程中中间数据的攻击。Hadoop集群将作业分为多个map(映射)任务和多个reduce(削减)任务,map任务产生中间结果,reduce任务利用这些中间结果生成最终的结果。该攻击方案可以对中间结果的内容进行修改、删除和增加等操作,从而影响整个作业的执行结果。所述Shuffle攻击(ShuffleAttack)模型,是针对Hadoop集群在任务执行过程中Shuffle(洗牌)阶段的攻击。在hadoop中,大多数map和reduce任务都在不同的节点上执行。reduce任务需要在其他节点上提取map任务的结果。map任务生成的数据需要通过网络I/O传输到reduce任务。这个过程叫做Shuffle(洗牌)。Shuffle(洗牌)阶段的时间占据执行时间的很大一部分。该攻击方案通过延长Shuffle(洗牌)阶段的执行时间从而延长整个任务的执行时间。推测任务调度攻击模型的攻击步本文档来自技高网
...

【技术保护点】
1.一种针对大数据处理平台Hadoop的攻击方法,其特征在于,具有四种攻击模型,包括推测任务调度攻击模型、心跳攻击模型、数据攻击模型和Shuffle攻击,这四种攻击模型是基于大数据处理框架Hadoop的攻击模型;/n所述推测任务调度攻击模型MR Speculative Attack,主要针对Hadoop集群中推测任务调度算法的攻击,Hadoop集群将会为执行较慢的任务创建一个推测任务,通过该攻击方案,能够选取一部分正常的任务,暂缓这些任务的执行,直到Hadoop集群将要为它们创建推测任务时再将它们唤醒;推测任务调度攻击模型能够拖慢个别任务的执行,进而拖慢整个作业的执行;/n所述心跳攻击模型HeartBeat Attack,主要是针对Hadoop集群中心跳机制的攻击;心跳攻击模型能将心跳的发送时间延长到超时时间,影响集群的性能;/n所述数据攻击模型Data Attack,是针对mapreduce任务执行过程中中间数据的攻击;该攻击方案能够对中间结果的内容进行修改、删除和增加等操作,从而影响整个作业的执行结果;/n所述Shuffle攻击模型Shuffle Attack,是针对Hadoop集群在任务执行过程中Shuffle阶段的攻击;该攻击方案通过延长Shuffle阶段的执行时间从而延长整个任务的执行时间。/n...

【技术特征摘要】
1.一种针对大数据处理平台Hadoop的攻击方法,其特征在于,具有四种攻击模型,包括推测任务调度攻击模型、心跳攻击模型、数据攻击模型和Shuffle攻击,这四种攻击模型是基于大数据处理框架Hadoop的攻击模型;
所述推测任务调度攻击模型MRSpeculativeAttack,主要针对Hadoop集群中推测任务调度算法的攻击,Hadoop集群将会为执行较慢的任务创建一个推测任务,通过该攻击方案,能够选取一部分正常的任务,暂缓这些任务的执行,直到Hadoop集群将要为它们创建推测任务时再将它们唤醒;推测任务调度攻击模型能够拖慢个别任务的执行,进而拖慢整个作业的执行;
所述心跳攻击模型HeartBeatAttack,主要是针对Hadoop集群中心跳机制的攻击;心跳攻击模型能将心跳的发送时间延长到超时时间,影响集群的性能;
所述数据攻击模型DataAttack,是针对mapreduce任务执行过程中中间数据的攻击;该攻击方案能够对中间结果的内容进行修改、删除和增加等操作,从而影响整个作业的执行结果;
所述Shuffle攻击模型ShuffleAttack,是针对Hadoop集群在任务执行过程中Shuffle阶段的攻击;该攻击方案通过延长Shuffle阶段的执行时间从而延长整个任务的执行时间。


2.根据权利要求1所述的针对大数据处理平台Hadoop的攻击方法,其特征在于,推测任务调度攻击模型的攻击步骤如下:
M1-1)在节点管理器中内置一个slave节点监测模块,该模块监测分配给节点的map和reduce任务,slave节点即从节点;
M1-2)从步骤M1-1)中所述的map任务和reduce任务中选取一部分任务task作为攻击目标,保证不会被安全机制监测到,暂停这些任务的执行,将任务进入休眠状态,Hadoop机制将会监测这些任务的执行进度;
M1-3)预估步骤M1-2)中的攻击目标任务和推测任务的完成时间,直到Hadoop要开始执行推测任务代替这些攻击目标任务时,再唤醒这些攻击目标任务;所述推测任务指的是在Hadoop集群中,如果一个任务执行的过慢,集群管理节点将会启动一个任务代替执行慢的任务,这个任务叫做推测任务,也叫Speculative任务。


3.根据权利要求2所述的针对大数据处理平台Hadoop的攻击方法,其特征在于,所述步骤M1-2)中选取的任务task数目少于master节点将该slave节点标记为不可用的数目,保证不会被Hadoop的安全机制发现;所述master节点即主节点。


4.根据权利要求2所述的针对大数据处理平台Hadoop的攻击方法,其特征在于:
步骤M1-3)中所述的攻击目标任务执行时间预估公式为公式1,
TimeComplete=Tnow+((1-P)*T)/P公式1;
其中Tnow代表当前时间;P代表任务完成的进度,它近似的等于任务读取的输入数据占整个输入数据的百分比;T代表任务已经执行的时间;
通过公式2预估如果开始推测任务,那么推测任务的结束时间STimeComplete;
STimeComplete=Tnow+Tmean公式2,
其中Tnow代表当前时间;Tmean代表与当前任...

【专利技术属性】
技术研发人员:孙杰沈祥红王亚炜
申请(专利权)人:江苏海平面数据科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1