System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度迁移强化学习的APT攻击预测方法技术_技高网

一种基于深度迁移强化学习的APT攻击预测方法技术

技术编号:41107966 阅读:2 留言:0更新日期:2024-04-25 14:01
本发明专利技术涉及一种基于深度迁移强化学习的APT攻击预测方法,属于网络空间安全领域。本发明专利技术搭建用于预测APT下一步攻击的DRLS,将当前时刻的环境信息输入DRLS;进行DRLS和环境的交互,每一轮交互中,智能体从APT数据集中提取相关的数据特征,作为当前状态的输入。LSTM网络根据状态输入,输出当前状态下不同动作的值函数,并将状态‑动作函数进行长期保存。DRLS根据ε‑greedy策略做出动作和环境进行交互,得到当前时刻的奖励以及下一时刻的网络环境状态。进行DRLS的训练过程,训练根据交互得到的经验数组进行,将每次与环境交互得到的经验数组存入经验池中,并添加价值标签。本发明专利技术能更适合动态网络环境,且具有更好的可泛化性。

【技术实现步骤摘要】

本专利技术属于网络空间安全领域,具体涉及一种基于深度迁移强化学习的apt攻击预测方法。


技术介绍

1、在网络空间中,威胁呈现出复杂的形式,包括技能水平不同的内部和外部攻击者。目前,攻击者使用自动化工具来远程利用和控制目标系统。当系统被渗透时,攻击者会利用它们来进行更多的攻击并实现他们的下一个目标。在这种情况下,网络安全态势感知对于分析网络空间以及检测不断变化的威胁非常重要。态势感知是一种可以感知和理解当前状态并预测近期未来的认知过程。然后,可以根据获得的感知进行计划、决策和行动。最高层次的态势感知就是预测,即根据当前所处情况对未来的攻击进行预测。在网络安全态势感知中,对apt的预测最重要的是预测apt的下一步行动。

2、apt攻击由于具有攻击行为特征难以提取、攻击渠道多元化、攻击空间不确定的特点,因此,针对apt攻击的防御检测已成为业界公认的难题。apt攻击过程可以划分为信息侦察、样本投放、初次入侵、对象操控、攻击收益以及事后逃逸6个阶段。目前apt攻击检测方法集中在从技术角度判断攻击行为是否是高级的、多重的以及定制化的。

3、经检索发现,fava等人在《ieee transactions on information forensics andsecurity,vol.3,no.3,pp.359–369,september 2008(ieee信息取证和安全学报,2008年9月,第3卷,第3期,第359–369页)》上发表了题为“projecting cyberattacksthroughvariable-lengthmarkovmodels(通过可变长度马尔可夫模型预测网络攻击)”的文章,文中首次使用了可变长度马尔可夫模型来预测攻击。可变长度马尔可夫模型与在线学习系统非常兼容,因为与隐马尔可夫模型相比具有出色的计算效率,而与固定长度马尔可夫模型相比具有高度的灵活性。sanjana等人在《2020international conference onelectronics and sustainable communication systems(icesc),pp.36-44.ieee,2020(2020年电子与可持续通信系统国际会议(icesc),第36-44页)》上发表了题为“enhancingmulti-step attack prediction using hidden markov model andnaive bayes(使用隐马尔可夫模型和朴素贝叶斯增强多步攻击预测)”的文章,文中构建了使用最广泛且非常适合预测的机器学习模型,隐马尔可夫模型(hmm)和朴素贝叶斯。同时,提出了一种多阶段朴素贝叶斯架构,用于预测多阶段攻击场景的每个阶段。

4、apt的投射需要对渗透过程进行建模。这种模型比入侵检测领域中传统定义要广泛得多,其中重点在于研究系统的漏洞和利用。强化学习可以用于apt的预测。在强化学习问题中,某些智能体通过试错与环境交互,并学习选择最佳行动。在这种类型的学习中,没有外部观察者,智能体独自与环境交互,学习并获得经验,然后获得奖励。

5、在强化学习中,智能体配备了可以获取环境特征的传感器。这些特征描述了环境状态。然后,智能体通过执行一系列操作来影响环境。因此,智能体根据选择的行动在下一时刻收到奖励。当状态和行动数量丰富时,智能体使用神经网络来近似每个状态的最佳行动。同时,迁移学习作为深度学习的一个分支,被用于传递源域中的知识给与源域相关的目标域。其对于提升模型的鲁棒性和收敛速度具有很大帮助。迁移学习和强化学习的结合能够加速强化学习智能体的学习过程,并且可以利用源域训练的知识组合到目标域中,实现一种适应动态变化网络环境下的apt预测方法。


技术实现思路

1、(一)要解决的技术问题

2、本专利技术要解决的技术问题是如何提供一种基于深度迁移强化学习的apt攻击预测方法,通过让智能体和环境进行交互,从而实现网络对已知apt以及未知apt的下一步攻击进行预测。

3、(二)技术方案

4、为了解决上述技术问题,本专利技术提出一种基于深度迁移强化学习的apt攻击预测方法,该方法包括如下步骤:

5、步骤一,搭建用于预测apt攻击行为的深度强化学习网络系统(drls),将当前时刻的环境信息输入drls;

6、步骤二,进行drls和环境的交互;每一轮交互中,智能体从apt数据集中提取相关的数据特征,作为当前状态的输入;长短期记忆(lstm)网络用于近似apt预测动作值函数,根据状态输入,输出当前状态下不同动作的值函数,并将状态-动作函数进行长期保存;drls根据∈-greedy策略做出动作并和环境进行交互,得到当前时刻的奖励以及下一时刻的环境状态;

7、步骤三,进行drls的训练过程,训练将根据交互得到的经验数组进行;将每次与环境交互得到的经验数组存入经验池中,并添加价值标签;

8、步骤四,在q-learning和lstm基础上,设计基于drls的迁移学习方案,以提升drls应对环境变化的能力。

9、(三)有益效果

10、本专利技术提出一种基于深度迁移强化学习的apt攻击预测方法,本专利技术与现有技术相比,具有以下优点:

11、1.在以往的工作中,要实现对高级持续性威胁apt的预测,大部分是采用监督学习方法或者无监督学习方法,这种方法需要使用apt数据集来预测apt的下一步行动,因此无法预测未知apt。本专利技术充分利用深度强化学习的强大的感知能力和决策能力,通过智能体和环境的不断交互,从而学习到关于apt的相关特征信息,进而能够对未知apt的攻击行为完成预测。本专利技术提供的方法能够进一步提高网络空间在受到apt攻击时的防御能力,以提升网络空间安全。

12、2.在一般的强化学习方法中,智能体获取的环境状态信息是外界给予的。为了减少学习、测试以及评估的实现,可以使用apt数据集进行交互。虽然使用数据集可以提高学习和测试的速度,但与环境的交互适合预测未知的apt。本专利技术提出的模型中,使用apt数据集完成智能体的训练过程,使用外部环境来实现智能体的预测过程。既减少了训练时间,也能够对未知apt进行预测。

本文档来自技高网...

【技术保护点】

1.一种基于深度迁移强化学习的APT攻击预测方法,其特征在于,该方法包括如下步骤:

2.如权利要求1所述的基于深度迁移强化学习的APT攻击预测方法,其特征在于,所述步骤一中,DRLS系统包括:Q-learning网络和LSTM网络;其中,基于Q-learning和LSTM的DRLS获取当前时刻的输入数据信息,用于预测APT下一步的LSTM网络以数据的第一部分作为输入,输出各个动作对应的近似Q值,然后DRLS根据贪婪策略,从诸多输出中选择一个动作并执行同时获得奖励以及下一时刻的数据信息;然后把当前时刻的记忆元组存入经验池中,并从中选取一定数量的经验元组对网络进行训练。

3.如权利要求2所述的基于深度迁移强化学习的APT攻击预测方法,其特征在于,DRLS系统的输入输出定义如下:首先,使用Q-learning算法来学习智能体,使用LSTM来近似值函数,在特定状态和动作下提供最大预期回报;智能体使用数据集或与环境交互来规划APT的下一步;输入数据表示为:其中,st由当前时刻的警报特征组成,即st=(IPs,IPd,Ps,Pd,t,type),各个组成部分分别表示为:源IP地址,目标IP地址,源端口号,目标端口号,时间戳以及攻击类型,是指下一步的标签动作,st+1表示下一时刻的警报特征。

4.如权利要求3所述的基于深度迁移强化学习的APT攻击预测方法,其特征在于,所述步骤二中,

5.如权利要求1-4任一项所述的基于深度迁移强化学习的APT攻击预测方法,其特征在于,所述步骤二中,根据输入数据,智能体学习如何预测下一步的攻击;输入数据由三部分组成;第一部分表示时间t的状态st,该部分包括时间t的相关警报的特征;第二部分是步骤t+1中的数据标签本部分显示了步骤t+1中的攻击标签;第三部分描述了在时间t+1处的状态,即在时间t+1的相关警报的特征st+1;当前的深度强化学习系统DRLS作为智能体,LSTM以当前时刻的状态st作为输入,输出各个动作的Q值,即Q(st,{a}),其中{a}是动作集合;然后智能体采取贪婪策略,选择并执动作,即APT攻击的下一步然后,将该动作和APT的下一步标签进行比较,如果则智能体获得奖励rt=1,否则,rt=0;DRLS就会进入下一个状态st+1。

6.如权利要求5所述的基于深度迁移强化学习的APT攻击预测方法,其特征在于,所述步骤三中,训练时使用DAPT2020数据集,DAPT2020没有空数据,但其正常流量有时会被标记为“正常”,有时被标记成“良性”;将良性值替换为正常值,然后,在数据集记录中指定了下一步攻击;此时,每个数据记录的下一步定义如下:如果当前数据标签正常,则下一步是在当前数据之后按时间记录的第一个数据,并且其源IP地址与当前数据相同,如果当前数据标签不正常,则攻击的下一步是在当前数据之后按时间记录的第一个攻击数据;否则,当前数据被视为最后一个流量数据,自然不会定义该数据的下一步,并将从数据集中删除。

7.如权利要求5所述的基于深度迁移强化学习的APT攻击预测方法,其特征在于,所述步骤三中,使用均方误差MSE作为神经网络的损失函数,使用Adam优化器进行网络优化;Q-learning算法的实现过程表示为:(1)初始化值函数Q(s,{a});(2)在每个周期下,初始化攻击步骤s,并使用由Q派生的策略从s中选择攻击标签a,即贪婪策略;(3)采取动作a,观察r,s';(4)由Q(st,at)+α[rt+1+γmaxaa(st+1,at+1)-Q(st,at)]更新Q(st,at),并根据s'获得s,直到处理完所有的s,其中α是网络的学习率,γ是一个衰减值,是一个预先定义的0-1范围内的常数。

8.如权利要求7所述的基于深度迁移强化学习的APT攻击预测方法,其特征在于,第一部分数据被输入到LSTM神经网络中,以近似时间t时状态的不同动作的值函数;在这种情况下,LSTM近似正在进行的攻击的下一步的值函数;基于贪婪策略,具有最高价值函数的行为以∈的概率被选择;然后,将近似值与攻击的下一步的主标签进行比较,该主标签是输入数据的第二部分;如果比较结果相等,则将奖励+1给予智能体;否则,给予奖励0;输入的第三部分用于计算误差函数和更新LSTM;因此,在时间t+1的状态表达特征被输入到第二个LSTM中,用于不同动作的值函数的近似;采用的策略为选择具有最大价值的动作,即动作是攻击的下一步;然后,利用在t时刻状态下由LSTM得出的近似Q值,计算与参考值qref之间的均方误差损失其中是在处的近似值;将时间t处的奖励rt与时间t+1处状态的Q值相乘,获得参考值其中λ因子表示衰减值;

9.如权利要求8所述的基于深度迁移强化学习的A...

【技术特征摘要】

1.一种基于深度迁移强化学习的apt攻击预测方法,其特征在于,该方法包括如下步骤:

2.如权利要求1所述的基于深度迁移强化学习的apt攻击预测方法,其特征在于,所述步骤一中,drls系统包括:q-learning网络和lstm网络;其中,基于q-learning和lstm的drls获取当前时刻的输入数据信息,用于预测apt下一步的lstm网络以数据的第一部分作为输入,输出各个动作对应的近似q值,然后drls根据贪婪策略,从诸多输出中选择一个动作并执行同时获得奖励以及下一时刻的数据信息;然后把当前时刻的记忆元组存入经验池中,并从中选取一定数量的经验元组对网络进行训练。

3.如权利要求2所述的基于深度迁移强化学习的apt攻击预测方法,其特征在于,drls系统的输入输出定义如下:首先,使用q-learning算法来学习智能体,使用lstm来近似值函数,在特定状态和动作下提供最大预期回报;智能体使用数据集或与环境交互来规划apt的下一步;输入数据表示为:其中,st由当前时刻的警报特征组成,即st=(ips,ipd,ps,pd,t,type),各个组成部分分别表示为:源ip地址,目标ip地址,源端口号,目标端口号,时间戳以及攻击类型,是指下一步的标签动作,st+1表示下一时刻的警报特征。

4.如权利要求3所述的基于深度迁移强化学习的apt攻击预测方法,其特征在于,所述步骤二中,

5.如权利要求1-4任一项所述的基于深度迁移强化学习的apt攻击预测方法,其特征在于,所述步骤二中,根据输入数据,智能体学习如何预测下一步的攻击;输入数据由三部分组成;第一部分表示时间t的状态st,该部分包括时间t的相关警报的特征;第二部分是步骤t+1中的数据标签本部分显示了步骤t+1中的攻击标签;第三部分描述了在时间t+1处的状态,即在时间t+1的相关警报的特征st+1;当前的深度强化学习系统drls作为智能体,lstm以当前时刻的状态st作为输入,输出各个动作的q值,即q(st,{a}),其中{a}是动作集合;然后智能体采取贪婪策略,选择并执动作,即apt攻击的下一步然后,将该动作和apt的下一步标签进行比较,如果则智能体获得奖励rt=1,否则,rt=0;drls就会进入下一个状态st+1。

6.如权利要求5所述的基于深度迁移强化学习的apt攻击预测方法,其特征在于,所述步骤三中,训练时使用dapt2020数据集,dapt2020没有空数据,但其正常流量有时会被标记为“正常”,有时被标记成“良性”;将良性值替换为正常值,然后,在数据集记录中指定了下一步攻击;此时,每个数据记录的...

【专利技术属性】
技术研发人员:刘伟宋焱淼顾泽宇李杰康欣昕刘自豪张璐田聪荣婉婷卫艺翔郑文庆刘兴才
申请(专利权)人:中国人民解放军六一六六零部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1