基于攻防对抗的电力信息网络安全策略学习装置及方法制造方法及图纸

技术编号:18623463 阅读:17 留言:0更新日期:2018-08-08 01:34
本发明专利技术公开了一种基于攻防对抗的电力信息网络安全策略学习装置及方法,包括设备网络、攻击智能体以及防御智能体,若干攻击智能体同时攻击设备网络,若干防御智能体同时防御,在对抗过程中,防御者智能体通过增加防御值来提高对某种类型攻击的防御能力,增加检测值来提高对某种类型攻击的检测能力。随着防御值的提高,攻击智能体使用特定类型的入侵该设备节点越来越困难,但其他计算机设备节点能使用该计算机设备节点的服务的便利性也下降;通过提高检测值,该设备节点成功检测出攻击的可能性也提高,但耗费的计算资源也随之提高。因此,整体网络的总体防御值和检测值应小于等于预设值。通过模拟对抗,以最小的防御和检测代价,获得最优的安全策略。

Power information network security learning device and method based on attack defense confrontation

The invention discloses an electric power information network security strategy learning device and method based on attack and defense confrontation, including device network, attack agent and defense agent. Several attack agents attack device network simultaneously, several defense agents are defended simultaneously. In the course of antagonism, the defender agent is increased by increasing defense. To improve the defense ability of certain types of attacks, increase the detection value to improve the detection ability of certain types of attacks. As the defense value increases, it is becoming more and more difficult for the attack agent to invade the device node with a specific type, but the convenience of the other computer device nodes can use the service of the computer device node; by improving the detection value, the possibility of the attack is also improved by the device node. The calculation of resources is also increasing. Therefore, the overall defense and detection values of the overall network should be less than or equal to the default value. By simulating confrontation, the optimal security policy is obtained with the minimum cost of defense and detection.

【技术实现步骤摘要】
基于攻防对抗的电力信息网络安全策略学习装置及方法
本专利技术涉及一种电力信息系统安全领域,具体涉及一种基于攻防对抗的电力信息网络安全策略学习装置及方法。
技术介绍
电力系统是现代社会生产、生活的重要基础。有效的电力设备管理是电力供应的保障,随之出现了大量电力信息系统。近年来,随着电力信息系统的建设,相关的信息网络规模不断增大,网络也变得越来越复杂。如何学习、制定信息网络安全策略,从而有效的保护网络,给予网络中的成员提供安全是一项复杂的任务。而事实上,计算机的安全、使用便利性、耗费的计算资源之间存在着平衡关系:提高安全防御之后会降低计算机使用的便利性,增加计算机攻击检测的能力则会需要分配更多的计算资源,从而降低该设备节点计算机实际可分配的计算资源。因此,如何信息根据网络的实际配置情况,预判、检测攻击,制定安全策略,从而有效的平衡预防、检测、使用便利性和计算资源,是一个亟待解决的问题。尽管很多研究人员的方法可以针对可能的行为进行预先设计和编程,但是随着网络安全的任务越来越复杂,同时网络中的环境,存在未知性、不确定性,并且会动态发生变化,从而进一步加剧了所要解决问题的复杂性,使得设计人员很难事先对动态变化的环境做出有效预测,预设的安全策略也无法适用于实际情况。因此,设计一种能够具有在线学习能力的安全控制方法,动态调整安全控制显得尤为重要。强化学习(ReinforcementLearning)通过采用不断试错式的学习方式以获取最优的行为策略。目前,很多强化学习方法都在实时、在线行为学习方面表现出了良好的性能,非常适用于在线学习及实时控制、优化任务。如何通过强化学习获得电力信息网络完全策略是本领域亟待解决的问题。
技术实现思路
在本专利技术中,攻击智能体和防御智能体,通过模拟对抗在线式学习的安全策略。在模拟的对抗过程中,攻击智能体试图以最小的代价攻击电力信息网络的计算机,而防御智能体则尽力以最小的代价发现攻击、保护电力信息网络,防止其被攻克。攻击智能体采用带有软最大化的蒙特卡洛学习最优攻击策略,防御智能体采用最大置信上界的Q学习最优防御策略。两个智能体均通过学习算法获得最大的收益。电力信息网络由若干设备节点和线路按照某种拓扑结构连接而成。设备节点是网络中的计算机,如服务器,设备节点通过线路连接,当且仅当设备节点之间有线路连接时,可以从一个设备节点访问另一个设备节点。有以下三种类型的设备节点:起始设备节点,是攻击智能体在对抗访问游戏起始阶段的设备节点;目标设备节点,是网络中包含有价值数据的设备节点,是“重要”设备节点,不能被入侵,否则将遭受较大的损失,对网络造成的影响较大,如果攻击智能体成功攻击该设备节点,则以攻击智能体胜利结束;中间设备节点,位于起始设备节点和目标设备节点之间,为了到达目标设备节点,需要攻击这些中间设备节点,以形成一条从起始设备节点到目标设备节点的网络通路,这些中间设备节点是“一般”设备节点,如果被入侵,则损失相对较小,对网络造成的影响也较小。电力信息网络包括了若干“一般”设备节点和若干“重要”设备节点。攻击智能体可以选择任意的一个“一般”设备节点作为“起始”设备节点,选择一个“重要”设备节点作为“目标”设备节点展开攻击。在攻击的过程中,每个计算机设备节点都有可能成为攻击智能体的目标。入侵行为可以视为从某个设备节点设备攻击其他设备节点设备,攻击包括了攻击类型和攻击强度值,攻击强度表示入侵行为的危害程度。由于每个设备节点的配置不同,因此,不同类型的攻击在不同的攻击强度配置下对设备节点造成的威胁也不同;随着攻击强度的增加,攻击被检测出的可能性就越高。在网络中,有p(p>0)个攻击智能体同时发动攻击,其中某个攻击智能体定义为Attackerx(a1,L,an),(1≤x≤p),每个攻击智能体具有n种攻击方法a1,L,an,每种攻击方式包括了攻击类型a_type和攻击强度值a_strength。攻击强度值是取值范围为1到10的整数,值越大,表明攻击能力越强。防御智能体具备防御和检测能力。防御智能体通过防御攻击、检测入侵来实现安全防御。网络中共有q(q>0)个防御智能体,其中某个防御智能体定义为Defendery(defence,dectect),(1≤y≤q),defence描述防御智能体对攻击的防御情况,defence定义为defence(def1,L,defn),其中defi(a_type,def_strength)(1≤i≤n)是防御智能体对攻击类型a_type的防御值,dectect定义为防御智能体对入侵的检测情况,dectect定义为dectect(det1,L,detn),其中deti(1≤i≤n)是对攻击类型a_type的检测值。防御值、检测值是取值范围为1到10的整数,值越大,表明防御和检测能力越强。每个设备节点都有一个发现概率,描述了设备节点发现入侵的一个概率折扣。设备节点i检出攻击智能体x以攻击强度值为a_strength的a_type类型入侵的概率由防御值、攻击强度、发现概率和检测值决定,计算方法如下:检出概率=((设备节点i对攻击类型a_type的防御值*攻击智能体x攻击类型为a_type的攻击强度值a_strength)*设备节点i的发现概率+设备节点i的检测值)/100*100%。攻击智能体和防御值智能体的攻防模拟过程是一个对抗过程。在网络中,有p个攻击智能体和q个防御智能体同时进行对抗。为了保证网络资源的可用性,必须将安全防御限制到一定程度,同时也要限制用于检测的计算资源。定义整个网络的总防御值def_all、总可用防御值def_ava、总已用防御值def_used,其中整个网络的总防御值def_all、总可用防御值def_ava、总已用防御值def_used均是大于等于0的整数,且满足:def_all=def_ava+def_used。定义整个网络的总检测值dec_all、总可用检测值dec_ava、总已用检测值dec_used,其中整个网络的总检测值dec_all、总可用检测值dec_ava、总已用检测值dec_used均是大于等于0的整数,且满足:dec_all=dec_ava+dec_used。def_all和dec_all的最大值均不超过10*网络中所有设备节点数*攻击类型数。攻击智能体x从某个设备节点开始对网络进行攻击,目标是入侵设备节点为了保证设备节点可以访问到设备节点在整个攻防模拟过程中,设备节点和设备节点之间至少存在一条通路。攻击智能体x只能访问所已经入侵的设备节点,只能攻击已入侵设备节点直接连接的设备节点。攻击智能体x的可选动作包括:攻击、移动到已入侵设备节点作为当前设备节点、与其他攻击智能体交换信息、静默。(1)如果选择攻击作为动作,则从攻击智能体x所能攻击的设备节点列表中选择一个设备节点作为攻击目标,攻击智能体从攻击类型和强度信息Attackerx(a1,L,an)中选择最适合的攻击方式aj,攻击类型为a_type,攻击强度为a_strength;攻击智能体x每次只能攻击一个设备节点。(2)如果选择移动到已入侵设备节点j作为当前设备节点,则攻击智能体x被检测出的概率由设备节点j检出的概率所决定,检出概率的计算方法为:检出本文档来自技高网
...

【技术保护点】
1.一种基于攻防对抗的电力信息网络安全策略学习装置,包括设备网络,所述设备网络由若干设备节点通过线路按照拓扑结构连接而成,其特征在于,还包括若干攻击智能体和若干防御智能体,若干攻击智能体同时攻击所述设备网络,若干防御智能体同时防御所述若干攻击智能体,所述若干设备节点包括被入侵后损失较小的一般设备节点和被入侵后损失较大的重要设备节点,所述攻击智能体的目标是自某个一般设备节点入侵某个重要设备节点,所述防御智能体的目标是防止重要设备节点被入侵或在所述攻击智能体入侵某个重要设备节点之前检测到攻击;某个设备节点i定义为Nodei(1≤i≤n),每个设备节点具有一发现概率;某个攻击智能体x定义为Attackerx(a1,L,an),(1≤x≤p),ai=(a_type,a_strength)(1≤i≤n),其中a_type是攻击类型名,a_strength是1到10之间的一个整数,表示攻击强度;所述攻击智能体x的当前状态

【技术特征摘要】
1.一种基于攻防对抗的电力信息网络安全策略学习装置,包括设备网络,所述设备网络由若干设备节点通过线路按照拓扑结构连接而成,其特征在于,还包括若干攻击智能体和若干防御智能体,若干攻击智能体同时攻击所述设备网络,若干防御智能体同时防御所述若干攻击智能体,所述若干设备节点包括被入侵后损失较小的一般设备节点和被入侵后损失较大的重要设备节点,所述攻击智能体的目标是自某个一般设备节点入侵某个重要设备节点,所述防御智能体的目标是防止重要设备节点被入侵或在所述攻击智能体入侵某个重要设备节点之前检测到攻击;某个设备节点i定义为Nodei(1≤i≤n),每个设备节点具有一发现概率;某个攻击智能体x定义为Attackerx(a1,L,an),(1≤x≤p),ai=(a_type,a_strength)(1≤i≤n),其中a_type是攻击类型名,a_strength是1到10之间的一个整数,表示攻击强度;所述攻击智能体x的当前状态包括一已入侵设备节点列表和一相邻设备节点列表记录了截止到t时刻,攻击智能体x已经入侵的设备节点、所使用的攻击类型以及所使用的攻击强度,记录了与攻击智能体x当前设备节点具有连接的相邻设备节点列表,攻击智能体只能访问所已经入侵的设备节点,只能攻击与已入侵设备节点直接连接的设备节点;某个防御智能体y定义为Defendery(defence,dectect),(1≤y≤q),所述防御智能体y的当前状态包括电力系统中所有设备节点的防御信息defence(def1,L,defn)和检测信息dectect(det1,L,detn),defi(1≤i≤n)表示设备节点i对攻击类型a_type的防御值,dectect(det1,L,detn),deti(1≤i≤n)表示设备节点i对攻击类型a_type的检测值,整个设备网络的总防御值定义为def_all、总可用防御值定义为def_ava、总已用防御值定义为def_used,其中def_all、def_ava、def_used均是大于等于0的整数,且满足:def_all=def_ava+def_used,整个设备网络的总检测值定义为dec_all、总可用检测值定义为dec_ava、总已用检测值定义为dec_used,其中dec_all、dec_ava、dec_used均是大于等于0的整数,且满足:dec_all=dec_ava+dec_used,def_all和dec_all的最大值均不超过10*设备网络中所有设备节点数*攻击类型数,def_all及dec_all值人工预先设定;如果攻击智能体x所使用攻击类型的攻击强度值>某个攻击智能体x所在设备节点i对所受攻击类型的防御值,则某个攻击智能体x对设备节点i的攻击成功;攻击智能体x被防御智能体y检出的概率=((攻击智能体x所在设备节点i对其所受攻击类型a_type的防御值*攻击智能体x所使用攻击类型a_type的攻击强度值)*攻击智能体x所在设备节点i的发现概率值+攻击智能体x所在设备节点i对其所受攻击类型a_type的检测值)/100*100%;如果某个攻击智能体所使用攻击类型的攻击强度值*检出概率≤某个攻击智能体所在设备节点对其所受攻击类型的检测值,则可以检出是否被入侵;防御智能体y通过增加设备节点i对攻击类型a_type的防御值来提高对攻击智能体x所使用的攻击类型a_type的防御能力,防御智能体y通过增加设备节点i对攻击类型a_type的检测值来提高对攻击智能体x所使用的攻击类型a_type的检测能力。2.根据权利要求1所述的基于攻防对抗的电力信息网络安全策略学习装置,其特征在于,所述攻击智能体采用带有软最大化的蒙特卡洛学习最优攻击策略。3.根据权利要求1所述的基于攻防对抗的电力信息网络安全策略学习装置,其特征在于,所述防御智能体采用最大置信上界的Q学习最优防御策略。4.一种基于攻防对抗的电力信息网络安全策略学习方法,其特征在于,包括同步进行的攻击步骤和防御步骤,所述攻击步骤如下:S1.1:初始化,将攻击智能体列表AL中的每个攻击智能体Attackerx的每种攻击类型a_type的攻击强度值a_strength初始化为1到10之间的一个随机整数,初始化ε为大于0并且小于1之间的一个实数,初始化折扣参数τ为大于0并且小于1之间的一个实数,初始化学习率α为大于0并且小于1之间的一个实数,初始化每个设备节点的起始Q值为0,转至S1.2;S1.2:判断攻击智能体列表AL是否为空,如是,则结束对抗,攻击失败,如否,则从攻击智能体列表AL中随机选择一个攻击智能体x,转至S1.3;S1.3:获得攻击智能体x在当前设备节点的当前状态转至S1.4;S1.4:攻击智能体x根据当前状态获得在t时刻,所有设备节点的Q值,转至S1.5;S1.5:根据如下公式计算所有可用状态-动作对的概率其中,表示攻击智能体x在t时刻的状态下,选择动作action_a获得的奖赏值;τ表示折扣参数;action_a1:攻击未入侵设备节点;action_a2:移入到已入侵设备节点;action_a3:与其他攻击智能体交换信息;action_a4:静默;以ε的概率选择最大的动作,以选择其他3个动作中的一个动作,从当前状态到达下一状态,如果选择动作为攻击未入侵设备节点,则转至S1.6,如果选择动作为移入到已入侵设备节点,则转至S1.8,如果选择动作为与其他攻击智能体交换信息,则转至S1.16,如果选择动作静默,则转至S1.19;S1.6:攻击智能体x从其中选择一个设备节点nodei作为攻击对象,攻击类型为a_type,攻击强度为a_strength,转至S1.7;S1.7:判断攻击类型a_type的攻击值a_strength是否比设备节点nodei的攻击类型a_type防御值def_strength高,如是,则该攻击成功,将设备节点nodei、攻击类型a_type、攻击强度a_strength加入到攻击智能体x的已入侵设备节点列表HackedNodesx中,攻击智能体x的立即奖赏R为10,转至S1.20,如否,则转至S1.15;S1.8:判断在已入侵列表HackedNodesx中是否存在连接当前设备节点到目标设备节点nodeend的一条路径Lx,如是,则找出路径Lx,转至S1.9,如否,转至S1.14;S1.9:找出当前设备节点在路径Lx上的下一个设备节点nodej,转至S1.10;S1.10:从已入侵列表中找出设备节点nodej的攻击类型a_type,攻击强度a_strength,再次攻击设备节点nodej,转至S1.11;S1.11:判断设备节点nodej是否被攻击成功,如是,则转至S1.12,如否,则从已入侵列表HackedNodesx中删除设备节点nodej,攻击智能体x的立即奖赏R为-10,转至S1.20;S1.12:判断设备节点nodej是否为目标设备节点如是,攻击智能体x的立即奖赏R为+1000,路径Lx作为安全漏洞,攻击智能体x对抗终止,将攻击智能体x从攻击智能体列表AL移除,启动修复步骤,修复完成后转至S1.20,如否,则转至S1.13;S1.13:将设备节点nodej置为当前设备节点,转至S1.9;S1.14:攻击智能体x的立即奖赏R为+10;转至S1.20;S1.15:攻击失败,攻击智能体x的立即奖赏R为-10;转至S1.20;S1.16:从攻击智能体列表中选择攻击智能体k,合并攻击智能体x已入侵设备节点列表信息和攻击智能体k已入侵设备节点列表信息形成新的已入侵设备节点列表,转至S1.17;S1.17:更新已入侵列表中的所有设备节点:nodenew=nodea_typenew=a_type取中攻击类型a_type较大的攻击强度值,置为a_strengthnew,转至S1.18;S1.18:将(nodenew,a_typenew,a_strengthnew)添加到攻击智能体x的立即奖赏R为-100,转至S1.20;S1.19:攻击智能体x的立即奖赏R为0,转至S1.20;S1.20:更新攻击智能体x在下一状态时设备节点的Q值:其中,α∈(0,1)是0到1之间的实数,表示学习率;R是每次对抗步中获得的立即奖赏;转至S1.21;S1.21:更新攻击智能体x的总平均奖赏值:其中N是攻击智能体列表AL中所有的攻击智能体数量,转至S1.2;所述防御步骤如下:S2.1:初始化,将防御智能体列表DL中的每个防御智能体针对每个设备节点的每种攻击类型的防御值和检测值均初始化为1,初始化探索率c为0到1之间的实数,初始化学习率β为大于0并且小于1的实数,初始化折扣率γ为大于0并且小于1的实数,初始化ε2为大于0并且小于1之间的一个实数,初始化折扣参数τ2为大于0并且小于1之间的一个...

【专利技术属性】
技术研发人员:景栋盛杨钰薛劲松王芳朱斐
申请(专利权)人:国网江苏省电力有限公司苏州供电分公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1