The invention discloses an electric power information network security strategy learning device and method based on attack and defense confrontation, including device network, attack agent and defense agent. Several attack agents attack device network simultaneously, several defense agents are defended simultaneously. In the course of antagonism, the defender agent is increased by increasing defense. To improve the defense ability of certain types of attacks, increase the detection value to improve the detection ability of certain types of attacks. As the defense value increases, it is becoming more and more difficult for the attack agent to invade the device node with a specific type, but the convenience of the other computer device nodes can use the service of the computer device node; by improving the detection value, the possibility of the attack is also improved by the device node. The calculation of resources is also increasing. Therefore, the overall defense and detection values of the overall network should be less than or equal to the default value. By simulating confrontation, the optimal security policy is obtained with the minimum cost of defense and detection.
【技术实现步骤摘要】
基于攻防对抗的电力信息网络安全策略学习装置及方法
本专利技术涉及一种电力信息系统安全领域,具体涉及一种基于攻防对抗的电力信息网络安全策略学习装置及方法。
技术介绍
电力系统是现代社会生产、生活的重要基础。有效的电力设备管理是电力供应的保障,随之出现了大量电力信息系统。近年来,随着电力信息系统的建设,相关的信息网络规模不断增大,网络也变得越来越复杂。如何学习、制定信息网络安全策略,从而有效的保护网络,给予网络中的成员提供安全是一项复杂的任务。而事实上,计算机的安全、使用便利性、耗费的计算资源之间存在着平衡关系:提高安全防御之后会降低计算机使用的便利性,增加计算机攻击检测的能力则会需要分配更多的计算资源,从而降低该设备节点计算机实际可分配的计算资源。因此,如何信息根据网络的实际配置情况,预判、检测攻击,制定安全策略,从而有效的平衡预防、检测、使用便利性和计算资源,是一个亟待解决的问题。尽管很多研究人员的方法可以针对可能的行为进行预先设计和编程,但是随着网络安全的任务越来越复杂,同时网络中的环境,存在未知性、不确定性,并且会动态发生变化,从而进一步加剧了所要解决问题的复杂性,使得设计人员很难事先对动态变化的环境做出有效预测,预设的安全策略也无法适用于实际情况。因此,设计一种能够具有在线学习能力的安全控制方法,动态调整安全控制显得尤为重要。强化学习(ReinforcementLearning)通过采用不断试错式的学习方式以获取最优的行为策略。目前,很多强化学习方法都在实时、在线行为学习方面表现出了良好的性能,非常适用于在线学习及实时控制、优化任务。如何通过强化学习 ...
【技术保护点】
1.一种基于攻防对抗的电力信息网络安全策略学习装置,包括设备网络,所述设备网络由若干设备节点通过线路按照拓扑结构连接而成,其特征在于,还包括若干攻击智能体和若干防御智能体,若干攻击智能体同时攻击所述设备网络,若干防御智能体同时防御所述若干攻击智能体,所述若干设备节点包括被入侵后损失较小的一般设备节点和被入侵后损失较大的重要设备节点,所述攻击智能体的目标是自某个一般设备节点入侵某个重要设备节点,所述防御智能体的目标是防止重要设备节点被入侵或在所述攻击智能体入侵某个重要设备节点之前检测到攻击;某个设备节点i定义为Nodei(1≤i≤n),每个设备节点具有一发现概率;某个攻击智能体x定义为Attackerx(a1,L,an),(1≤x≤p),ai=(a_type,a_strength)(1≤i≤n),其中a_type是攻击类型名,a_strength是1到10之间的一个整数,表示攻击强度;所述攻击智能体x的当前状态
【技术特征摘要】
1.一种基于攻防对抗的电力信息网络安全策略学习装置,包括设备网络,所述设备网络由若干设备节点通过线路按照拓扑结构连接而成,其特征在于,还包括若干攻击智能体和若干防御智能体,若干攻击智能体同时攻击所述设备网络,若干防御智能体同时防御所述若干攻击智能体,所述若干设备节点包括被入侵后损失较小的一般设备节点和被入侵后损失较大的重要设备节点,所述攻击智能体的目标是自某个一般设备节点入侵某个重要设备节点,所述防御智能体的目标是防止重要设备节点被入侵或在所述攻击智能体入侵某个重要设备节点之前检测到攻击;某个设备节点i定义为Nodei(1≤i≤n),每个设备节点具有一发现概率;某个攻击智能体x定义为Attackerx(a1,L,an),(1≤x≤p),ai=(a_type,a_strength)(1≤i≤n),其中a_type是攻击类型名,a_strength是1到10之间的一个整数,表示攻击强度;所述攻击智能体x的当前状态包括一已入侵设备节点列表和一相邻设备节点列表记录了截止到t时刻,攻击智能体x已经入侵的设备节点、所使用的攻击类型以及所使用的攻击强度,记录了与攻击智能体x当前设备节点具有连接的相邻设备节点列表,攻击智能体只能访问所已经入侵的设备节点,只能攻击与已入侵设备节点直接连接的设备节点;某个防御智能体y定义为Defendery(defence,dectect),(1≤y≤q),所述防御智能体y的当前状态包括电力系统中所有设备节点的防御信息defence(def1,L,defn)和检测信息dectect(det1,L,detn),defi(1≤i≤n)表示设备节点i对攻击类型a_type的防御值,dectect(det1,L,detn),deti(1≤i≤n)表示设备节点i对攻击类型a_type的检测值,整个设备网络的总防御值定义为def_all、总可用防御值定义为def_ava、总已用防御值定义为def_used,其中def_all、def_ava、def_used均是大于等于0的整数,且满足:def_all=def_ava+def_used,整个设备网络的总检测值定义为dec_all、总可用检测值定义为dec_ava、总已用检测值定义为dec_used,其中dec_all、dec_ava、dec_used均是大于等于0的整数,且满足:dec_all=dec_ava+dec_used,def_all和dec_all的最大值均不超过10*设备网络中所有设备节点数*攻击类型数,def_all及dec_all值人工预先设定;如果攻击智能体x所使用攻击类型的攻击强度值>某个攻击智能体x所在设备节点i对所受攻击类型的防御值,则某个攻击智能体x对设备节点i的攻击成功;攻击智能体x被防御智能体y检出的概率=((攻击智能体x所在设备节点i对其所受攻击类型a_type的防御值*攻击智能体x所使用攻击类型a_type的攻击强度值)*攻击智能体x所在设备节点i的发现概率值+攻击智能体x所在设备节点i对其所受攻击类型a_type的检测值)/100*100%;如果某个攻击智能体所使用攻击类型的攻击强度值*检出概率≤某个攻击智能体所在设备节点对其所受攻击类型的检测值,则可以检出是否被入侵;防御智能体y通过增加设备节点i对攻击类型a_type的防御值来提高对攻击智能体x所使用的攻击类型a_type的防御能力,防御智能体y通过增加设备节点i对攻击类型a_type的检测值来提高对攻击智能体x所使用的攻击类型a_type的检测能力。2.根据权利要求1所述的基于攻防对抗的电力信息网络安全策略学习装置,其特征在于,所述攻击智能体采用带有软最大化的蒙特卡洛学习最优攻击策略。3.根据权利要求1所述的基于攻防对抗的电力信息网络安全策略学习装置,其特征在于,所述防御智能体采用最大置信上界的Q学习最优防御策略。4.一种基于攻防对抗的电力信息网络安全策略学习方法,其特征在于,包括同步进行的攻击步骤和防御步骤,所述攻击步骤如下:S1.1:初始化,将攻击智能体列表AL中的每个攻击智能体Attackerx的每种攻击类型a_type的攻击强度值a_strength初始化为1到10之间的一个随机整数,初始化ε为大于0并且小于1之间的一个实数,初始化折扣参数τ为大于0并且小于1之间的一个实数,初始化学习率α为大于0并且小于1之间的一个实数,初始化每个设备节点的起始Q值为0,转至S1.2;S1.2:判断攻击智能体列表AL是否为空,如是,则结束对抗,攻击失败,如否,则从攻击智能体列表AL中随机选择一个攻击智能体x,转至S1.3;S1.3:获得攻击智能体x在当前设备节点的当前状态转至S1.4;S1.4:攻击智能体x根据当前状态获得在t时刻,所有设备节点的Q值,转至S1.5;S1.5:根据如下公式计算所有可用状态-动作对的概率其中,表示攻击智能体x在t时刻的状态下,选择动作action_a获得的奖赏值;τ表示折扣参数;action_a1:攻击未入侵设备节点;action_a2:移入到已入侵设备节点;action_a3:与其他攻击智能体交换信息;action_a4:静默;以ε的概率选择最大的动作,以选择其他3个动作中的一个动作,从当前状态到达下一状态,如果选择动作为攻击未入侵设备节点,则转至S1.6,如果选择动作为移入到已入侵设备节点,则转至S1.8,如果选择动作为与其他攻击智能体交换信息,则转至S1.16,如果选择动作静默,则转至S1.19;S1.6:攻击智能体x从其中选择一个设备节点nodei作为攻击对象,攻击类型为a_type,攻击强度为a_strength,转至S1.7;S1.7:判断攻击类型a_type的攻击值a_strength是否比设备节点nodei的攻击类型a_type防御值def_strength高,如是,则该攻击成功,将设备节点nodei、攻击类型a_type、攻击强度a_strength加入到攻击智能体x的已入侵设备节点列表HackedNodesx中,攻击智能体x的立即奖赏R为10,转至S1.20,如否,则转至S1.15;S1.8:判断在已入侵列表HackedNodesx中是否存在连接当前设备节点到目标设备节点nodeend的一条路径Lx,如是,则找出路径Lx,转至S1.9,如否,转至S1.14;S1.9:找出当前设备节点在路径Lx上的下一个设备节点nodej,转至S1.10;S1.10:从已入侵列表中找出设备节点nodej的攻击类型a_type,攻击强度a_strength,再次攻击设备节点nodej,转至S1.11;S1.11:判断设备节点nodej是否被攻击成功,如是,则转至S1.12,如否,则从已入侵列表HackedNodesx中删除设备节点nodej,攻击智能体x的立即奖赏R为-10,转至S1.20;S1.12:判断设备节点nodej是否为目标设备节点如是,攻击智能体x的立即奖赏R为+1000,路径Lx作为安全漏洞,攻击智能体x对抗终止,将攻击智能体x从攻击智能体列表AL移除,启动修复步骤,修复完成后转至S1.20,如否,则转至S1.13;S1.13:将设备节点nodej置为当前设备节点,转至S1.9;S1.14:攻击智能体x的立即奖赏R为+10;转至S1.20;S1.15:攻击失败,攻击智能体x的立即奖赏R为-10;转至S1.20;S1.16:从攻击智能体列表中选择攻击智能体k,合并攻击智能体x已入侵设备节点列表信息和攻击智能体k已入侵设备节点列表信息形成新的已入侵设备节点列表,转至S1.17;S1.17:更新已入侵列表中的所有设备节点:nodenew=nodea_typenew=a_type取中攻击类型a_type较大的攻击强度值,置为a_strengthnew,转至S1.18;S1.18:将(nodenew,a_typenew,a_strengthnew)添加到攻击智能体x的立即奖赏R为-100,转至S1.20;S1.19:攻击智能体x的立即奖赏R为0,转至S1.20;S1.20:更新攻击智能体x在下一状态时设备节点的Q值:其中,α∈(0,1)是0到1之间的实数,表示学习率;R是每次对抗步中获得的立即奖赏;转至S1.21;S1.21:更新攻击智能体x的总平均奖赏值:其中N是攻击智能体列表AL中所有的攻击智能体数量,转至S1.2;所述防御步骤如下:S2.1:初始化,将防御智能体列表DL中的每个防御智能体针对每个设备节点的每种攻击类型的防御值和检测值均初始化为1,初始化探索率c为0到1之间的实数,初始化学习率β为大于0并且小于1的实数,初始化折扣率γ为大于0并且小于1的实数,初始化ε2为大于0并且小于1之间的一个实数,初始化折扣参数τ2为大于0并且小于1之间的一个...
【专利技术属性】
技术研发人员:景栋盛,杨钰,薛劲松,王芳,朱斐,
申请(专利权)人:国网江苏省电力有限公司苏州供电分公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。