基于强化学习的不完全信息网络安全分析方法及装置制造方法及图纸

技术编号:15727046 阅读:65 留言:0更新日期:2017-06-29 23:17
本发明专利技术提供了一种基于强化学习的不完全信息网络安全分析方法及装置,该方法包括:首先,获取待分析网络的基础特征参数;然后,利用预先构建的网络安全强化分析模型根据待分析网络的基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合,该网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的;最后,分别输出攻击者的攻击策略空间集合和防御者的防御策略空间集合。本发明专利技术实施例所采用的网络攻防策略分析手段提供了一种同时考虑网络攻击者和防御者行动的分析求解框架,提高了网络安全响应的及时性、有效性,为解决网络安全问题分析提供了一种新的有效途径。

【技术实现步骤摘要】
基于强化学习的不完全信息网络安全分析方法及装置
本专利技术涉及网络安全
,具体而言,涉及一种基于强化学习的不完全信息网络安全分析方法及装置。
技术介绍
计算机网络加速了人类迈向信息社会的步伐,促进了人类社会生活习惯、生活方式、思想观念等各个方面的根本性改变。然而,在网络规模不断扩大的同时,网络安全事件也越来越多。和平时期发生的网络攻击事件,损失的是商业利益和对人们私人空间的侵害,可是如果网络攻击行为的主体是一个国家对另一个国家、一个作战集团对另一个作战集团的行动,那么所造成的后果将不堪设想。传统网络安全解决方法,如防护墙,入侵检测系统用来防御各种已知入侵手段是足够了,但是这种被动防御模式不能有效应付有意图或者有组织的网络破坏行为。这是因为传统方法强调以目标为中心,检测到入侵行动后才有所响应,此时可能已经造成严重的损失。由于资源和能力限制,管理员不可能消除网络中每一个脆弱点,也不可能防御所有攻击行动。如何在信息安全风险与投入之间寻找一种均衡,充分考虑防御成本有效性并做到“适度安全”,是当前网络对抗领域亟待解决的复杂问题。同时,网络攻防双方对信息的了解是不完全的。对于网络防御者而言,虽然能够准确、具体和全面地了解网络状态和网络拓扑结构,但是无法预测攻击者在何时、何地以何种方式进行攻击;对应的,对于网络攻击者而言,虽然在网络对抗过程中占主动地位,但是在目标系统信息获取上往往还只是一个盲目搜索和攻击试探的过程。当前,相关技术中提供的基于强化学习的不完全信息网络安全分析方法主要存在两个方面的不足:一是只考虑完美信息情况,并且假设防御者总是能够发现攻击者,这与现实不符;二是假设状态转移的概率是固定的,并且这些转移概率是由专家过去经验判断得到。在实现本专利技术的过程中,专利技术人发现相关技术中至少存在以下问题:相关技术中确定出的网络攻防策略存在准确度低、参考性差的问题,无法实现对网络安全管理起到科学指导作用。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种基于强化学习的不完全信息网络安全分析方法及装置,以解决上述技术问题。第一方面,本专利技术实施例提供了一种基于强化学习的不完全信息网络安全分析方法,包括:获取待分析网络的基础特征参数,所述基础特征参数包括:预设的攻击策略收益向量、防御策略收益向量、开展攻击行动所需费用向量、入侵检测系统响应费用向量、系统薄弱环节矩阵和系统攻击识别能力矩阵;利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合,所述网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的;分别输出所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合,所述攻击策略空间集合中各元素表示攻击者采取某一攻击策略的强度,所述防御策略空间集合中各元素表示防御者采取某一防御策略的强度。优选的,所述利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合,包括:在考虑攻防双方策略基础上,根据所述待分析网络的所述基础特征参数和第一网络安全强化分析子模型确定所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合;其中,μA(μI,P)表示攻击者的攻击策略空间集合,μI(μA,P)表示防御者的防御策略空间集合,θA表示攻击定义向量,θI表示防御定义向量,表示攻击者的攻击策略收益向量,表示防御者的防御策略收益向量,表示开展攻击行动所需费用向量,表示入侵检测系统响应费用向量,γ表示虚警费用、入侵检测费用、攻击者欺骗费用之和,i表示攻击策略序号,i=1,…,Amax,k表示防御策略序号,k=1,…,Rmax,diag(·)表示对角矩阵,Q表示系统薄弱环节矩阵,P表示系统攻击识别能力矩阵,表示防御行动与攻击行动之间的交互关系矩阵,[·]+表示将变量·中所有数值小于0的赋值为0。优选的,所述第一网络安全强化分析子模型是通过如下方式构建的:获取网络攻击者和防御者的原始收益函数方程对所述原始收益函数方程中各个收益函数求导,并设置各所述收益函数的导数等于零,得到第一网络安全强化分析子模型将所述第一网络安全强化分析子模型作为所述网络安全强化分析模型,所述网络安全强化分析模型确定出的攻击策略和防御策略,使得网络攻击者和防御者之间达到均衡;其中,JA(μA,μI,P)表示攻击策略收益函数,JI(μA,μI,P)表示防御策略收益函数,(·)T表示变量·的转置矩阵。优选的,当所述系统攻击识别能力矩阵与时间变量之间的关系式为时,所述利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合,包括:根据所述待分析网络的所述基础特征参数和第二网络安全强化分析子模型确定所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合;其中,n表示时间变量,n+1表示n时刻的下一时刻,μA(n+1)表示n+1时刻攻击者的防御策略空间集合,μI(n+1)表示n+1时刻防御者的防御策略空间集合,δ表示第一标量,δ>0,ε表示第二标量,ε>0,W(n)表示n时刻随机矩阵,[·]N表示将变量·映射到区间[dtmin,dtmax]的函数,dtmin表示系统攻击识别能力矩阵P(n)中各个元素的最小值,dtmax表示系统攻击识别能力矩阵P(n)中各个元素的最大值,dtmax<1。优选的,所述方法还包括:将不等式|pij(n+1)-Idlij|<|pij(n)-Idlij|+ε|wij(n)|+δ|x-i|<|pij(n)-Idlij|+ε+δ|x-i|作为所述系统攻击识别能力矩阵与时间变量之间的关系式的约束条件,以提高所述第二网络安全强化分析子模型的收敛性和稳定性;其中,系统攻击识别能力矩阵P(n)中各个元素满足idlij表示理想条件下系统攻击识别能力矩阵中第i行j列值,|x-i|表示系统攻击能力的扰动变量,pij(n+1)表示在n+1时刻系统攻击识别能力矩阵中第i行j列值,pij(n)表示在n时刻系统攻击识别能力矩阵中第i行j列值,wij(n)表示服从均匀分布[-1,1]的扰动变量。本专利技术实施例还提供了一种基于强化学习的不完全信息网络安全分析装置,该装置包括:参数获取模块,用于获取待分析网络的基础特征参数,所述基础特征参数包括:预设的攻击策略收益向量、防御策略收益向量、开展攻击行动所需费用向量、入侵检测系统响应费用向量、系统薄弱环节矩阵和系统攻击识别能力矩阵;策略确定模块,用于利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合,所述网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的;策略输出模块,用于分别输出所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合,所述攻击策略空间集合中各元素表示攻击者采取某一攻击策略的强度,所述防御策略空间集合中各元素表示防御者采取某一防御策略的强度。优选的,所述策略确定模块包括:第一策略确定子模块,用于在考虑攻防双方策略基础上,根据所述待分析网络的所述基础特征参数和第一网络安全本文档来自技高网
...
基于强化学习的不完全信息网络安全分析方法及装置

【技术保护点】
一种基于强化学习的不完全信息网络安全分析方法,其特征在于,所述方法包括:获取待分析网络的基础特征参数,所述基础特征参数包括:预设的攻击策略收益向量、防御策略收益向量、开展攻击行动所需费用向量、入侵检测系统响应费用向量、系统薄弱环节矩阵和系统攻击识别能力矩阵;利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合,所述网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的;分别输出所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合,所述攻击策略空间集合中各元素表示攻击者采取某一攻击策略的强度,所述防御策略空间集合中各元素表示防御者采取某一防御策略的强度。

【技术特征摘要】
1.一种基于强化学习的不完全信息网络安全分析方法,其特征在于,所述方法包括:获取待分析网络的基础特征参数,所述基础特征参数包括:预设的攻击策略收益向量、防御策略收益向量、开展攻击行动所需费用向量、入侵检测系统响应费用向量、系统薄弱环节矩阵和系统攻击识别能力矩阵;利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合,所述网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的;分别输出所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合,所述攻击策略空间集合中各元素表示攻击者采取某一攻击策略的强度,所述防御策略空间集合中各元素表示防御者采取某一防御策略的强度。2.根据权利要求1所述的方法,其特征在于,所述利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合,包括:在考虑攻防双方策略基础上,根据所述待分析网络的所述基础特征参数和第一网络安全强化分析子模型确定所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合;其中,μA(μI,P)表示攻击者的攻击策略空间集合,μI(μA,P)表示防御者的防御策略空间集合,θA表示攻击定义向量,θI表示防御定义向量,表示攻击者的攻击策略收益向量,表示防御者的防御策略收益向量,表示开展攻击行动所需费用向量,表示入侵检测系统响应费用向量,γ表示虚警费用、入侵检测费用、攻击者欺骗费用之和,i表示攻击策略序号,i=1,…,Amax,k表示防御策略序号,k=1,…,Rmax,diag(·)表示对角矩阵,Q表示系统薄弱环节矩阵,P表示系统攻击识别能力矩阵,表示防御行动与攻击行动之间的交互关系矩阵,[·]+表示将变量·中所有数值小于0的赋值为0。3.根据权利要求2所述的方法,其特征在于,所述第一网络安全强化分析子模型是通过如下方式构建的:获取网络攻击者和防御者的原始收益函数方程对所述原始收益函数方程中各个收益函数求导,并设置各所述收益函数的导数等于零,得到第一网络安全强化分析子模型将所述第一网络安全强化分析子模型作为所述网络安全强化分析模型,所述网络安全强化分析模型确定出的攻击策略和防御策略,使得网络攻击者和防御者之间达到均衡;其中,JA(μA,μI,P)表示攻击策略收益函数,JI(μA,μI,P)表示防御策略收益函数,(·)T表示变量·的转置矩阵。4.根据权利要求1所述的方法,其特征在于,当所述系统攻击识别能力矩阵与时间变量之间的关系式为时,所述利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合,包括:根据所述待分析网络的所述基础特征参数和第二网络安全强化分析子模型确定所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合;其中,n表示时间变量,n+1表示n时刻的下一时刻,μA(n+1)表示n+1时刻攻击者的防御策略空间集合,μI(n+1)表示n+1时刻防御者的防御策略空间集合,δ表示第一标量,δ>0,ε表示第二标量,ε>0,W(n)表示n时刻随机矩阵,[·]N表示将变量·映射到区间[dtmin,dtmax]的函数,dtmin表示系统攻击识别能力矩阵P(n)中各个元素的最小值,dtmax表示系统攻击识别能力矩阵P(n)中各个元素的最大值,dtmax<1。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:将不等式|pij(n+1)-Idlij|<|pij(n)-Idlij|+ε|wij(n)|+δ|x-i|<|pij(n)-Idlij|+ε+δ|x-i|作为所述系统攻击识别能力矩阵与时间变量之间的关系式的约束条件,以提高所述第二网络安全强化分析子模型的收敛性和稳定性;其中,系统攻击识别能力矩阵P(n)中各个元素满足idlij表示理想条件下系统攻击识别能力矩阵中第i行j列值,|x-i|表示系统攻击能力的扰动变量,pij(n+1)表示在n+1时刻系统攻击识别能力矩阵中第i行j列值,pij(n)表示在n时刻系统攻击识别能力矩阵中第i行...

【专利技术属性】
技术研发人员:唐治理王长春朱永文陈志杰付莹朱立彬李纲
申请(专利权)人:中国人民解放军空军装备研究院雷达与电子对抗研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1