当前位置: 首页 > 专利查询>南京大学专利>正文

人类攻击者合作行为建模及制定对应防守策略的方法技术

技术编号:17995380 阅读:43 留言:0更新日期:2018-05-19 12:29
本发明专利技术公开一种安全防护中的人类攻击者合作行为建模及制定对应防守策略的方法,首先,提出了一个自适应的人类行为模型,用来优化具有两个可能合作的攻击者的重复SSG中有限防守资源的分配;其次,设计了一个高效的算法来近似解决了由模型得到的非线性非凸优化问题,最终输出防守策略;最后,进行了真人模拟实验来测试本发明专利技术模型和方法的有效性。

【技术实现步骤摘要】
人类攻击者合作行为建模及制定对应防守策略的方法
本专利技术涉及一种安全防护中的人类攻击者合作行为建模及制定对应防守策略的方法,属于安全防护

技术介绍
Stackelberg安全博弈(SSG)在实际生活中的多种安全保护场景中得到应用,如美国海岸防卫,联邦空警,洛杉矶机场等。当下在防守资源有限的情况下对需要保护的目标采取的最普遍的防御方法是巡逻。巡逻者只有有限的防守资源(如人力资源等),所以他们不能在同一时间看守一片很大的地区的每个角落。此外,攻击者可以观察巡逻者的巡逻规律,并设计相应的攻击行动来避免被抓。因此,为防御机构优化防守策略有重要意义。在传统的单轮SSG中,防守者(领头者)首先安排巡逻策略,接着攻击者(跟随者)根据其对防守策略的观察来选择一个目标攻击。传统单轮SSG的主要问题在于没有考虑人类攻击者的不完全合理性,且没有充分利用过往的攻击数据优化防守策略。
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,本专利技术提供一种安全防护中的人类攻击者合作行为建模及制定对应防守策略的方法,首先,提出了一个自适应的人类行为模型,用来优化具有两个可能合作的攻击者的重复SSG中有限防守资源的分配;其次,设计了一个高效的算法来近似解决了由模型得到的非线性非凸优化问题,最终输出防守策略;最后,进行了真人模拟实验来测试本专利技术模型和方法的有效性。技术方案:一种安全防护中的人类攻击者合作行为建模及制定对应防守策略的方法,包括如下内容:(1)重复SSG中的合作机制重复合作博弈有一个防守者和两个攻击者,这两个攻击者可以选择是否合作;防守者作为博弈中的领导者,定期布置新的防守策略,而攻击者作为跟随者,根据其对防守者布置的防守策略的观察做出攻击;这个博弈由多轮组成,所以防守者可以定期根据之前轮次中收集到的数据来修改防守策略;攻击者独立攻击或者合作攻击;在独立攻击的情况下,攻击者每次攻击的收益仅取决于该攻击者本次攻击是否成功。而在合作攻击的情况下,攻击者每次攻击的收益将是两人收益和的一半;同时引入了一个额外收益∈,即当一个攻击者成功地进行了一次合作攻击时,他将得到额外收益∈;攻击者们在博弈中需要作出两个主要选择:1)选择攻击的目标和2)选择是否与另一个攻击者合作。只有当两个攻击者在某次攻击中都选择合作时,一次合作关系才算建立。通过防守者拥有的防守资源总和M来防御一个目标集合T={1,...,|T|},T由T1和T2两个不重叠子集合组成;T1表示第一个攻击者可能攻击的目标集合,T2表示第二个攻击者可能攻击的目标集合,且T1=T-T2;防守向量x,其每一维元素xi代表了防守者在每一个目标投入的防守资源,也即目标i被防守的概率。一个攻击者在攻击目标i时的收益取决于1)这个目标是否被防守以及2)两个攻击者是否合作。当一个攻击者选择独立攻击时,他攻击未被防守的目标i的收益为攻击被防守的目标i的收益为相对地,防守者在前一种情况的收益为在后一种情况的收益为防守者的总收益为其在两个被攻击目标的收益和。以及如果两个攻击者都同意合作,他们在攻击未被防守的目标时将获得额外收益∈。(2)不完全合理性和自适应性在一些不法活动中,攻击者通常被认为是不完全理性的。在重复SSG中针对人类的不完全合理性提出了一个模型。首先定义攻击者对于某个目标的倾向性。定义1:一个攻击者在第R轮中对目标i的倾向性由以下等式定义:其中是和之差,表示攻击者第r轮在目标i处进行的单次攻击的平均收益,表示攻击者在第r轮进行的所有攻击的单次攻击平均收益,Qr为一个向量,其第i维为C为一个常数,Var(Qr)表示{Qr}的方差。因此在固定{Qr}的分布的情况下,增加也会相应增加。第一个等式说明为的平均(r=1,...,R)。当攻击者倾向于攻击目标i时将为正,反之将为负,攻击者在未被揭示目标的倾向性设为0。自适应主观收益函数:设置d=1/(Nr-r),其中向量ω=(ω1,ω2,ω3)为待学习参数,Nr为总轮数,r代表用来学习ω的轮次。(3)优化问题的给出结合人类行为模型以及从攻击数据中学习得到的参数,通过等式1到等式19建立生成最优防守策略的优化问题。D=d1+d2(2)α1,α2,β∈{0,1}(3)β≤α1(17)β≤α2(18)α1+α2≤β+1(19)在所有等式中,Z代表一个较大的常数,c代表合作,nc代表不合作。式1给出了优化问题的目标,即防守者的期望收益。从式2可见目标由d1和d2两部分构成。在式3中我们定义了三个二元变量,其中α1和α2代表攻击者各自对于合作的选择,β代表了最终的合作状态。仅当两个攻击者都同意合作时,β为1,在任何其他情况下β都为0。这可以由式17和19中的约束条件保证。式4和5保证了防御向量x的每一维都在[0,1]之间,且防守者的总资源不大于M。在式6到11中,基于α1、α2和β定义了防守者期望收益的两部分——d1和d2。以d1为例,如果合作没有达成(即β=0),对于d1的约束条件将由式6和7决定。相反,若合作达成(即β=1),d1的约束条件将由式8决定。类似地,式9到11构成了对d2的约束。式12到14分别定义了攻击者合作和不合作时的期望收益。这里对两个攻击者分别建模,所以它们具有不同的期望收益和通过式15和16,保证了α1和α2是基于期望收益决定的。如前所述,式17到19中的三个约束条件是用来保证合作机制的正确运行的,即只有当两个攻击者都选择合作时合作才算达成。(4)计算最优策略因上述优化问题复杂,把这个优化问题分解为4个子问题。通过解决子问题,并在子问题的最优解中选择全局最优解,就能解出原问题,得到防守向量x。问题分解从攻击者是否选择合作的角度,一共有四种情况可能发生。表3总结了防守者在这四种情况下的期望收益(同时也是子问题的目标函数)D1、D2、D3和D4。表3给定表3中的期望收益,就能相应地建立4个子问题。不失一般性,只给出其中一个子问题的定义(式20到24)。在这个子问题中,第一个攻击者选择合作而第二个攻击者选择不合作。子问题中用到的标记和来自于先前式12到14中的定义。基于近似的方法四个子问题都有着比较简略的形式,但是找到子问题的全局最优解仍然是困难的,因此引入分段线性函数,将约束条件放松,把子问题转化为一个混合整数二次约束二次规划问题(MIQCQP)来求解。这类问题可以用任何MIQCQP解法来数值求解。首先做一些变量替换。令那么D4可以被重写为一个二次形式,见式26。因为引入了四个新的变量,需要根据定义对s和z增加四个约束条件。这里作为例子,只给出对于sp的约束,其他的约束可以类似地给出。式25是一个非线性约束,因此把它替换为两组略微放松过得二次约束条件。现在说明如何找到这样的两组分段线性函数。令需要找到两组合适地分段线性函数和使得这里f(xi)在[0,1]上是一个单调递减凸函数,因为为负数。用xik定义和其中表示中第k段折线的斜率,表示中第k段折线的斜率。所以,为了定义和只需要确定和定理1:根据分段线性函数和满足在确定了满足要求的分段线性函数后,可以将式25中的约束条件放松。具体地,将式25用下面两组不等式替换。将这两组不等式记为Cons(sp)。由sr、zp和zr类似引入的其他的不等式分别记为Cons(sr)、Cons(z本文档来自技高网...
人类攻击者合作行为建模及制定对应防守策略的方法

【技术保护点】
一种安全防护中的人类攻击者合作行为建模及制定对应防守策略的方法,其特征在于,包括如下内容:(1)重复SSG中的合作机制博弈由多轮组成,攻击者们在博弈中需要作出两个选择:1)选择攻击的目标和2)选择是否与另一个攻击者合作。只有当两个攻击者在某次攻击中都选择合作时,一次合作关系才算建立;在合作攻击的情况下,攻击者每次攻击的收益将是两人收益和的一半;同时引入了一个额外收益∈,即当一个攻击者成功地进行了一次合作攻击时,他将得到额外收益∈;(2)不完全合理性和自适应性在重复SSG中针对人类的不完全合理性提出了一个模型;首先定义攻击者对于某个目标的倾向性。定义1:一个攻击者在第R轮中对目标i的倾向性

【技术特征摘要】
1.一种安全防护中的人类攻击者合作行为建模及制定对应防守策略的方法,其特征在于,包括如下内容:(1)重复SSG中的合作机制博弈由多轮组成,攻击者们在博弈中需要作出两个选择:1)选择攻击的目标和2)选择是否与另一个攻击者合作。只有当两个攻击者在某次攻击中都选择合作时,一次合作关系才算建立;在合作攻击的情况下,攻击者每次攻击的收益将是两人收益和的一半;同时引入了一个额外收益∈,即当一个攻击者成功地进行了一次合作攻击时,他将得到额外收益∈;(2)不完全合理性和自适应性在重复SSG中针对人类的不完全合理性提出了一个模型;首先定义攻击者对于某个目标的倾向性。定义1:一个攻击者在第R轮中对目标i的倾向性由以下等式定义:其中是和之差,表示攻击者第r轮在目标i处进行的单次攻击的平均收益,表示攻击者在第r轮进行的所有攻击的单次攻击平均收益,Qr为一个向量,其第i维为C为一个常数,Var(Qr)表示{Qr}的方差;当攻击者倾向于攻击目标i时将为正,反之将为负,攻击者在未被揭示目标的倾向性设为0。自适应主观收益函数:设置d=1/(Nr-r),其中向量ω=(ω1,ω2,ω3)为待学习参数,Nr为总轮数,r代表用来学习ω的轮次;(3)优化问题的给出结合人类行为模型以及从攻击数据中学习得到的参数,建立生成最优防守策略的优化问题;(4)计算最优策略将优化问题分解为4个子问题。通过解决子问题,并在子问题的最优解中选择全局最优解,就能解出原问题,得到防守向量x。2.如权要求1所述的一种安全防护中的人类攻击者合作行为建模及制定对应防守策略的方法,其特征在于,重复合作博弈有一个防守者和两个攻击者,这两个攻击者可以选择是否合作;防守者作为博弈中的领导者,定期布置新的防守策略,而攻击者作为跟随者,根据其对防守者布置的防守策略的观察做出攻击;这个博弈由多轮组成,所以防守者可以定期根据之前轮次中收集到的数据来修改防守策略;攻击者独立攻击或者合作攻击;在独立攻击的情况下,攻击者每次攻击的收益仅取决于该攻击者本次攻击是否成功。3.如权要求1所述的一种安全防护中的人类攻击者合作行为建模及制定对应防守策略的方法,其特征在于,通过防守者拥有的防守资源总和M来防御一个目标集合T={1,…,|T|},T由T1和T2两个不重叠子集合组成;T1表示第一个攻击者可能攻击的目标集合,T2表示第二个攻击者可能攻击的目标集合,且T1=T-T2;防守向量x,其每一维元素xi代表了防守者在每一个目标投入的防守资源,也即目标i被防守的概率。4.如权要求1所述的一种安全防护中的人类攻击者合作行为建模及制定对应防守策略的方法,其特征在于,一个攻击者在攻击目标i时的收益取决于1)这个目标是否被防守以及2)两个攻击者是否合作;当一个攻击者选择独立攻击时,他攻击未被防守的目标i的收益为攻击被防守的目标i的收益为相对地,防守者在前一种情况的收益为在后一种情况的收益为防守者的总收益为其在两个被攻击目标的收益和;以及如果两个攻击者都同意合作,他们在攻击未被防守的目标时将获得额外收益∈。5.如权要求1所述的一种安全防护中的人类攻击者合作行为建模及制定对应防守策略的方法,其特征在于,结合人类行为模型以及从攻击数据中学习得到的参数,通过等式1到等式19建立生成最优防守策略的优化问题。D=d1+d2(2)α1,α2,β∈{0,1}(3)

【专利技术属性】
技术研发人员:王彬入张渊仲盛
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1