一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法技术

技术编号:37112739 阅读:14 留言:0更新日期:2023-04-01 05:09
本发明专利技术公开了一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法,本发明专利技术通过策略欺骗满足状态,同时将此状态嵌入Agent智能体和环境模块中;通过环境模块对评估信号传递信号;评估网络传递信号到时序查分方法的同时,接收由评估网络产生的内部增强信号;时序差分方法将信号传递到遗传算法的同时,接收由评估网络产生的增强信号;行动网络接收由环境模块传递的信号的同时,接收由遗传算法传递到神经网络构造器的信号;通过策略欺骗提高蜜罐诱骗程度η,合理部署蜜罐概率q,满足均衡状态,从而影响攻击者对蜜罐部署概率q的后验概率判断,提高诱骗主动性,博弈均衡策略与智能强化学习模型提高针对蜜罐反制问题的能力。型提高针对蜜罐反制问题的能力。

【技术实现步骤摘要】
一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法


[0001]本专利技术涉及网络安全
,更具体的说是涉及一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法。

技术介绍

[0002]从被动网络防御到主动防御,蜜罐具有干扰迷惑可检测未知攻击,并且数据集小,误报漏报率低等优势。随之攻击势态的复杂和变化,蜜罐本身只是一种静态、固定不动的易被识别的和逃脱的。所以传统蜜罐本上是一种“被动式主动防御”手段,无法预知攻击者接下来的未知攻击和路径。随着对抗的防战,反制蜜罐手段也在不断出现。
[0003]因此本专利技术提出一种诱骗博弈均衡与强化学习模型解决传统蜜罐在攻防中的有效性和局限性。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种能够解决上述问题的一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法。
[0005]为实现上述目的,本专利技术提供如下技术方案,包括以下步骤:
[0006]S1:通过策略欺骗满足状态,同时将此状态嵌入Agent智能体和环境模块中;
[0007]S2:智能体通过学习,并与环境进行交互获得奖赏指导行为;
[0008]S3:环境模块对评估信号传递信号,并对行动行动网络信号;
[0009]S4:评估网络传递信号到时序查分方法的同时,接收由评估网络产生的内部增强信号;
[0010]S5:时序差分方法将信号传递到遗传算法的同时,接收由评估网络产生的增强信号;
[0011]S6:行动网络接收由环境模块传递的信号的同时,接收由遗传算法传递到神经网络构造器的信号。
[0012]优选的,在上述一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法中,其特征在于,步骤S1具体为通过策略欺骗提高蜜罐诱骗程度η,合理部署蜜罐概率q,满足(γa

b)/(γa+ηc)<q<1/2的均衡状态,从而影响攻击者对蜜罐部署概率q的后验概率判断,提高诱骗主动性,将均衡条件嵌入Agent智能体和环境模块中,进而对下一步动作占据主动优势。
[0013]优选的,在上述一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法中,其特征在于,步骤S具体为:Agent智能体以“试错”的方式进行学习,并通过与环境进行交互获得的奖赏指导行为,使智能体获得最大的奖赏。
[0014]优选的,在上述一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法中,其特征在于,步骤S3具体为:环境模块中提供的强化信号为内部增强产生的好坏作评估。
[0015]优选的,在上述一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法中,其特征在于:步骤S2具体为智能体以“试错”的方式进行学习,获得奖赏指导行为,目的使智能体获
得最大的奖赏。
[0016]经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法,融合了博弈均衡策略与智能强化学习模型提高针对蜜罐反制问题的能力。
附图说明
[0017]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0018]图1附图为本专利技术的系统逻辑流程示意图。
[0019]图2附图为本专利技术的系统逻辑流程示意图。
具体实施方式
[0020]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅附图1

2,为本专利技术公开的一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法。
[0021]本专利技术,包括以下步骤:
[0022]S1:通过策略欺骗满足状态,同时将此状态嵌入Agent智能体和环境模块中;
[0023]S2:智能体通过学习,并与环境进行交互获得奖赏指导行为;
[0024]S3:环境模块对评估信号传递信号,并对行动行动网络信号;
[0025]S4:评估网络传递信号到时序查分方法的同时,接收由评估网络产生的内部增强信号;
[0026]S5:时序差分方法将信号传递到遗传算法的同时,接收由评估网络产生的增强信号;
[0027]S6:行动网络接收由环境模块传递的信号的同时,接收由遗传算法传递到神经网络构造器的信号。
[0028]为了进一步优化上述技术方案,步骤S1具体为通过策略欺骗提高蜜罐诱骗程度η,合理部署蜜罐概率q,满足(γa

b)/(γa+ηc)<q<1/2的均衡状态,从而影响攻击者对蜜罐部署概率q的后验概率判断,提高诱骗主动性,将均衡条件嵌入Agent智能体和环境模块中,进而对下一步动作占据主动优势。
[0029]为了进一步优化上述技术方案,步骤S2具体为:Agent智能体以“试错”的方式进行学习,并通过与环境进行交互获得的奖赏指导行为,使智能体获得最大的奖赏。
[0030]为了进一步优化上述技术方案,步骤S3具体为:环境模块中提供的强化信号为内部增强产生的好坏作评估。
[0031]为了进一步优化上述技术方案,为了更好地预防未知的网络入侵攻击,更准确、高效地对网络攻击进行取证,基于欺骗诱捕理念,引入用户无感的、分布式主动防御模型到攻
击取证中,在网络中自动构建高逼真度、高密度的伪装环境,在网络、终端中沿途构建诱饵、诱骗陷阱,主动散布假消息、污染的数据给攻击者,当攻击者入侵后,利用Agent less方式下发取证策略、取证组件,通过系统内核事件追踪实现分布式无侵入的动态取证,弥补优化现有攻击取证上的不足。
[0032]进一步的讨论诱骗博弈的主动性,推理实现((π
11
,π
11
),(π
21
,π
20
))“服务

服务

访问

不攻击”理想诱骗博弈均衡条件,即(γa

b)/(γa+ηc)<q<1/2。该条件受蜜罐部署概率q、蜜罐诱骗程度η、攻击破坏因子γ的取值影响而与攻击者概率p无关,因而是一种积极主动的诱骗博弈,由于考虑到攻击破坏因子对某一种具体攻击而言是一个常数,因而提高蜜罐诱骗程度,合理部署使其满足均衡条件,是实现理想诱骗博弈的基本方法,显然提高蜜罐诱骗程度,可以通过增加蜜罐的动态性,兵器固定不动的静态陷阱模式而获得,动态蜜罐。阵列蜜罐等工作均采用此方法提高了蜜罐诱骗程度,从而获得了更好的诱骗性能,而蜜罐概率设置则既可以通过合理部署蜜罐获得,也可以通过元策略欺骗而满足均衡条件,虚假蜜罐采用元策略欺骗方式,通过假冒的蜜罐系统迷惑攻击者,从而影响到攻击者对蜜罐部署概率q的后验概率判断,获得了更高本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法,其特征在于,包括以下步骤:S1:通过策略欺骗满足状态,同时将此状态嵌入Agent智能体和环境模块中;S2:智能体通过学习,并动作与环境模块;S3:环境模块对评估信号传递信号,并对行动行动网络信号;S4:评估网络传递信号到时序查分方法的同时,接收由评估网络产生的内部增强信号;S5:时序差分方法将信号传递到遗传算法的同时,接收由评估网络产生的增强信号;S6:行动网络接收由环境模块传递的信号的同时,接收由遗传算法传递到神经网络构造器的信号。2.根据权利要求1所述的一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法,其特征在于,步骤S1具体为通过策略欺骗提高蜜罐诱骗程度η,合理部署蜜罐概率q,满足(γa

b)/(γa+ηc)<...

【专利技术属性】
技术研发人员:杨柯
申请(专利权)人:北京元支点信息安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1