一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法技术

技术编号：37112739 阅读：25 留言：0更新日期：2023-04-01 05:09

本发明专利技术公开了一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法，本发明专利技术通过策略欺骗满足状态，同时将此状态嵌入Agent智能体和环境模块中；通过环境模块对评估信号传递信号；评估网络传递信号到时序查分方法的同时，接收由评估网络产生的内部增强信号；时序差分方法将信号传递到遗传算法的同时，接收由评估网络产生的增强信号；行动网络接收由环境模块传递的信号的同时，接收由遗传算法传递到神经网络构造器的信号；通过策略欺骗提高蜜罐诱骗程度η，合理部署蜜罐概率q，满足均衡状态，从而影响攻击者对蜜罐部署概率q的后验概率判断，提高诱骗主动性，博弈均衡策略与智能强化学习模型提高针对蜜罐反制问题的能力。型提高针对蜜罐反制问题的能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法

[0001]本专利技术涉及网络安全
,更具体的说是涉及一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法。

技术介绍

[0002]从被动网络防御到主动防御，蜜罐具有干扰迷惑可检测未知攻击，并且数据集小，误报漏报率低等优势。随之攻击势态的复杂和变化，蜜罐本身只是一种静态、固定不动的易被识别的和逃脱的。所以传统蜜罐本上是一种“被动式主动防御”手段，无法预知攻击者接下来的未知攻击和路径。随着对抗的防战，反制蜜罐手段也在不断出现。
[0003]因此本专利技术提出一种诱骗博弈均衡与强化学习模型解决传统蜜罐在攻防中的有效性和局限性。

技术实现思路

[0004]有鉴于此，本专利技术提供了一种能够解决上述问题的一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法。
[0005]为实现上述目的，本专利技术提供如下技术方案，包括以下步骤：
[0006]S1:通过策略欺骗满足状态，同时将此状态嵌入Agent智能体和环境模块中；
[0007]S2:智能体通过学习，并与环境进行交互获得奖赏指导行为；
[0008]S3：环境模块对评估信号传递信号，并对行动行动网络信号；
[0009]S4:评估网络传递信号到时序查分方法的同时，接收由评估网络产生的内部增强信号；
[0010]S5：时序差分方法将信号传递到遗传算法的同时，接收由评估网络产生的增强信号；
[0011]S6：行动网络接收由环境模块传递的信号的同时，接收由遗传算法传...

【技术保护点】

【技术特征摘要】
1.一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法，其特征在于，包括以下步骤：S1:通过策略欺骗满足状态，同时将此状态嵌入Agent智能体和环境模块中；S2:智能体通过学习，并动作与环境模块；S3：环境模块对评估信号传递信号，并对行动行动网络信号；S4:评估网络传递信号到时序查分方法的同时，接收由评估网络产生的内部增强信号；S5：时序差分方法将信号传递到遗传算法的同时，接收由评估网络产生的增强信号；S6：行动网络接收由环境模块传递的信号的同时，接收由遗传算法传递到神经网络构造器的信号。2.根据权利要求1所述的一种诱骗博弈均衡与强化学习模型对抗反蜜罐的方法，其特征在于，步骤S1具体为通过策略欺骗提高蜜罐诱骗程度η，合理部署蜜罐概率q，满足(γa
‑
b)/(γa+ηc)＜...

【专利技术属性】
技术研发人员：杨柯，
申请(专利权)人：北京元支点信息安全技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人