蜜罐优化方法技术

技术编号:39492352 阅读:6 留言:0更新日期:2023-11-24 11:14
本发明专利技术涉及网络安全技术领域,特别涉及一种蜜罐优化方法

【技术实现步骤摘要】
蜜罐优化方法、蜜罐防护方法以及蜜罐优化系统


[0001]本专利技术涉及网络信息安全领域,特别涉及一种用于蜜罐优化方法

蜜罐防护方法以及蜜罐优化系统


技术介绍

[0002]随着互联网技术的不断普及,日益增长的网络攻击呈现复杂化

多元化的现象

网络信息安全日益被人们关注,使用范围广

交互性强的网络无法单纯利用防火墙隔绝外来交互信息,需要采用更多样化的网络安全技术来保障网络信息安全

[0003]蜜罐是一个经过精心设计的伪装计算机系统,旨在诱导并捕捉未经授权或具有恶意的系统活动

它不仅可以充当数据的收集者,收集攻击者的行为特征和策略信息;另一方面还可以充当诱饵,吸引攻击者有效地转移其注意力,确保真正的生产环境得到保护

[0004]然而,现有的蜜罐在使用中,无法随着网络威胁的不断演变而持续进化,不能适应新的安全挑战

现有的蜜罐在部署后往往只能通过管理员手动更新响应策略,一方面这种升级模式有滞后性,另一方面也受管理者策略部署的主观影响

[0005]因此,如何蜜罐根据攻击指令自动升级响应策略,是一个亟需解决的问题


技术实现思路

[0006]针对现有技术不足,本专利技术提出一种蜜罐优化方法

蜜罐防护方法以及蜜罐优化系统,旨在解决现有蜜罐无法根据攻击指令自动升级优化响应策略的问题,保障蜜罐在使用中可以不断迭代升级,增加攻击者的难度,提高网络信息安全

[0007]为解决上述问题,本专利技术实施例提供了一种蜜罐优化方法,所述方法包括:获取蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本;所述经验轨迹包括所述蜜罐的历史状态信息和对应各历史状态信息的历史响应动作信息,其中,所述历史响应动作信息基于对应的所述历史状态信息和历史响应策略函数形成;根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型,其中,所述当前策略模型包括当前响应策略函数;将所述当前响应策略函数发送至所述蜜罐

[0008]可选地,获取所述蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本的步骤还包括:判断所述若干经验轨迹是否达到预设数量;在所述若干经验轨迹达到预设数量的情况下,解析所述若干经验轨迹作为所述训练样本

[0009]可选地,所述预设策略模型包括奖励函数

熵影响函数

主网络的历史主动作价值函数和历史主状态价值函数以及目标网络的历史目标动作价值函数和历史目标状态价值函数,根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型的步骤包括:
将所述训练样本输入至所述历史目标状态价值函数

所述奖励函数以及所述熵影响函数得到所述历史目标动作价值函数;其中,所述历史目标状态价值函数表示在所述目标网络中特定状态下采取历史响应策略函数的预期状态回报,所述历史目标动作价值函数表示在所述目标网络中特定状态和特定动作下采取历史响应策略函数的预期动作回报;将所述训练样本输入至所述历史主动作价值函数和所述熵影响函数得到所述历史主状态价值函数;其中,所述历史主状态价值函数表示在所述主网络中特定状态采取历史响应策略函数的预期价值回报,所述历史主动作价值函数表示在所述主网络中特定状态和特定动作下采取历史响应策略函数的预期价值回报;根据所述历史主状态价值函数和所述历史目标状态价值函数按照预设比例求和作为当前目标状态价值函数,其中,所述预设比例包括第一预设比例和第二预设比例,第一预设比例和第二预设比例总和为1;将当前目标动作价值函数作为所述当前策略模型的当前主动作价值函数

所述历史目标状态价值函数作为所述当前策略模型的当前目标状态价值函数以及所述历史主状态价值函数作为所述当前策略模型的当前主状态价值函数以得到优化后的所述当前策略模型

[0010]可选地,在将所述训练样本输入至所述历史目标状态价值函数

所述奖励函数以及所述熵影响函数得到所述历史目标动作价值函数之后,根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型的步骤还包括:将所述历史状态信息

所述历史响应动作信息输入所述历史主动作价值函数与所述熵影响函数更新所述历史主动作价值函数与所述熵影响函数中的参数;将更新后的所述历史主动作价值函数与所述熵影响函数相减得到第一函数;将所述第一函数作为所述当前响应策略函数;根据所述第一函数更新所述熵影响函数的参数

[0011]可选地,将所述训练样本输入至所述历史目标状态价值函数

所述奖励函数以及所述熵影响函数得到所述历史目标动作价值函数的步骤包括:将所述训练样本按照时序划分成第一样本数据和第二样本数据;将所述第一样本数据输入至所述奖励函数得到第二函数;将第二样本数据输入至所述历史目标状态价值函数和所述熵影响函数得到第三函数;将所述第二函数与所述第三函数相加得到所述历史目标动作价值函数

可选地,将所述训练样本输入至所述历史主动作价值函数和所述熵影响函数得到所述历史主状态价值函数的步骤包括:将所述训练样本输入至所述历史主动作价值函数和所述熵影响函数更新所述历史主动作价值函数与所述熵影响函数中的参数;将更新后的所述历史主动作价值函数和所述熵影响函数作差得到所述历史主状态价值函数

[0012]可选地,将所述当前响应策略函数发送至所述蜜罐的步骤包括:检测所述蜜罐的连接情况;将所述当前响应策略函数发送至处于连接中的所述蜜罐

[0013]本专利技术还提供一种蜜罐防护方法,所述方法包括:如上述中任一项所述的蜜罐优化方法;获取接收到所述攻击指令的所述蜜罐的当前状态信息;根据所述蜜罐的当前状态信息和当前响应策略函数从响应动作空间中调取对应的响应动作;其中,所述响应动作空间包括若干个不同的预设的所述响应动作;生成所述响应动作的执行参数;所述蜜罐按照确定执行参数后的响应动作进行所述攻击指令的响应

[0014]本专利技术还提供一种蜜罐优化系统,所述蜜罐优化系统包括:第一获取模块,用于获取蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本;所述经验轨迹包括所述蜜罐的历史状态信息和对应各历史状态信息的历史响应动作信息,其中,所述历史响应动作信息基于对应的所述历史状态信息和历史响应策略函数形成;优化模块,用于根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型,其中,所述当前策略模型包括当前响应策略函数;以及发送模块,用于将所述当前响应策略函数发送至所述蜜罐

[0015]可选地,所述第一获取模块包括:判断模块,用于判断所述若干经验轨迹是否达到预设数量;以及解析模块,用于在所述若干经验轨迹达到预设数量的情况下,解析所述若干经验轨迹作为所述训练样本
。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种蜜罐优化方法,其特征在于,所述蜜罐优化方法包括:获取蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本;所述经验轨迹包括所述蜜罐的历史状态信息和对应各历史状态信息的历史响应动作信息,其中,所述历史响应动作信息基于对应的所述历史状态信息和历史响应策略函数形成;根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型,其中,所述当前策略模型包括当前响应策略函数;将所述当前响应策略函数发送至所述蜜罐
。2.
根据权利要求1所述的蜜罐优化方法,其特征在于,获取所述蜜罐响应攻击指令后生成的若干经验轨迹作为训练样本的步骤还包括:判断所述若干经验轨迹是否达到预设数量;在所述若干经验轨迹达到预设数量的情况下,解析所述若干经验轨迹作为所述训练样本
。3.
根据权利要求1所述的蜜罐优化方法,其特征在于,所述预设策略模型包括奖励函数

熵影响函数

主网络的历史主动作价值函数和历史主状态价值函数以及目标网络的历史目标动作价值函数和历史目标状态价值函数,根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型的步骤包括:将所述训练样本输入至所述历史目标状态价值函数

所述奖励函数以及所述熵影响函数得到所述历史目标动作价值函数;其中,所述历史目标状态价值函数表示在所述目标网络中特定状态下采取历史响应策略函数的预期状态回报,所述历史目标动作价值函数表示在所述目标网络中特定状态和特定动作下采取历史响应策略函数的预期动作回报;将所述训练样本输入至所述历史主动作价值函数和所述熵影响函数得到所述历史主状态价值函数;其中,所述历史主状态价值函数表示在所述主网络中特定状态采取历史响应策略函数的预期价值回报,所述历史主动作价值函数表示在所述主网络中特定状态和特定动作下采取历史响应策略函数的预期价值回报;根据所述历史主状态价值函数和所述历史目标状态价值函数按照预设比例求和作为当前目标状态价值函数,其中,所述预设比例包括第一预设比例和第二预设比例,第一预设比例和第二预设比例总和为1;将当前目标动作价值函数作为所述当前策略模型的当前主动作价值函数

所述历史目标状态价值函数作为所述当前策略模型的当前目标状态价值函数以及所述历史主状态价值函数作为所述当前策略模型的当前主状态价值函数以得到优化后的所述当前策略模型
。4.
根据权利要求3所述的蜜罐优化方法,其特征在于,在将所述训练样本输入至所述历史目标状态价值函数

所述奖励函数以及所述熵影响函数得到所述历史目标动作价值函数之后,根据所述训练样本对预设策略模型进行强化学习训练得到优化后的当前策略模型的步骤还包括:将所述历史状态信息

所述历史响应动作信息输入所述历史主动作价值函数与所述熵影响函数更新所述历史主动作价值函数与所述熵影响函数中的参数;将更新后的所述历史主动作价值函数与所述熵影响函数相减得到第一函数;将所述第一函数作为所述当前响应策略函数;根据所述第一函数更新所述熵影响函数的参数

5.
根据权利要求3所述的蜜罐优化方法,其特征在于,将所述训练样本输入至所述历史目标状态价值函数

所述奖励函数以及所述熵影响函数得到所述历史目标动作价值函数的步骤包括:将所述训练样本按照时序划分成第一样本数据和第二样...

【专利技术属性】
技术研发人员:孙瑜琦谭帅帅蒙永翔
申请(专利权)人:深圳市前海新型互联网交换中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1