基于强化学习的网络病毒传播防御方法、装置和设备制造方法及图纸

技术编号:37173059 阅读:14 留言:0更新日期:2023-04-20 22:43
本发明专利技术提供了基于强化学习的网络病毒传播防御方法、装置和设备。方法包括将目标网络抽象成二维空间Graph形式作为训练数据进行存储;构建强化学习训练模型,定义强化学习训练模型的训练环境;强化学习模型的训练环境包括:训练环境规则、服务器状态、入侵者攻击规则以及训练结束条件;对强化学习训练模型进行训练,得到强化学习防御模型;部署到管理服务器,将目标网络中的服务器状态输入到强化学习防御模型,将输出结果中的服务器进行离线。以此方式,可以在能够检测到病毒攻击的前提下,只考虑攻防双方的反应速度,不考虑防御或攻击强度,从宏观上对服务器群进行保护,使复杂网络中少部分电脑被入侵时,整体依然可以运行。整体依然可以运行。整体依然可以运行。

【技术实现步骤摘要】
基于强化学习的网络病毒传播防御方法、装置和设备


[0001]本专利技术一般涉及网络安全领域,并且更具体地,涉及基于强化学习的网络病毒传播防御方法、装置和设备。

技术介绍

[0002]强化学习是一种基于奖励期望行为和/或惩罚不期望行为的机器学习训练方法。一般来说,强化学习智能体能够感知并解释其所处的环境,通过不断地尝试和从错误中学习,最终得出能够实现目标的优秀策略。作为人工智能的一个热门领域,强化学习在预防和应对赛博攻击的领域有着优秀的发展前景。
[0003]强化学习可以用于黑客攻防模拟,目前人们对于如何将强化学习的算法应用在赛博攻防领域还处于探索阶段,已经验证过的模拟实验有模拟网络的最小单位:“标准网络”。该模拟实验通过将病毒攻防的过程模拟为:病毒从START点开始入侵,通过成功攻击并夺取CPU服务器的控制权,再成功攻击重要资产所在服务器,进而获取到目标资源。AI通过调整不同服务器上的防御强度和检测强度,进而阻止病毒的入侵。该模拟的设计存在一定的代表性,且证明了强化学习在该网络上的可行性。
[0004]然而在现实过程中,防御强度和检测强度的设计并不符合现实中的情况。因为只要在所有的服务器上都安装相同的防御AI,所有的服务器的防御强度将都是相同且不会改变的;黑客对于服务器的攻击总会只有两种情况:失败或者成功,且攻击总是在一瞬间完成的。并且现有的设计当中都需要考虑攻击强度和系统防御强度等若干方面的问题,使防御过程逻辑复杂。

技术实现思路

[0005]根据本专利技术的实施例,提供了一种基于强化学习的网络病毒传播防御方案。本方案在能够检测到病毒攻击的前提下,只考虑攻防双方的反应速度,不考虑防御或攻击强度,从宏观上对服务器群进行保护,使复杂网络中少部分电脑被入侵时,整体依然可以运行。
[0006]在本专利技术的第一方面,提供了一种基于强化学习的网络病毒传播防御方法。该方法包括:
[0007]将目标网络抽象成二维空间Graph形式作为训练数据进行存储;
[0008]构建强化学习训练模型,定义所述强化学习训练模型的训练环境;所述强化学习模型的训练环境包括:训练环境规则、服务器状态、入侵者攻击规则以及训练结束条件;
[0009]在所述强化学习训练模型的训练环境下,对所述强化学习训练模型进行训练,得到强化学习防御模型;
[0010]将所述强化学习防御模型部署到管理服务器,在所述管理服务器上,将所述目标网络中的服务器状态输入到所述强化学习防御模型,将输出结果中的服务器进行离线。
[0011]进一步地,所述训练环境规则,包括:
[0012]随机为黑客分配一个服务器作为初始入侵点;以及
[0013]随机在所述目标网络中的一台或多台服务器上分配虚拟资产。
[0014]进一步地,所述服务器状态包括:被入侵状态、未被入侵状态和离线状态;其中,
[0015]所述被入侵状态为服务器执行入侵者攻击规则后,被入侵者入侵;
[0016]所述离线状态为服务器与网络中的其他服务器断开连接;
[0017]所述未被入侵状态为服务器未被入侵者入侵且未处于离线状态。
[0018]进一步地,所述入侵者攻击规则,包括:
[0019]从初始入侵点开始,按步对相邻服务器进行入侵,每步入侵一定数量个服务器;
[0020]相连的被入侵的服务器组成一个入侵区域,每步入侵的服务器数量与所述入侵区域的边界长度呈正相关;所述入侵区域的边界长度为所述入侵区域的服务器能够入侵的处于未被入侵状态的服务器的数量;
[0021]当一个服务器被入侵,则获得一个奖励,且所述奖励为负。
[0022]进一步地,所述训练结束条件为:
[0023]虚拟资产所在的服务器被入侵者入侵,或所述入侵区域的边界长度为0。
[0024]进一步地,还包括:
[0025]根据网络复杂度对网络进行筛选,将网络复杂度大于预设的复杂度阈值的网络作为目标网络。
[0026]进一步地,所述方法还包括:通过邻接矩阵或邻接表存储二维空间Graph形式的目标网络;
[0027]计算邻接矩阵占用的内存空间,若不大于系统剩余空闲内存空间,则通过邻接矩阵存储二维空间Graph形式的目标网络;否则通过邻接表存储二维空间Graph形式的目标网络。
[0028]在本专利技术的第二方面,提供了一种基于强化学习的网络病毒传播防御装置。该装置包括:
[0029]抽象存储模块,用于将目标网络抽象成二维空间Graph形式作为训练数据进行存储;
[0030]模型构建模块,用于构建强化学习训练模型,定义所述强化学习训练模型的训练环境;所述强化学习模型的训练环境包括:训练环境规则、服务器状态、入侵者攻击规则以及训练结束条件;
[0031]模型训练模块,用于在所述强化学习训练模型的训练环境下,对所述强化学习训练模型进行训练,得到强化学习防御模型;
[0032]部署防御模块,用于将所述强化学习防御模型部署到管理服务器,在所述管理服务器上,将所述目标网络中的服务器状态输入到所述强化学习防御模型,将输出结果中的服务器进行离线。
[0033]在本专利技术的第三方面,提供了一种电子设备。该电子设备至少一个处理器;以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术第一方面的方法。
[0034]在本专利技术的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本专利技术第一方面的方法。
[0035]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本专利技术的实施例的关键或重要特征,亦非用于限制本专利技术的范围。本专利技术的其它特征将通过以下的描述变得容易理解。
附图说明
[0036]结合附图并参考以下详细说明,本专利技术各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0037]图1示出了网络复杂性与成本关系示意图;
[0038]图2示出了根据本专利技术的实施例的基于强化学习的网络病毒传播防御方法的流程图;
[0039]图3示出了根据本专利技术的实施例的网络抽象成二维空间Graph形式的示意图;
[0040]图4示出了根据本专利技术的实施例的基于强化学习的网络病毒传播防御装置的方框图;
[0041]图5示出了能够实施本专利技术的实施例的示例性电子设备的方框图;
[0042]其中,500为电子设备、501为CPU、502为ROM、503为RAM、504为总线、505为I/O接口、506为输入单元、507为输出单元、508为存储单元、509为通信单元。
具体实施方式
[0043]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的网络病毒传播防御方法,其特征在于,包括:将目标网络抽象成二维空间Graph形式作为训练数据进行存储;构建强化学习训练模型,定义所述强化学习训练模型的训练环境;所述强化学习模型的训练环境包括:训练环境规则、服务器状态、入侵者攻击规则以及训练结束条件;在所述强化学习训练模型的训练环境下,对所述强化学习训练模型进行训练,得到强化学习防御模型;将所述强化学习防御模型部署到管理服务器,在所述管理服务器上,将所述目标网络中的服务器状态输入到所述强化学习防御模型,将输出结果中的服务器进行离线。2.根据权利要求1所述的方法,其特征在于,所述训练环境规则,包括:随机为黑客分配一个服务器作为初始入侵点;以及随机在所述目标网络中的一台或多台服务器上分配虚拟资产。3.根据权利要求1所述的方法,其特征在于,所述服务器状态包括:被入侵状态、未被入侵状态和离线状态;其中,所述被入侵状态为服务器执行入侵者攻击规则后,被入侵者入侵;所述离线状态为服务器与网络中的其他服务器断开连接;所述未被入侵状态为服务器未被入侵者入侵且未处于离线状态。4.根据权利要求1或3所述的方法,其特征在于,所述入侵者攻击规则,包括:从初始入侵点开始,按步对相邻服务器进行入侵,每步入侵一定数量个服务器;相连的被入侵的服务器组成一个入侵区域,每步入侵的服务器数量与所述入侵区域的边界长度呈正相关;所述入侵区域的边界长度为所述入侵区域的服务器能够入侵的处于未被入侵状态的服务器的数量;当一个服务器被入侵,则获得一个奖励,且所述奖励为负。5.根据权利要求4所述的方法,其特征在于,所述训练结束条件为:虚拟资产所在的服务器被入侵者入侵,或所述入侵区域的边界长度为0。6...

【专利技术属性】
技术研发人员:杨润峰曲武胡永亮
申请(专利权)人:金睛云华沈阳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1