基于强化学习的网络病毒传播防御方法、装置和设备制造方法及图纸

技术编号：37173059 阅读：14 留言：0更新日期：2023-04-20 22:43

本发明专利技术提供了基于强化学习的网络病毒传播防御方法、装置和设备。方法包括将目标网络抽象成二维空间Graph形式作为训练数据进行存储；构建强化学习训练模型，定义强化学习训练模型的训练环境；强化学习模型的训练环境包括：训练环境规则、服务器状态、入侵者攻击规则以及训练结束条件；对强化学习训练模型进行训练，得到强化学习防御模型；部署到管理服务器，将目标网络中的服务器状态输入到强化学习防御模型，将输出结果中的服务器进行离线。以此方式，可以在能够检测到病毒攻击的前提下，只考虑攻防双方的反应速度，不考虑防御或攻击强度，从宏观上对服务器群进行保护，使复杂网络中少部分电脑被入侵时，整体依然可以运行。整体依然可以运行。整体依然可以运行。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的网络病毒传播防御方法、装置和设备

[0001]本专利技术一般涉及网络安全领域，并且更具体地，涉及基于强化学习的网络病毒传播防御方法、装置和设备。

技术介绍

[0002]强化学习是一种基于奖励期望行为和/或惩罚不期望行为的机器学习训练方法。一般来说，强化学习智能体能够感知并解释其所处的环境，通过不断地尝试和从错误中学习，最终得出能够实现目标的优秀策略。作为人工智能的一个热门领域，强化学习在预防和应对赛博攻击的领域有着优秀的发展前景。
[0003]强化学习可以用于黑客攻防模拟，目前人们对于如何将强化学习的算法应用在赛博攻防领域还处于探索阶段，已经验证过的模拟实验有模拟网络的最小单位：“标准网络”。该模拟实验通过将病毒攻防的过程模拟为：病毒从START点开始入侵，通过成功攻击并夺取CPU服务器的控制权，再成功攻击重要资产所在服务器，进而获取到目标资源。AI通过调整不同服务器上的防御强度和检测强度，进而阻止病毒的入侵。该模拟的设计存在一定的代表性，且证明了强化学习在该网络上的可行性。
[0004]然而在现实过程中，防御强度和检测强度的设计并不符合现实中的情况。因为只要在所有的服务器上都安装相同的防御AI，所有的服务器的防御强度将都是相同且不会改变的；黑客对于服务器的攻击总会只有两种情况：失败或者成功，且攻击总是在一瞬间完成的。并且现有的设计当中都需要考虑攻击强度和系统防御强度等若干方面的问题，使防御过程逻辑复杂。

技术实现思路

[0005]根据本专利技术的实施例，提供了一种基于强...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的网络病毒传播防御方法，其特征在于，包括：将目标网络抽象成二维空间Graph形式作为训练数据进行存储；构建强化学习训练模型，定义所述强化学习训练模型的训练环境；所述强化学习模型的训练环境包括：训练环境规则、服务器状态、入侵者攻击规则以及训练结束条件；在所述强化学习训练模型的训练环境下，对所述强化学习训练模型进行训练，得到强化学习防御模型；将所述强化学习防御模型部署到管理服务器，在所述管理服务器上，将所述目标网络中的服务器状态输入到所述强化学习防御模型，将输出结果中的服务器进行离线。2.根据权利要求1所述的方法，其特征在于，所述训练环境规则，包括：随机为黑客分配一个服务器作为初始入侵点；以及随机在所述目标网络中的一台或多台服务器上分配虚拟资产。3.根据权利要求1所述的方法，其特征在于，所述服务器状态包括：被入侵状态、未被入侵状态和离线状态；其中，所述被入侵状态为服务器执行入侵者攻击规则后，被入侵者入侵；所述离线状态为服务器与网络中的其他服务器断开连接；所述未被入侵状态为服务器未被入侵者入侵且未处于离线状态。4.根据权利要求1或3所述的方法，其特征在于，所述入侵者攻击规则，包括：从初始入侵点开始，按步对相邻服务器进行入侵，每步入侵一定数量个服务器；相连的被入侵的服务器组成一个入侵区域，每步入侵的服务器数量与所述入侵区域的边界长度呈正相关；所述入侵区域的边界长度为所述入侵区域的服务器能够入侵的处于未被入侵状态的服务器的数量；当一个服务器被入侵，则获得一个奖励，且所述奖励为负。5.根据权利要求4所述的方法，其特征在于，所述训练结束条件为：虚拟资产所在的服务器被入侵者入侵，或所述入侵区域的边界长度为0。6...

【专利技术属性】
技术研发人员：杨润峰，曲武，胡永亮，
申请(专利权)人：金睛云华沈阳科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人