一种基于分布式协作学习的DDoS主动防御系统及方法技术方案

技术编号：35029846 阅读：15 留言：0更新日期：2022-09-24 23:03

本发明专利技术公开了一种基于分布式协作学习的DDoS主动防御系统及方法，该系统包括DDoS攻击检测模块、边缘设备分布学习模块、决策强化学习模块和主动防御模块；采用CNN神经网络充分发掘数据流量的时间特征和空间特征；将CNN神经网络模型和轻量级模型引入物联网DDoS攻击流量检测；边缘节点上传环境信息给云服务器，控制节点下放主动防御决策给边缘节点；实现边缘节点做出协作学习决策，部署拓扑构造策略；选择主动防御措施。与现有技术相比，本发明专利技术实现了应用于端

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分布式协作学习的DDoS主动防御系统及方法

[0001]本专利技术涉及物联网安全领域，特别是涉及一种DDoS主动防御系统及方法。

技术介绍

[0002]分布式拒绝服务(DDoS)攻击，是当今互联网中最具有威胁的网络攻击之一。鉴于DDos有多种攻击组合方式，如攻击者使用多个协议组合的多向量DDoS攻击方式，使得传统的检测和防御方案难以实施。例如，传统的基于签名的入侵检测系统不能应对此类攻击，而现有的基于统计异常的检测系统也受到定义检测阈值要求的限制。使用深度学习技术的主动防御技术正在被探索以解决现有解决方案的局限性，此类方法通过从数据包的低级粒度特征中获得流量的高级特征表示，从而有效区分DDoS攻击流量和良性流量。
[0003]现有的基于深度学习的DDoS攻击检测技术，学习模型的训练和推断过程都是在高性能服务器或云端进行的。各个边缘设备需要将大量的模型数据上传给云服务器，这样会给边缘设备网络造成的巨大压力，无法实时处理跨多个捕获时间窗口分割流量的检测，从而影响对DDoS主动防御的时效性。
[0004]模型与数据集是深度学习的关键。在现有解决方案中，采用集中式深度学习的检测方法对硬件资源和带宽等有较高的要求。进一步地，主动防御的实时快速在线检测的需求，使得集中式的边缘智能学习策略已经无法完美解决DDoS攻击的主动防御实时检测问题。本专利技术亟待解决以下的技术问题：
[0005](1)单节点特征提取缺少全局流量信息；
[0006](2)边缘设备的资源受限，DDoS攻击检测时间冗长；<...

【技术保护点】

【技术特征摘要】
1.一种基于分布式协作学习的DDoS主动防御系统，其特征在于，该系统包括DDoS攻击检测模块、边缘设备分布学习模块、决策强化学习模块和主动防御模块，其中：所述DDoS攻击检测模块，其采用CNN神经网络充分发掘数据流量的时间特征和空间特征，结合边缘网络的部署要求，将CNN神经网络模型和轻量级模型引入物联网DDoS攻击流量检测；所述边缘网络分布式学习模块，其构建出分布式协作学习的边缘网络拓扑模型，加入了不同于云服务器的控制节点，从而缓解大量训练数据传输对骨干网络的压力以及主动防御的延迟；其中的分布式协作学习的边缘网络拓扑模型中设置有边缘节点和控制节点：边缘节点是小型基站或物联网边缘设备，其负责上传环境信息给云服务器；控制节点是云服务器，其负责收集来自边缘节点上传的环境信息包括网络中可用的信道子载波的数量，在每个迭代周期向各个边缘节点下放主动防御决策；所述决策强化学习模块，其使用深度强化学习算法，帮助边缘节点在资源受限的情况下做出协作学习决策，有效地实时分布式协作学习和进行拓扑构造策略的部署；所述主动防御模块，其根据发现边缘节点出现遭受DDoS攻击的异常情况后，选择防御措施。2.如权利要求1所述的一种基于分布式协作学习的DDoS主动防御系统，其特征在于，所述DDoS攻击检测模块进一步包括以下处理：将物联网数据流量中每个数据包中的特征转换为长度为W的一维向量x，一维向量x中上午每一个元素为一个特征的量化值，一维向量x表示数据包流的空间特征；H个连续数据包的特征构成二维张量X，表示为H
×
W，其中，每行为一个数据包的一维向量x，每列为不同数据包的同类特征，二维张量X表示数据包流的时间特征，体现了同一种特征随时间的变化；构建边缘网络：特征数据作为CNN神经网络的输入，首先经过两个卷积层的处理，其中，第一卷积层C1采用16个卷积核，卷积核大小为3
×
3，采用了补零的方式，输出特征图大小为16
×
H
×
W；第二卷积层C2采用32个卷积核，大小为3
×
3，输出特征图大小为32
×
(H
‑
2)
×
(W
‑
2)；第二卷积层的输出特征图作为三层全连接层D1
‑
D3的输入，第一全连接层D1、第二全连接层D2、第一全连接层D3的层数分别为64、32和2。3.如权利要求1所述的一种基于分布式协作学习的DDoS主动防御系统，其特征在于，所述决策强化学习模块进一步包括以下处理：使用深度强化学习建立模型得出防御策略R0表达式如下：其中，s
t
为第t次获取环境中的状态空间集合，a
t
为第t次历元下采取的策略行动集合，γ
t
∈[0，1]为奖励贴现因子，T为模型收敛前的总时间；进行分布式协作学习，学习过程具体如下：控制节点获取当前环境下的状态空间s
t
，包括各个边缘节点的网络拓扑结构、可用子信道、可用带宽、信道增益、信道白噪音等参数；将获取的s
t
参数传入训练好的模型中，通过模型学习得出防御策略R0对应的行为a
t
，并将行为a
t
下发到边缘节点；边缘节点接到行为指令后实施行为a
t
；
完成行为a
t
后，由奖励函数r(s
t
，a
t
)进行一个reward反馈，增强深度强化学...

【专利技术属性】
技术研发人员：张朝昆，李丹阳，石善炜，曲雯毓，刘秀龙，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人