基于半监督自适应多分类平衡的网络异常检测方法技术

技术编号：37768501 阅读：12 留言：0更新日期：2023-06-06 13:30

本发明专利技术的目的在于提供一种基于半监督自适应多分类平衡的网络异常检测方法，基于带标签与无标签数据分布一致性的假设，以及半监督学习与集成学习之间的互利性，通过从标签不充分和类别不平衡的流量数据中高效学习，提高了网络异常检测性能。网络异常检测性能。网络异常检测性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于半监督自适应多分类平衡的网络异常检测方法

[0001]本专利技术属于入侵检测和机器学习
，具体涉及一种基于半监督自适应多分类平衡的网络异常检测方法。

技术介绍

[0002]随着网络技术的飞速发展，互联网给社会各个领域带来了极大便利，其重要地位突显。网络流量是互联网通信的基本信息流，由于恶意攻击带来的不可预估的严重后果，异常流量检测一直是学者们研究的热点课题。由于网络流量数据产生速度快、数量庞大，对每条数据流进行准确标注是不可能的。此外，网络流量中只有极少数流量是恶意攻击数据，并且各种恶意攻击流量的占比也存在差异性。因此，设计一种可以在类别不平衡与标签不充分的环境中有效检测异常流量的方法非常迫切和必要。

技术实现思路

[0003]鉴于现有技术存在的空白和不足，本专利技术的目的在于提供一种基于半监督自适应多分类平衡的网络异常检测方法，基于带标签与无标签数据分布一致性的假设，以及半监督学习与集成学习之间的互利性，通过从标签不充分和类别不平衡的流量数据中高效学习，提高了网络异常检测性能。
[0004]本专利技术解决其技术问题具体采用的技术方案是：
[0005]一种基于半监督自适应多分类平衡的网络异常检测方法，其特征在于，包括以下步骤：
[0006]步骤S1：从网络数据流中采集作为样本的流量数据，预处理后构成带标签数据集L与无标签数据集U；
[0007]步骤S2：利用多分类拆分平衡策略，将带标签数据集L拆分重组，构成类别平衡的带标签数据集：{D1，D2，...，D/>N
}；
[0008]步骤S3：利用自适应置信度阈值函数，从带标签数据集L中获取类别分布信息，计算各种类别数据的置信度阈值：{δ1，δ2，...，δ
M
}；
[0009]步骤S4：利用协同旋转森林算法，将类别平衡的带标签数据集{D1，D2，...，D
N
}作为输入，生成初始模型：{h1，h2，...，h
N
}；
[0010]步骤S5：利用协同旋转森林算法，将类别平衡的带标签数据集{D1，D2，...，D
N
}与无标签数据集U作为输入，结合类别数据的置信度阈值{δ1，δ2，...，δ
M
}，对模型{h1，h2，...，h
N
}进行更新；
[0011]步骤S6：重复步骤S5，直至模型{h1，h2，...，h
N
}全部停止更新，构建最终模型：}全部停止更新，构建最终模型：
[0012]进一步地，步骤S1具体为：
[0013]步骤S11：采用数值排序的方法处理原始数据中的离散型字符数据；
[0014]步骤S12：采用公式对数据的每个特征项进行归一化处理，把数据映射到0～1范围之内；
[0015]步骤S13：使带标签数据集L与无标签数据集U的数据分布具有一致性。
[0016]进一步地，步骤S2具体为：
[0017]步骤S21：计算带标签数据集L中各种类别数据的占比信息：{θ1，θ2，...，θ
M
}，其中，θ
i
表示同类别标签的数据占比，M表示类别数；
[0018]步骤S22：若θ
i
大于Θ，Θ表示将数据定义为多数类的占比信息阈值，则采取随机欠采样策略，生成N份多数类带标签采样数据集；
[0019]步骤S23：若θ
i
小于或等于Θ，则将其与N份多数类带标签采样数据集结合，生成N份类别平衡的带标签数据集：{D1，D2，...，D
N
}。
[0020]进一步地，步骤S3具体为：
[0021]步骤S31：将带标签数据集L按照类别标签进行分类：{C1，C2，...，C
M
}，其中，C
i
表示同类别标签的数据集合，M表示类别数；
[0022]步骤S32：基于置信度阈值函数其中，δ
i
表示C
i
的置信度阈值，Δ表示基础置信度阈值，计算各种类别数据的置信度阈值：{δ1，δ2，...，δ
M
}。
[0023]进一步地，步骤S4具体为：
[0024]步骤S41：将类别平衡的带标签数据集{D1，D2，...，D
N
}中的D
j
作为训练集X，将训练集X的特征集F＝{f1，f2...，f
Q
}，其中，f
i
表示特征项，Q表示特征数，划分为K个不相交的特征子集，每个特征子集包含个特征项；特征子集与特征集的关系为
[0025]步骤S42：利用特征子集F
i
对训练集X进行75％重采样，得到相应的训练集X
i
；
[0026]步骤S43：对X
i
进行PCA操作，得到主成分系数从而构造出对应的主成分系数矩阵
[0027]步骤S44：执行矩阵乘法XR，得到新训练集Z
j
；
[0028]步骤S45：重复步骤S41
‑
步骤S44，构建新训练集{Z1，Z2，...，Z
N
}；
[0029]步骤S46：利用决策树算法，将新训练集{Z1，Z2，...，Z
N
}作为输入，生成初始模型{h1，h2，...，h
N
}。
[0030]进一步地，步骤S5具体为：
[0031]步骤S51：当模型第t轮更新时，其中，t＝1，将初始模型{h1，h2，...，h
N
}中h
i
的分类错误率e
t
设为50％，置信度权重之和W
t
设为类别平衡的带标签数据集{D1，D2，...，D
N
}中D
i
的数据条数；
[0032]步骤S52：当模型第t轮更新时，其中，t＞1，利用初始模型{h1，h2，...，h
N
}中的h
i
，将D
i
作为输入，得到分类错误率e
t+1
；当e
t+1
≥e
t
时，模型h
i
停止更新；
[0033]步骤S53：按照采样率ξ，ξ初始为100％，对无标签数据集U进行子采样，得到无标签子数据集U
′
；
[0034]步骤S54：利用模型h
i
，将无标签子数据集U
′
作为输入，为U
′
中的每条数据生成伪标签以及伪标签置信度；
[0035]步骤S55：将伪标签置信度大于置信度阈值{δ1，δ2，...，δ
M
}的数据加入到伪标签数据集S
t+1
，置信度权重之和为W
t+1
；
[0036]步骤S56：当e
t+1<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于半监督自适应多分类平衡的网络异常检测方法，其特征在于，包括以下步骤：步骤S1：从网络数据流中采集作为样本的流量数据，预处理后构成带标签数据集L与无标签数据集U；步骤S2：利用多分类拆分平衡策略，将带标签数据集L拆分重组，构成类别平衡的带标签数据集：{D1,D2,
…
,D
N
}；步骤S3：利用自适应置信度阈值函数，从带标签数据集L中获取类别分布信息，计算各种类别数据的置信度阈值：{δ1,δ2,
…
,δ
M
}；步骤S4：利用协同旋转森林算法，将类别平衡的带标签数据集{D1,D2,
…
,D
N
}作为输入，生成初始模型：{h1,h2,
…
,h
N
}；步骤S5：利用协同旋转森林算法，将类别平衡的带标签数据集{D1,D2,
…
,D
N
}与无标签数据集U作为输入，结合类别数据的置信度阈值{δ1,δ2,
…
,δ
M
}，对模型{h1,h2,
…
,h
N
}进行更新；步骤S6：重复步骤S5，直至模型{h1,h2,
…
,h
N
}全部停止更新，构建最终模型：}全部停止更新，构建最终模型：2.根据权利要求1所述的基于半监督自适应多分类平衡的网络异常检测方法，其特征在于，步骤S1具体为：步骤S11：采用数值排序的方法处理原始数据中的离散型字符数据；步骤S12：采用公式对数据的每个特征项进行归一化处理，把数据映射到0～1范围之内；步骤S13：使带标签数据集L与无标签数据集U的数据分布具有一致性。3.根据权利要求1所述的基于半监督自适应多分类平衡的网络异常检测方法，其特征在于，步骤S2具体为：步骤S21：计算带标签数据集L中各种类别数据的占比信息：{θ1,θ2,
…
,θ
M
}，其中，θ
i
表示同类别标签的数据占比，M表示类别数；步骤S22：若θ
i
大于Θ，Θ表示将数据定义为多数类的占比信息阈值，则采取随机欠采样策略，生成N份多数类带标签采样数据集；步骤S23：若θ
i
小于或等于Θ，则将其与N份多数类带标签采样数据集结合，生成N份类别平衡的带标签数据集：{D1,D2,
…
,D
N
}。4.根据权利要求1所述的基于半监督自适应多分类平衡的网络异常检测方法，其特征在于，步骤S3具体为：步骤S31：将带标签数据集l按照类别标签进行分类：{C1,C2,
…
,C
M
}，其中，C
i
表示同类别标签的数据集合，M表示类别数；步骤S32：基于置信度阈值函数其中，δ
i
表示C
i
的置信度阈值，Δ表示基础置信度阈值，计算各种类别数据的置信度阈值：{δ1,δ2,
…
,δ
M
}。5.根据权利要求1所述的基于半监督自适应多分类平衡的网络异常检测方法，其特征
在于，步骤S4具体为：步骤S41：将类别平衡的带标签数据集{D1,D2,
…
,D
N
}中的D
j
作为训练集X，将训练集X的特征集F＝{f1,f2…
,f
...

【专利技术属性】
技术研发人员：张浩，肖祖德，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人