一种基于集成学习的VPN加密流量识别方法技术

技术编号:35187182 阅读:22 留言:0更新日期:2022-10-12 17:58
本发明专利技术是一种基于集成学习的VPN加密流量识别方法,其特点是,包括:针对VPN加密流量数据特征冗余问题,采用基于最大相关最小冗余的VPN加密流量特征选择方法;针对VPN加密流量数据存在的类别不平衡问题,构建VPN加密流量FL

【技术实现步骤摘要】
一种基于集成学习的VPN加密流量识别方法


[0001]本专利技术涉及网络安全领域,是一种基于集成学习的VPN加密流量识别方法。

技术介绍

[0002]在网络安全领域,流量识别作为网络服务质量的重要优化技术手段之一,它把流量分成若干个优先级或若干个类别,代表了对恶意使用网络资源等异常活动进行检测的第一步。近年来,为了避免不法分子通过窥探公民上网数据窃取用户个人信息和财产,广泛采用加密技术对网络流量进行加密,己成为当今网络应用的标准实现。然而,这一做法致使当前的网络环境透明度降低和流量管控难度增加。很多黑客在实施网络恶意活动时,都会传递传输一定数量的异常流量,这种异常流量常被防火墙和异常流量识别系统发现并拦截,而虚拟专用网(Virtual Private Network,VPN)就是一种规避这些网络安全防护的技术。通过使用VPN的加密技术和通道的伪装能力,绕过网络安全设备的检查。加密流量的识别给当前的流量识别技术提出了极大挑战。VPN加密流量数据中包含大量信息,通过对VPN加密流量进行识别,即识别出使用不同加密协议的应用程序服务,然后根据当前的网络状况部署相应的策略,从而更好地管理网络环境并提供个性化服务。VPN加密流量识别是实现网络流量态势感知的重要条件之一,因此,VPN加密流量的高效识别对检测恶意网络行为,对维护网络安全和增强网络应急响应能力具有一定的积极意义。
[0003]目前,机器学习方法在诸多领域已经取得广泛应用,对于网络安全中的加密流量识别的应用也很多。机器学习可以通过使用分类器来解决对于加密流量识别的难点。但是传统的机器学习方法在处理不平衡或嘈杂的复杂数据时可能无法获得令人满意的性能。原因是很难捕获数据的多个特征和基础结构。而在机器学习方法中,集成学习可以将数据融合,数据建模和数据挖掘集成到一个统一的框架中。集成学习模型能处理具有高维特征的数据,解决特征冗余问题,集成学习还支持使用一些损失函数,对异常数据的鲁棒性非常强。因此,本专利技术拟采用集成学习框架对VPN加密流量进行识别,解决以往加密流量识别难的问题,对检测恶意网络行为和维护网络安全具有积极意义。

技术实现思路

[0004]本专利技术的目的是,克服现有技术的不足,首先针对VPN加密流量数据特征冗余问题,采用基于最大相关最小冗余的特征选择方法对VPN加密流量进行特征筛选,剔除不相关或冗余的特征;其次,针对VPN加密流量数据存在的类别不平衡问题,构建VPN加密流量FL

XGB识别模型,采用焦点损失函数(Focal Loss)对极度梯度提升树(XGBoost)集成学习模型进行改进,平衡难易样本的比例不均;最后,为了进一步提高模型对VPN加密流量的识别性能,提出VPN加密流量识别模型优化方法,通过优化相应参数合理控制模型复杂度和增加模型对噪声的鲁棒性,对VPN加密流量FL

XGB识别模型进行改进。
[0005]实现本专利技术目的采用的技术方案是:一种基于集成学习的VPN加密流量识别方法,其特征是,它包括以下内容:
[0006]1)提出一种VPN加密流量特征选择方法;采用最大相关最小冗余(mRMR)特征选择方法对VPN加密流量进行特征筛选,剔除不相关或冗余的特征,得到最优的Time

Related VPN加密流量特征集;mRMR算法对VPN加密流量进行特征选择的步骤为:
[0007]步骤1:初始化特征集合S为空,输入包含特征集合F和类别集合C的训练数据集;
[0008]步骤2:数据集包含N维特征,通过N次迭代循环得到排序后的特征列表;在每一次迭代中,挑选一个特征;将挑选一个特征与其他的特征相比,所述挑选一个特征和类别有最大相关性,同时和其他已挑选出的特征有最小的冗余性;设F是包含N维特征的集合,S是包含己选择特征的集合;
[0009]对于待选的特征集中的每一个特征F
i
,计算所有特征组成的特征集合F与样本类别集合C的相关性,其中,待选的特征F
i
与类别集合C的相关性为I(F
i
,c);D表示待选的特征与类别的相关性,D越大,则特征与类别的相关性越高;相关性D的计算方式为公式(1);
[0010][0011]其中,互信息是对信息进行度量的方法,表示随机变量与其他变量Y有关的信息量;设变量X的边缘概率密度函数为P(x),Y的边缘概率密度函数为P(y),则联合概率密度函数为P(x,y),互信息值I(x,y)的计算为公式(2);
[0012][0013]步骤3:计算特征间的冗余性R,集合F中特征的冗余是特征F
i
与F
j
的平均互信息值,冗余性R的计算为公式(3);
[0014][0015]公式(3)中,I(F
i,
F
j
)表示第i个特征与第j个特征的互信息值;R越大表示两个特征之间的冗余度越高;
[0016]步骤4:计算特征集F中特征与类别的最大相关性和特征之间的最小冗余度f为公式(4),并将其存入特征集合S中;其中,D表示特征与类别的最大相关性,R表示特征间的最小冗余度;
[0017]f=max{D

R}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0018]步骤5:判断算法是否满足停止条件,即特征集合F

S是否为空,即判断集合S与F中所包含的特征是否相同,如果是则跳出循环,否则重复步骤3;循环结束后,得到按照特征重要性降序排列的集合S=[F1,F2,...,F
N
];
[0019]步骤6:使用逐次特征选取法选取集合S=[F1,F2,...,F
N
]中的特征,得到最优特征子集S
m

[0020]2)提出一种基于集成学习的VPN加密流量识别模型;包括VPN加密流量识别模型构建和基于Focal Loss的XGBoost模型改进方法两个部分:
[0021]①
VPN加密流量识别模型构建
[0022]在XGBoost模型中,对样本i=1,2,...n,t是第t棵树,y
i
表示第i个样本x
i
的预测值,f
t
是第t棵树模型,表示进行t次迭代之后模型的预测效果为公式(5);
[0023][0024]Ω(f
t
)表示函数加入了正则化项,此时,XGBoost的目标函数λ
(t)
为公式(6);
[0025][0026]公式中y
i
,都已知,模型要学习的只有第t棵树f
t
,然后将损失函数在处进行二阶泰勒展开如公式(7);
[0027][0028]其中,第i个样本在第t个弱学习器的一阶和二阶导数分别为其中,第i个样本在第t个弱学习器的一阶和二阶导数分别为然后将公式中的常数项去除后,得到最终损失函数的表示结果如公式(8);本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习的VPN加密流量识别方法,其特征是,它包括以下内容:1)提出一种VPN加密流量特征选择方法;采用最大相关最小冗余(mRMR)特征选择方法对VPN加密流量进行特征筛选,剔除不相关或冗余的特征,得到最优的Time

Related VPN加密流量特征集;mRMR算法对VPN加密流量进行特征选择的步骤为:步骤1:初始化特征集合S为空,输入包含特征集合F和类别集合C的训练数据集;步骤2:数据集包含N维特征,通过N次迭代循环得到排序后的特征列表;在每一次迭代中,挑选一个特征;将挑选一个特征与其他的特征相比,所述挑选一个特征和类别有最大相关性,同时和其他已挑选出的特征有最小的冗余性;设F是包含N维特征的集合,S是包含己选择特征的集合;对于待选的特征集中的每一个特征F
i
,计算所有特征组成的特征集合F与样本类别集合C的相关性,其中,待选的特征F
i
与类别集合C的相关性为I(F
i
,c);D表示待选的特征与类别的相关性,D越大,则特征与类别的相关性越高;相关性D的计算方式为公式(1);其中,互信息是对信息进行度量的方法,表示随机变量与其他变量Y有关的信息量;设变量X的边缘概率密度函数为P(x),Y的边缘概率密度函数为P(y),则联合概率密度函数为P(x,y),互信息值I(x,y)的计算为公式(2);步骤3:计算特征间的冗余性R,集合F中特征的冗余是特征F
i
与F
j
的平均互信息值,冗余性R的计算为公式(3);公式(3)中,I(F
i
,F
j
)表示第i个特征与第j个特征的互信息值;R越大表示两个特征之间的冗余度越高;步骤4:计算特征集F中特征与类别的最大相关性和特征之间的最小冗余度f为公式(4),并将其存入特征集合S中;其中,D表示特征与类别的最大相关性,R表示特征间的最小冗余度;f=max{D

R}
ꢀꢀꢀꢀ
(4)步骤5:判断算法是否满足停止条件,即特征集合F

S是否为空,即判断集合S与F中所包含的特征是否相同,如果是则跳出循环,否则重复步骤3;循环结束后,得到按照特征重要性降序排列的集合S=[F1,F2,...,F
N
];步骤6:使用逐次特征选取法选取集合S=[F1,F2,...,F
N
]中的特征,得到最优特征子集S
m
;2)提出一种基于集成学习的VPN加密流量识别模型;包括VPN加密流量识别模型构建和基于Focal Loss的XGBoost模型改进方法两个部分:

VPN加密流量识别模型构建在XGBoost模型中,对样本i=1,2,...n,t是第t棵树,y
i
表示第i个样本x
i
的预测值,f
t
是第t棵树模型,表示进行t次迭代之后模型的预测效果为公式(5);
Ω(f
t
)表示函数加入了正则化项,此时,XGBoost的目标函数λ
(t)
为公式(6);公式中y
i
,都已知,模型要学习的只有第t棵树f
t
,然后将损失函数在处进行二阶泰勒展开如公式(7);其中,第i个样本在第t个弱学习器的一阶和二阶导数分别为其中,第i个样本在第t个弱学习器的一阶和二阶导数分别为然后将公式中的常数项去除后,得到最终损失函数的表示结果如公式(8);基于XGBoost支持自定义损失函数的特点,在交叉熵损失函数的基础上进行改进,对VPN的加密流量的类别不平衡进行修正,同时不改变原始数据集合分布情况;

基于Focal Loss的XGBoost模型改进方法使用基础XGBoost集成学习模型,对不平衡的VPN加密流量数据进行识别时,存在类别不平衡问题;各类训练数据不是均匀分布的,采用Focal Loss函数改进XGBoost模型,基于交叉熵的损失函数,改进模型的损失函数,使难易样本自身的比例不均匀得到相对平衡,从而能够解决训练时数据不平衡问题;Foca...

【专利技术属性】
技术研发人员:曹杰袁星亮曲楠张加新王启明
申请(专利权)人:东北电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1