一种基于复合分类算法的恶意ip分类方法技术

技术编号:37467273 阅读:13 留言:0更新日期:2023-05-06 09:42
本发明专利技术公开了一种基于复合分类算法的恶意ip分类方法,包括模型训练流程和处置流程;模型训练流程包括S1,数据收集;S2,参数定义;S4,分类方法选择;S5,KNN分类;S6,朴素贝叶斯分类;S7,返回验证;S8,模型优化。处置流程包括S9,数据输入;S10,分类器;S11,结果输出;S12,行为处置。本发明专利技术的基于复合分类算法的恶意ip分类方法对ip地址的行为特征进行分类建模识别,结合自动化运维脚本工具进行实时处置,可以有效提高恶意ip地址识别的准确性和处理效率。率。率。

【技术实现步骤摘要】
一种基于复合分类算法的恶意ip分类方法


[0001]本专利技术涉及一种用于网络安全
,具体涉及一种基于复合分类算法的恶意ip分类方法。

技术介绍

[0002]当前依靠基于边界的安全防护(如:网络隔离)以及静态的安全策略(如:访问控制)等传统安全防护手段,不足以应对日趋复杂的现代网络安全风险(如:0day漏洞、APT攻击),使用新的高效的恶意ip检测方法迫在眉睫。

技术实现思路

[0003]本专利技术的目的是为了克服现有技术的不足,提供一种基于复合分类算法的恶意ip分类方法,通过基于朴素贝叶斯和KNN的复合分类算法,对ip地址的行为特征进行分类建模识别,结合自动化运维脚本工具进行实时处置,可以有效提高恶意ip地址识别的准确性和处理效率。
[0004]实现上述目的的一种技术方案是:一种基于复合分类算法的恶意ip分类方法,包括模型训练流程和处置流程;
[0005]模型训练流程包括如下步骤:
[0006]S1,数据收集:收集网络设备、防火墙、态势感知平台以及日志平台中的网络通信记录,从中选取数据作为测试集,其中包含正常访问样本和恶意访问样本;
[0007]S2,参数定义:对于一个具体的ip地址定义其参数,包括:
[0008]a.将数据集的时间跨度T进行分割,统计活动频次或通信次数T1、T2

Tn,并计算活动频率C1、C2

Cn;分割时间段统计做为源地址的访问次数K1、K2

Kn,以及做为目的地址的被访问次数D1、D2

Dn;
[0009]b.统计做为源ip地址使用的源端口数量SP,做为目的ip地址被访问的目的端口数量DP;
[0010]c.根据测试集正常访问样本数据,对以上4n+2个参数通过经典概率论的相关系数F(i)进行计算和比较,得到最符合总体趋势的参数S;
[0011]S3,相关性参数计算:输入训练集数据,计算平均相关性系数F(S);计算特定样本的F(X);
[0012]S4,分类方法选择:根据步骤S2得到的相关性参数,定义符合偏离参数J,0%<J<100%,针对符合相关性参数的样本使用KNN分类算法来进行分类,不符合的样本使用朴素贝叶斯分类算法来进行分类;
[0013]S5,KNN分类:若(100%

J)*F(S)<F(X)<(100%+J)F(S),则使用KNN算法对X进行分类,计算参数距离后找到最近的训练集样本得到分类;
[0014]S6,朴素贝叶斯分类:使用朴素贝叶斯算法对X进行分类,先计算训练集中恶意ip的比例和对每个参数先行划分的范围,计算条件概率、后验概率后,得到样本的分类;
[0015]S7,返回验证:从训练集实验结果的准确性和时间效率两方面进行验证,根据不同比例的分类效率,通过最小二乘法进行线性拟合,在通过复合分类模型提升运行效率并保证准确性的基础上,确认按照样本的相关性参数使用不同算法的模型复合预期期望;
[0016]S8,模型优化:伴随数据输入的累积,定期对模型进行抽样步骤S7校验优化,根据实际计算结果调整分类比例;
[0017]处置流程包括如下步骤:
[0018]S9,数据输入:实时流量数据基于网络防火墙或态势感知设备的网络通信日志接口,通过syslog方式自动推送至日志平台进行汇总;日志平台支持将网络通信日志自动格式化为步骤S2预定义的参数字段,通过自动化脚本的方式同步推送至分类器的数据分析接口;
[0019]S10,分类器:即经过训练的分类模型,在通过数据分析接口获取样本后,根据步骤S4、步骤S5、步骤S6的分类算法进行选择得到分类结果;
[0020]S11,结果输出:输入的数据参数经过分类器分类算法选择后,输出识别结果;
[0021]S12,行为处置:恶意ip处理系统根据步骤S9的结果,将处置请求通过自动化接口方式推送给网络边界防火墙,增加黑名单自动封禁。
[0022]进一步的,步骤S2中对数据集的时间跨度T进行分割,分割为工作时间、非工作时间、异常活动时间。
[0023]本专利技术的一种基于复合分类算法的恶意ip分类方法,通过统计学分析模型对网络通信日志进行分析,实时识别安全风险,保证网络信息安全;通过分类模型复合,改善了朴素贝叶斯模型因参数关联度影响造成精度降低的问题、平衡了KNN模型的计算时间开销;通过自动化对接日志syslog接口、安全设备restful API接口,实现了数据实时收集、实时分析、实时处置。这种恶意ip处理系统的数据收集、计算、处置方法提高了网络空间的实时安全性和ip管理的可靠性。
附图说明
[0024]图1为本专利技术实施例所述的模型训练流程图;
[0025]图2为本专利技术实施例所述的处置流程图;
[0026]图3为本专利技术实施例提供的电子设备的结构示意图。
具体实施方式
[0027]为了能更好地对本专利技术的技术方案进行理解,下面通过具体地实施例进行详细地说明:
[0028]本专利技术的一种基于复合分类算法的恶意ip分类方法,包括模型训练流程和处置流程。
[0029]请参阅图1,模型训练流程包括如下步骤:
[0030]S1,数据收集:收集网络设备、防火墙、态势感知平台以及日志平台中的网络通信记录,从中选取数据作为测试集,其中包含正常访问样本和恶意访问样本;
[0031]S2,参数定义:对于一个具体的ip地址定义其参数,包括:
[0032]a.将数据集的时间跨度T进行分割,将其分割为工作时间、非工作时间、异常活动
时间等区块,以统计活动频次或通信次数T1、T2

Tn进行区分,并计算活动频率C1、C2

Cn;分割时间段统计做为源地址的访问次数K1、K2

Kn,以及做为目的地址的被访问次数D1、D2

Dn;
[0033]b.统计做为源ip地址使用的源端口数量SP,做为目的ip地址被访问的目的端口数量DP;
[0034]c.根据测试集正常访问样本数据,对以上4n+2个参数通过经典概率论的相关系数F(i)进行计算和比较,得到最符合总体趋势的参数S;
[0035]S3,相关性参数计算:输入训练集数据,计算平均相关性系数F(S);计算特定样本的F(X);
[0036]S4,分类方法选择:根据步骤S2得到的相关性参数,定义符合偏离参数J,0%<J<100%,针对符合相关性参数的样本使用KNN分类算法来进行分类,不符合的样本使用朴素贝叶斯分类算法来进行分类;
[0037]S5,KNN分类:若(100%

J)*F(S)<F(X)<(100%+J)F(S),则使用KNN算法对X进行分类,计算参数距离后找到最近的训练集样本得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于复合分类算法的恶意ip分类方法,其特征在于,包括模型训练流程和处置流程;模型训练流程包括如下步骤:S1,数据收集:收集网络设备、防火墙、态势感知平台以及日志平台中的网络通信记录,从中选取数据作为测试集,其中包含正常访问样本和恶意访问样本;S2,参数定义:对于一个具体的ip地址定义其参数,包括:a.将数据集的时间跨度T进行分割,统计活动频次或通信次数T1、T2

Tn,并计算活动频率C1、C2

Cn;分割时间段统计做为源地址的访问次数K1、K2

Kn,以及做为目的地址的被访问次数D1、D2

Dn;b.统计做为源ip地址使用的源端口数量SP,做为目的ip地址被访问的目的端口数量DP;c.根据测试集正常访问样本数据,对以上4n+2个参数通过经典概率论的相关系数F(i)进行计算和比较,得到最符合总体趋势的参数S;S3,相关性参数计算:输入训练集数据,计算平均相关性系数F(S);计算特定样本的F(X);S4,分类方法选择:根据步骤S2得到的相关性参数,定义符合偏离参数J,0%<J<100%,针对符合相关性参数的样本使用KNN分类算法来进行分类,不符合的样本使用朴素贝叶斯分类算法来进行分类;S5,KNN分类:若(100%

J)*F(S)<F(X)<(100%+J)F(S),则使用KNN算法...

【专利技术属性】
技术研发人员:谈磊罗嘉祥高延翔吉俊杰聂凌焘钱进
申请(专利权)人:上海电气集团数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1