一种基于XGBoost的端口扫描恶意流量的检测方法技术

技术编号：30903488 阅读：9 留言：0更新日期：2021-11-22 23:48

一种基于XGBoost的端口扫描恶意流量的检测方法，利用已知的标准恶意流量数据集(CICIDS2017数据集)构成的基础流量数据集B，确认根据该基础数据集对XGBoost模型进行训练，获得训练好的XGBoost模型，使用训练好的XGBoost模型对软件定义网络的流量进行在线检测是否存在端口扫描恶意流量，对于存在误检或者漏检的情况采用人工办法进行干预；将误检或者漏检的流量标签进行重置，并将该流量加入到基础数据集中形成更新的数据集B

全部详细技术资料下载

【技术实现步骤摘要】
一种基于XGBoost的端口扫描恶意流量的检测方法

[0001]本专利技术涉及互联网
，更具体地说，本专利技术涉及一种基于XGBoost 的端口扫描恶意流量的检测方法。

技术介绍

[0002]随着互联网技术的发展，网络流量正在迅速增加，用户访问互联网所产生的流量部分来源于传统的网络服务，例如网页浏览、电子邮件，另一部分则来源于种类繁多的多媒体服务，例如视频、游戏、社交平台等等。互联网的总体流量正在迅速增加，伴随着商业或其他的目的，随之而来的是恶意流量也在迅猛增加，严重影响着互联网服务商为用户提供服务的质量。
[0003]一般而言，端口扫描是进攻一台机器的第一步。因此，IDS能够从端口扫描阶段就发现威胁就变得尤为重要。目前，对端口扫描的恶意流量检测主要分为两大类。一是基于规则的检测技术，主要方式是定义一系列规则，如果某个行为满足了这一系列规则所定义的条件，则判定为是端口扫描攻击。这种检测方法的局限性在于随着攻击的模式增加，所需要的规则数量也在不断增加，从而影响到检测性能，而且容易被攻击者绕开。
[0004]另一种是应用机器学习的方法检测攻击行为，通过对大量数据的分析提取特征、标注等手段建立攻击行为模型，从而达到检测端口扫描恶意流量的目的。目前，基于机器学习的恶意流量检测方法上，主要算法有朴素贝叶斯、决策树以及SVM等。但这些方法在实际的运用中，存在检测成功不太高的问题；本专利技术基于机器学习的方法的优势，专利技术了一种基于XGBoost的端口扫描恶意流量的检测方法，有效地提升了检测成功率的同时，还...

【技术保护点】

【技术特征摘要】
1.一种基于XGBoost的端口扫描恶意流量的检测方法，其特征在于：利用已知的标准恶意流量数据集(CICIDS2017数据集)构成的基础流量数据集B，确认根据该基础数据集对XGBoost模型进行训练，获得训练好的XGBoost模型，使用训练好的XGBoost模型对软件定义网络的流量进行在线检测是否存在端口扫描恶意流量，对于存在误检或者漏检的情况采用人工办法进行干预，将误检或者漏检的流量标签进行重置，并将该流量加入到基础数据集中形成更新的数据集B
′
，当B
′
的新增数据样本增加到一定的比例时，重启XGBoost训练，获得优化的XGBoost模型，从而达到不断提升恶意流量检测成功率的目的。2.根据权利要求1所述的一种基于XGBoost的端口扫描恶意流量的检测方法，其特征在于：步骤一：基于标准流量数据集对XGBoost模型初始化：从互联网上下载CICIDS2017数据集构成本方法的基础流量数据集B，所述该数据集包含良性流量和常见攻击，其中包括端口扫描恶意流量，与真实世界流量数据具有高度的一致性，该数据集还包括使用CICFlowMeter进行的网络流量分析的结果，使用包头信息中的五元组基于时间戳、源和目标ip、源和目标端口、协议和攻击CSV文件的标记流量。3.根据权利要求2所述的一种基于XGBoost的端口扫描恶意流量的检测方法，其特征在于：将所述基础流量数据集B按比例分成两部分B1和B2，其中B1为训练数据集，所述训练数据集B1的样本从B中随机挑选；B2为验证数据集，其样本为数据集B中除去B1的部分。4.根据权利要求3所述的据权利要求1所述的一种基于XGBoost的端口扫描恶意流量的检测方法，其特征在于：利用训练集B1的网络流量样本数据对XGBoost模型进行训练，针对端口扫描恶意流量，先对网络流量的特征进行优化，使其对端口扫描恶意流量更精确，流量特征优选为：
5.根据权利要求4所述的一种基于XGBoost的端口扫描恶意流量的检测方法，其特征在于：基于训练集B1对XGBoost模型进行训练，XGBoost采用特征并行的方法进行计算选择要分裂的特征，即用多个线程，尝试把各个特征都作为分裂的特征，找到各个特征的最优分割点，计算根据它们分裂后产生的增益，选择增益最大的那个特征作为分裂的特征，其中XGBoost在每次迭代之后，为叶子结点分配学习速率，降低每棵树的权重，减少每棵树的影响，为后面提供更好的学习空间，XGBoost目标函数定义为：其中，目标函数由两部分构成，第一部分用来衡量预测分数和真实分数的差距，另一部分则是正则化项，正则化项同样包...

【专利技术属性】
技术研发人员：黄园园，苏俊，方顺健，彭宣正，
申请(专利权)人：中电积至海南信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人