一种流量监测方法、装置、设备及介质制造方法及图纸

技术编号:28948117 阅读:15 留言:0更新日期:2021-06-18 22:05
本公开涉及一种流量监测方法、装置、介质及设备,所述方法包括:在网络中抓取预设时长的网络流量并存储进数据库中;对所述数据库中的流量数据进行特征提取得到特征数据;对所述特征数据进行特征筛选得到筛选后的数据;利用预设的模型对所述筛选后的数据进行分类。本公开通过建立增量式数据库为系统增加了增量式学习能力,使得系统能够及时更新机器学习算法,学习新的VPN流量特征,增加检测准确性。利用特征构建程序对收集到的网络流量进行特征构建,实现特征提取自动化,并且得到固定格式的特征,在模型训练和线上运行时,保证格式的统一性,方便模型后续流程的流畅。

【技术实现步骤摘要】
一种流量监测方法、装置、设备及介质
本公开涉及互联网
,更为具体来说,本公开涉及一种流量监测方法、装置、设备及介质。
技术介绍
近年来,由于网络服务质量等机制的建立,网络流量分类技术受到了极大的关注。工业界和学术界的许多研究者投入精力研究出了一系列的分类方法,然而,随着网络的扩张和创新,每天都会有大量的新应用和服务出现并且不断更新为网络流量创造了一个动态的环境。并且,加密技术在网络中的应用越来越普遍,现在网络中超过一半的流量都使用了加密技术,这为网络的通信安全创造了环境,但是为网络流量的分类带来了巨大的挑战。VPN是众多加密方式中的一种,VPN分为传统VPN和代理VPN,而且VPN具有多种加密方式,对VPN的加密流量识别也面临巨大的挑战,本专利技术旨在对广义的VPN加密流量进行识别。
技术实现思路
为解决现有技术的固定密码容易导致密码泄露的安全问题的技术问题。为实现上述技术目的,本公开提供了一种流量监测方法,所述方法包括:在网络中抓取预设时长的网络流量并存储进数据库中;对所述数据库中的流量数据进行特征提取得到特征数据;对所述特征数据进行特征筛选得到筛选后的数据;利用预设的模型对所述筛选后的数据进行分类。进一步,所述分类的结果包括:所抓取的网络流量属于非加密的正常网络流量或VPN加密的网络流量。进一步,所述对所述数据库中的流量数据进行特征提取得到特征数据的过程具体为:对所述流量数据中的一系列具有相同五元组信息的数据进行提取得到网络流数据;对所述网络流数据的统计特征进行特征提取得到所述特征数据。进一步,所述统计特征至少包括以下特征之一:网络流的提取时间、网络流的包大小和/或网络流的包的数量。进一步,所述对所述数据集进行特征筛选得到筛选后的数据具体包括:对所述数据集进行方差过滤处理;对所述方差过滤后的数据利用平均精确率减少和稳定性选择两种方式进行特征选择;将选择得到的特征进行融合,得到所述筛选后的数据。进一步,所述预设的模型具体通过如下方式训练获得:将正常的网络流量和VPN加密的网络流量存储到增量式数据库中;从所述增量式数据库的数据进行特征提取得到作为训练数据的特征数据;对所述特征数据进行筛选;利用梯度提升决策树GBDT对所述筛选后的特征数据进行处理,得到新的离散特征向量;把所述离散特征向量输入逻辑回归LR模型进行训练。进一步地,所述VPN加密的网络流量包括公有数据集和仿真环境生成的数据集。为实现上述技术目的,本公开还能够提供一种流量监测装置,包括:数据抓取模块,用于在网络中抓取预设时长的网络流量并存储进数据库中;特征提取模块,用于对所述数据库中的流量数据进行特征提取得到特征数据;数据筛选模块,用于对所述特征数据进行特征筛选得到筛选后的数据;数据分类模块,用于利用预设的模型对所述筛选后的数据进行分类。为实现上述技术目的,本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的流量监测方法的步骤。为实现上述技术目的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的流量监测方法的步骤。本公开的有益效果为:本公开通过建立增量式数据库为系统增加了增量式学习能力,使得系统能够及时更新机器学习算法,学习新的VPN流量特征,增加检测准确性。利用特征构建程序对收集到的网络流量进行特征构建,实现特征提取自动化,并且得到固定格式的特征,在模型训练和线上运行时,保证格式的统一性,方便模型后续流程的流畅。在特征筛选阶段,本公开利用方差过滤法先过滤方差变化较小的特征,减少数据维度,有利于后续流程时间性能的提高,并且利用特征重要度进行特征选择,融合meandecreaseaccuracy和stabilityselect两种特征选择方式筛选出的特征,这样有利于保证特征的有效性,而且可以大幅度减少特征维度,有利于时间性能的提高。在模型训练上,首先利用XGBoost模型自动进行特征组合和离散化,将特征传入LR模型进行分类,可以发现和利用有效特征和特征组合。附图说明图1示出了本公开的实施例1的流程示意图;图2示出了本公开的实施例1的网络流flow示意图;图3示出了本公开的实施例1的特征筛选流程示意图;图4示出了本公开的实施例1的模型构建过程示意图;图5示出了本公开的实施例2的结构示意图;图6示出了本公开的实施例4的结构示意图。具体实施方式以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在附图中示出了根据本公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。实施例一:如图1所示:本公开提供了一种流量监测方法,所述方法包括:S101:在网络中抓取预设时长的网络流量并存储进数据库中;S102:对所述数据库中的流量数据进行特征提取得到特征数据;S103:对所述特征数据进行特征筛选得到筛选后的数据;S104:利用预设的模型对所述筛选后的数据进行分类。进一步,所述分类的结果包括:所抓取的网络流量属于非加密的正常网络流量或VPN加密的网络流量。进一步,所述对所述数据库中的流量数据进行特征提取得到特征数据的过程具体为:对所述流量数据中的一系列具有相同五元组信息的数据进行提取得到网络流数据;对所述网络流数据的统计特征进行特征提取得到所述特征数据。进一步,所述统计特征至少包括以下特征之一:网络流的提取时间、网络流的包大小和/或网络流的包的数量。网络流Flow是由一系列具有相同五元组{源地址,目的地址,源端口,目的端口,协议}的包形成的,在flow中存在正向网络流和反向网络流,从每个网络流中提取时间、包大小、数量等相关的统计特征。我们利用程序生成带有方向的网络流,flow的方向由第一个包的方向决定,网络流中的协议分为TCP协议和UDP协议,基于TCP的flow以三次握手作为开始,以收到的包中带有FIN标志或者超过阙值时间还没有收到包作为结束标志。基于UDP的flow则是以超过阙值时间没有信息交互作为结束标志。本专利技术根据接收到的包中是否带有FIN标志或者相邻两个包之间的接收间隔超过阈值对抓取到的网络流量进行fl本文档来自技高网...

【技术保护点】
1.一种流量监测方法,其特征在于,所述方法包括:/n在网络中抓取预设时长的网络流量并存储进数据库中;/n对所述数据库中的流量数据进行特征提取得到特征数据;/n对所述特征数据进行特征筛选得到筛选后的数据;/n利用预设的模型对所述筛选后的数据进行分类。/n

【技术特征摘要】
1.一种流量监测方法,其特征在于,所述方法包括:
在网络中抓取预设时长的网络流量并存储进数据库中;
对所述数据库中的流量数据进行特征提取得到特征数据;
对所述特征数据进行特征筛选得到筛选后的数据;
利用预设的模型对所述筛选后的数据进行分类。


2.根据权利要求1所述的方法,其特征在于,所述分类的结果包括:
所抓取的网络流量属于非加密的正常网络流量或VPN加密的网络流量。


3.根据权利要求1所述的方法,其特征在于,所述对所述数据库中的流量数据进行特征提取得到特征数据的过程具体为:
对所述流量数据中的一系列具有相同五元组信息的数据进行提取得到网络流数据;
对所述网络流数据的统计特征进行特征提取得到所述特征数据。


4.根据权利要求3所述的方法,其特征在于,所述统计特征至少包括以下特征之一:
网络流的时间、网络流的包大小和/或网络流的包的数量。


5.根据权利要求1所述的方法,其特征在于,所述对数据集进行特征筛选得到筛选后的数据具体包括:
对所述数据集进行方差过滤处理;
对所述方差过滤后的数据利用平均精确率减少和稳定性选择两种方式进行特征选择;
将选择得到的特征进行融合,得到所述筛选后的数据。


6.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:李锟
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1