一种基于端口时间序列的网络流量分类方法、装置及存储介质制造方法及图纸

技术编号:24103255 阅读:50 留言:0更新日期:2020-05-09 14:09
本发明专利技术提供了一种基于端口时间序列的网络流量分类方法,所述基于端口时间序列的网络流量分类方法包括如下步骤:接收未知流量;确定未知流量的来源端口;获取来源端口的流量特征;统计来源端口的开始时间;统计来源端口的每个用户IP所访问的域名及次数;计算每个来源端口的域名计算加权值,并确定每个来源端口的关联域名;确定每个来源端口关联域名的流量业务;确定流量业务的实际流量;对比实际流量与未知流量,确定分类结果。本发明专利技术能够识别现有网路中存在着大量的未知流量,解决通过普通TCP(Transmission Control Protocol,传输控制协议)、普通UDP(User Datagram Protocol,用户数据报协议)传输的流量没有净荷信息,缺乏统一规律,难以从数据本身分析出该流量所对应的流量业务的问题。

A network traffic classification method, device and storage medium based on port time series

【技术实现步骤摘要】
一种基于端口时间序列的网络流量分类方法、装置及存储介质
:本专利技术涉及网络流量管理
,具体的,涉及一种基于端口时间序列的网络流量分类方法、装置及存储介质。
技术介绍
:在当今这个信息的时代里,随着通讯设备的不断普及、通讯传输手段的不断升级,互联网与个人终端的数据交流的量级也呈指数式增长,越来越大的云端服务器规模、越来越大的网络设备量级成为了现在各大网络公司的标配。因此,高效且准确的对互联网上所流通的流量进行监控,在互联网用户量激增的情况下,具有显著的实际使用意义,能够及时的定位流量的产生设备及流量流通路径。现有的网络流量分类方法中,常用DPI(DeepPacketInspection,深度包检测)、DFI(Deep/DynamicFlowInspection,深度/动态流检测)技术,为了能将网络流量分类工作自动化,国内外研究人员对流量分类方法做了大量研究,有基于机器学习的流量分类方法、基于行为分析的流量分类方法、基于贝叶斯的流量分类方法、基于聚类的流量分类方法、基于数据挖掘的流量分类方法、半监督流量分类方法。但是这些方法首先要求要具备一个完备的样本库,才可进行后续的机器学习来识别网络流量。这个完备的样本库,首先要对现有的各种会产生流量的网络通信业务都做准确的分析、特征提取、样本分类,这需要庞大的工作量。其次,这些方法对未知流量无法进行分类,然而在现有网络中存在着大量的未知流量需要分类。所以本领域中需要一种对现有网络中的未知流量的分类,提出的一种解决方法,且不需具备样本库,在获取到未知流量后,经过该方法的处理,得到一个分类结果。因此,本领域亟需一种基于端口时间序列的网络流量分类方法、装置及存储介质。有鉴于此,提出本专利技术。
技术实现思路
:有鉴于此,本专利技术的目的在于提供一种具有更好网络流量分类效果的基于端口时间序列的网络流量分类方法、装置及存储介质,以解决现有技术中的至少一项技术问题。具体的,本专利技术的第一方面,提供了一种基于端口时间序列的网络流量分类方法,所述基于端口时间序列的网络流量分类方法包括如下步骤:接收未知流量;确定未知流量的来源端口;获取来源端口的流量特征;统计来源端口的开始时间;统计来源端口的每个用户IP所访问的域名及次数;计算每个来源端口的域名计算加权值,并确定每个来源端口的关联域名;确定每个来源端口关联域名的流量业务;确定流量业务的实际流量;对比实际流量与未知流量,确定分类结果。采用上述方案,能够识别现有网路中存在着大量的未知流量,解决通过普通TCP(TransmissionControlProtocol,传输控制协议)、普通UDP(UserDatagramProtocol,用户数据报协议)传输的流量没有净荷信息,缺乏统一规律,仅能看到一串串的十六进制的数字,难以从数据本身核对、分析出该流量所对应的流量业务的问题。其次,通过未知流量在服务器一端较为固定的特性,以服务器侧端口为切入点先对未知流量粗粒度分类,并按照分析流程,对未知流量进行精细归类,有效降低现网中的未知流量占比,提高网络流量的识别率,更有效的服务于网络流量的可管可控工作,其三,不需要提前准备完备的样本库,优化了现有识别方法的流程架构,有效降低了识别方法前期的工作量,提高识别效率及识别质量。优选地,所述确定未知流量的来源端口步骤前还包括步骤输入筛选时间范围,所述筛选时间范围为筛选取用流量的区间。进一步地,所述输入筛选时间范围步骤后还包括步骤筛选出时间范围内的未知流量,并按照流量大小将数据来源端口排序,采用上述方案,能够显著将提高本专利技术对未知流量的处理效率,保证对数据量大的未知流量进行优先处理,快速释放处理占用的处理地区,提高分类效率及分类质量。优选地,所述获取来源端口的流量特征步骤前还包括步骤根据来源端口分别获取流量样本,所述流量样本用于留存来源端口的原始数据。优选地,所述统计来源端口的开始时间步骤中,所述开始时间为来源端口中的五元组的开始时间。优选地,所述统计来源端口的每个用户IP所访问的域名及次数步骤前还包括步骤输入阈值时长,所述阈值时长用于确定筛选的范围及数量级。进一步地,所述统计来源端口的每个用户IP所访问的域名及次数步骤中,所述统计来源端口为统计阈值时长内的每个用户IP所访问的域名及次数。优选地,所述计算每个来源端口的域名计算加权值,并确定每个来源端口的关联域名步骤中,所述域名计算加权值为确定每个来源端口与域名的关联性,能够确定每个来源端口中关联性最大的域名,并将其确定为该域名为来源端口的代表域名,采用上述方案,能够去除各个来源端口的杂音,迅速确定来源端口具有实际使用效果的域名,提高本专利技术的识别效率及识别准确率。优选地,所述确定每个来源端口关联域名的流量业务步骤中,所述流量业务为具体的业务类型。优选地,所述对比实际流量与未知流量,确定分类结果步骤中,当所述实际流量与未知流量相同时,将之前提取的流量特征归属为对应的流量业务,并完成识别该种未知流量的流程;当所述实际流量与未知流量不相同时,将本端口标记为不适用本方法分析的端口,并完成识别该种流量的流程。进一步地,所述对比实际流量与未知流量,确定分类结果步骤中,所述未知流量为样本流量。本专利技术的第二方面,提供了一种用于网络流量分类的装置,所述用于网络流量分类的装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。本专利技术的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法。综上所述,本专利技术具有以下有益效果:1.本专利技术能够识别现有网路中存在着大量的未知流量,解决通过普通TCP(TransmissionControlProtocol,传输控制协议)、普通UDP(UserDatagramProtocol,用户数据报协议)传输的流量没有净荷信息,缺乏统一规律,仅能看到一串串的十六进制的数字,难以从数据本身核对、分析出该流量所对应的流量业务的问题;2.本专利技术通过未知流量在服务器一端较为固定的特性,以服务器侧端口为切入点先对未知流量粗粒度分类,并按照分析流程,对未知流量进行精细归类,有效降低现网中的未知流量占比,提高网络流量的识别率,更有效的服务于网络流量的可管可控工作;3.本专利技术不需要提前准备完备的样本库,优化了现有识别方法的流程架构,有效降低了识别方法前期的工作量,提高识别效率及识别质量;4.本专利技术能够去除各个来源端口的杂音,迅速确定来源端口具有实际使用效果的域名,提高本专利技术的识别效率及识别准确率。附图说明:为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附本文档来自技高网
...

【技术保护点】
1.一种基于端口时间序列的网络流量分类方法,其特征在于:所述基于端口时间序列的网络流量分类方法包括如下步骤:/n接收未知流量;/n确定未知流量的来源端口;/n获取来源端口的流量特征;/n统计来源端口的开始时间;/n统计来源端口的每个用户IP所访问的域名及次数;/n计算每个来源端口的域名计算加权值,并确定每个来源端口的关联域名;/n确定每个来源端口关联域名的流量业务;/n确定流量业务的实际流量;/n对比实际流量与未知流量,确定分类结果。/n

【技术特征摘要】
1.一种基于端口时间序列的网络流量分类方法,其特征在于:所述基于端口时间序列的网络流量分类方法包括如下步骤:
接收未知流量;
确定未知流量的来源端口;
获取来源端口的流量特征;
统计来源端口的开始时间;
统计来源端口的每个用户IP所访问的域名及次数;
计算每个来源端口的域名计算加权值,并确定每个来源端口的关联域名;
确定每个来源端口关联域名的流量业务;
确定流量业务的实际流量;
对比实际流量与未知流量,确定分类结果。


2.根据权利要求1所述基于端口时间序列的网络流量分类方法,其特征在于:所述确定未知流量的来源端口步骤前还包括步骤输入筛选时间范围,所述筛选时间范围为筛选取用流量的区间。


3.根据权利要求2所述基于端口时间序列的网络流量分类方法,其特征在于:所述输入筛选时间范围步骤后还包括步骤筛选出时间范围内的未知流量,并按照流量大小将数据来源端口排序。


4.根据权利要求1所述基于端口时间序列的网络流量分类方法,其特征在于:所述获取来源端口的流量特征步骤前还包括步骤根据来源端口分别获取流量样本,所述流量样本用于留存来源端口的原始数据。


5.根据权利要求1所述基于端口时间序列的网络流量分类方法,其特征在于:所述统计来源端口的开始时间步骤...

【专利技术属性】
技术研发人员:肖梅陈陆颖李现强齐凯
申请(专利权)人:北京浩瀚深度信息技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1