The invention relates to a fine-grained web page feature extraction method based on cumulative packet length, belonging to the technical field of network service security. WPF includes the following steps: step 1, acquiring encrypted traffic data sets; step 2, extracting the length of encrypted traffic data sets and sorting them, extracting the length of data packets and setting the length of upstream data packets to zero to get the accumulated data packet length sequence; step 3, hashing the accumulated data packet length sequence to get the hashed data packet sequence; Step 4. Generate the characteristics of Web encryption traffic based on hashed post-packet sequence. 1. The invention is applicable to the encrypted network communication scenario of the SSL/TLS protocol; the method has high accuracy and efficiency; can be combined with traditional machine learning algorithm to construct a web traffic classifier; has the advantages of low feature dimension, simple calculation process, low time complexity, and can realize online web traffic detection, which is suitable for practical application.
【技术实现步骤摘要】
一种基于累积数据包长度的网页加密流量特征提取方法
本专利技术涉及一种基于累积数据包长度的细粒度网页特征提取方法,属于网络服务安全
技术介绍
流量是网络通信与网络服务的载体,流量分析能够获取大量有用信息,如检测恶意流量,获取用户历史访问行为。对保障网络正常运转,为用户提供个性化服务具有重要意义。传统的流量特征提取方法大多是基于深度数据包明文信息检测,但随着SSL/TLS(安全套阶层/传输层安全)协议的广泛应用,网络流量被加密,这使得传统流量特征提取方法失去有效性。目前加密流量研究大多针对不同网站流量的识别和分类。与网站流量相比,网页流量承载着更多值得探究的信息,比如通过识别同一购物网站的不同网页流量,能够获取用户购物行为并进一步推测用户喜好。因此,如何对细粒度网页流量提取有效的分类和识别特征成为近年的研究热点。在加密网络流量特征分析方面已经有大量的研究工作,有工作提出使用数据包长度及数量信息作为流量特征,具体为:将上行数据包长度置为负,下行数据包长度置为正,使用上行数据包总个数、下行数据包总个数、上行数据包累加总长度和下行数据包累加总长度这四个特征作为加密流量基本特征,对加密流量进行分类和识别,该方法称为CUMUL。然而,所述方法只能分类和识别不同网站的加密流量,对于同一网站的不同网页,其数据包长度及数量非常相似,因此无法区分细粒度网页流量。另外,有工作提出使用动态时间规整来分类和识别网页流量,称为DTW。该方法只使用数据包的时间戳信息作为特征,然而,时间戳信息易受网络波动的影响且动态时间规整过程非常耗费时间,因此该方法并不适用于快速有效的检测同一 ...
【技术保护点】
1.一种基于累积数据包长度的加密网页流量特征提取方法,其特征在于:包括如下步骤:步骤1、获取加密流量数据集;步骤1.1使用抓包工具抓取一个网页一次加载产生的SSL/TLS加密网络流量,其中抓包工具为Wireshark或Tshark中的一种,所述加密网络流量由若干个数据包组成,每个数据包中包括了以下信息:该数据包的捕获时间、源IP地址、目的IP地址、协议、数据包长度、交互端口号以及加密后数据包内容;步骤1.2对加密网络流量所包含的数据包进行过滤,滤除无用数据包,得出余下数据包;其中,所述的无用数据包是指TCP错误包以及校验和错误的数据包;步骤1.3将步骤1.2输出的余下数据包进行同源网络流归类,具体为:将具有相同交互IP地址、交互端口号和传输协议的数据包归类为一条流,再将余下数据包中的所有数据包进行处理,梳理成为多条网络流;其中,具有相同交互IP地址的数据包是指数据包中的源IP地址和目的IP地址是交互的;步骤1.4统计步骤1.3梳理的每条网络流的数据包数量,保留数据包数量最多的一条流,丢弃其他网络流;将所述数据包数量最多的一条流中的所有数据包组成一个集合,记为加密流量数据集;步骤2、提取 ...
【技术特征摘要】
1.一种基于累积数据包长度的加密网页流量特征提取方法,其特征在于:包括如下步骤:步骤1、获取加密流量数据集;步骤1.1使用抓包工具抓取一个网页一次加载产生的SSL/TLS加密网络流量,其中抓包工具为Wireshark或Tshark中的一种,所述加密网络流量由若干个数据包组成,每个数据包中包括了以下信息:该数据包的捕获时间、源IP地址、目的IP地址、协议、数据包长度、交互端口号以及加密后数据包内容;步骤1.2对加密网络流量所包含的数据包进行过滤,滤除无用数据包,得出余下数据包;其中,所述的无用数据包是指TCP错误包以及校验和错误的数据包;步骤1.3将步骤1.2输出的余下数据包进行同源网络流归类,具体为:将具有相同交互IP地址、交互端口号和传输协议的数据包归类为一条流,再将余下数据包中的所有数据包进行处理,梳理成为多条网络流;其中,具有相同交互IP地址的数据包是指数据包中的源IP地址和目的IP地址是交互的;步骤1.4统计步骤1.3梳理的每条网络流的数据包数量,保留数据包数量最多的一条流,丢弃其他网络流;将所述数据包数量最多的一条流中的所有数据包组成一个集合,记为加密流量数据集;步骤2、提取加密流量数据集的数据包长度并进行排序、提取数据包长度以及上行数据包长度置0为主的处理,得到累加后的数据包长度序列;步骤2.1将加密流量数据集中的所有数据包按照该数据包的捕获时间先后顺序排列,得到网络流F;步骤2.2依次提取网络流F中的数据包长度,长度用p表示,pi代表第i个数...
【专利技术属性】
技术研发人员:沈蒙,刘怡婷,陈偲祺,祝烈煌,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。