基于数据包时序的加密网页流量分割点识别方法技术

技术编号:24331854 阅读:41 留言:0更新日期:2020-05-29 19:59
本发明专利技术提出了一种基于数据包时序的加密网页流量分割点识别方法,用于解决现有技术中存在的识别准确率较低的技术问题。实现步骤为,获取加密网页流量原始数据集T;定义加密网页流量数据T

A method of identifying traffic segmentation points of encrypted web pages based on packet timing

【技术实现步骤摘要】
基于数据包时序的加密网页流量分割点识别方法
本专利技术属于网络安全与用户隐私领域,涉及一种加密网页流量分割点识别方法,具体涉及一种基于数据包时序的加密网页流量分割点识别方法。
技术介绍
加密通信网络的目的是隐藏通信双方的关系和内容,一旦双方建立了加密通信网络,通信内容就会被加密,第三方的源和目标IP等路由信息就会被隐藏。然而这种高度的匿名性却给那些利用网络从事违法犯罪的不法分子提供了便利,同时也给网络监管机构带来了更大的困难和挑战。当用户通过加密通信网络进行网页访问活动时产生的多次请求和应答的流量就是加密网页流量,使用网站指纹识别技术对这些加密网页流量进行识别,就可以在不破解用户加密数据的情况下得到用户访问的网页信息,对用户网络进行内容审查。在对进行加密网页流量进行网站指纹识别时,其中最重要的一步就是确保输入的待识别流量是单网页加密流量,因为现有的网站指纹识别技术都是基于单网页流量进行网站指纹模型的构建,如果输入的待检测加密网页流量是多个网页的混杂流量,就会造成网站指纹模型的识别错误,影响网站指纹识别技术在现实场景的应用。所以对每个加密网页流量的起始数据包即加密网页流量分割点进行识别,在此基础上得到单网页的加密网页流量,就显得格外重要。目前对于加密网页流量的分割点识别方法的研究,主要基于对加密网页流量数据包的时间间隔的分析。其中有两种方法较为广泛,一种是根据数据包的时间间隔对加密网页流量进行分析,一种是使用机器学习的方法提取分割点周围的特征进行分析。前一种方法是最朴素的一种方法,根据数据包之间的间隔确认加密网页分割点的位置,当相邻数据包之间的时间间隔大于某一数值时,就认为第二个数据包为加密网页流量的分割点,这种方法仅仅能识别两个网页起始访问时间时间间隔较大时产生的加密网页流量分割点,对同时打开两个网页即零时间间隔加密网页流量分割点就不能识别,因此,后一种方法得到了更多研究人员的关注。目前,使用机器学习的方法提取分割点周围的特征进行分析的方法大多包含以下三个步骤:1)加密网页流量数据获取与预处理;2)特征提取;3)机器学习分类器构建。在数据获取与预处理步骤中,需要获取加密网页流量数据,并将数据进行初步分组与序列化;在特征提取步骤中,需要从每组数据中提取具有能显著区分分割点和非分割点特性的特征;在分类器构建步骤中,需要将从特征提取步骤中得到特征输入到分类器中进行训练,并得到分类模型。目前最常用的分类算法是随机森林。2016年,滑铁卢大学的TaoWang等人在ProceedingsonPrivacyEnhancingTechnologies期刊上发表了论文“OnRealisticallyAttackingTorwithWebsiteFingerprinting”,提出一种使用机器学习对加密网页流量数据进行分割点识别的方法。该方法主要使用数据包之间的时间间隔特点进行特征提取和构造,对分割点的识别使用了23个特征,包括每个数据包与相邻的5个数据包之间的到达时间间隔、每个数据包与下一个传入数据包之间的间隔时间,以及每个数据包与前后50个数据包之间到达时间的时间间隔平均值、标准差、最大值,以及每个数据包前2、4、6、…16、18个数据包和后2、4、6、…16、18个数据包之间的到达时间的时间间隔,以及每个数据包前后5、10个数据包中传入数据包和传出数据包的数量。然而这种方法在用于加密网页流量分割点识别时,对于高度同质化的流量所提取出的时间间隔特征不能明显的区分网页分割点,因此对于零时间间隔的加密网页流量的识别准确率较低,除此之外该方法在构建特征向量时需要对每个数据包前后的50个数据包进行时间间隔的统计和缓存,需要很大的计算空间,影响分割点的识别效率。
技术实现思路
本专利技术的目的在于克服上述现有技术存在的不足,提出了一种基于数据包时序的加密网页流量分割点识别方法,用于解决现有技术中存在的识别准确率较低的技术问题。为实现上述目的,本专利技术采取的技术方案包括如下步骤:(1)获取加密网页流量原始数据集T:(1a)构建包含计算机D、加密网络N和网页服务器S的数据采集网络,计算机D包含匿名浏览器C和抓包软件,网页服务器S包括至少一个网页W;(1b)匿名浏览器C通过加密网络N对网页服务器S所包含的网页W进行n次访问,并通过抓包软件对每次访问的请求和应答过程所产生的双向加密网页流量数据进行抓取,得到加密网页流量原始数据集T,T={T1,T2,...Ti,...Tn},其中,Ti表示第i次抓取的包含m个数据包的加密网页流量数据,第j个数据包的时间戳和长度分别为tij和lij,n≥2,m≥3;(2)定义加密网页流量数据Ti的矢量数据包:定义加密网页流量数据Ti中带有方向的数据包为矢量数据包,匿名浏览器C通过加密网络N向网页服务器S发送的请求数据包为矢量数据包-lij,网页服务器S通过加密网络N向匿名浏览器C发送的应答数据包为矢量数据包+lij;(3)基于数据包时序获取加密网页流量数据Ti的序列段集合:(3a)将加密网页流量数据Ti中数据包的矢量数据包记为l'ij,并以[时间戳,矢量]为格式对Ti进行序列化,得到加密网页流量序列T'i:T'i={(ti1,l'i1),(ti2,l'i2),...,(tij,l'ij),...(tim,l'im)};(3b)以Δt为单位时间对加密网页流量序列T'i进行划分,得到包括s段子序列的序列段集合T'i={T'i1,T'i2,...T'ik,...T'is},其中,T'ik表示第k段序列;(4)获取加密网页流量序列T'i的时序特征向量集合CTi和标签集合Yi:(4b)计算第k段T'ik内序列个数的统计值和矢量的统计值,以及第k段T'ik内相邻序列之间时间间隔的统计值,其中:第k段T'ik内序列个数的统计值和矢量的统计值,包括矢量为“+”的序列个数scnk和序列总矢量和sclk、矢量为“-”的序列个数csnk和序列总矢量和cslk、sclk的长度|sclk|和cslk的长度|cslk|、序列总个数vnk和序列总矢量和vlk,以及序列总矢量长度vl'k、scnk与vnk的比值csnk与vnk的比值sclk与vlk的比值cslk与vlk的比值|sclk|与vl'k的比值|cslk|与vl'k的比值k≥2,其中:vnk=scnk+csnkvlk=sclk+cslkvl'k=|sclk|+|cslk|第k段T'ik内相邻序列之间时间间隔的统计值,包括最大时间间隔、最小时间间隔、所有时间间隔的平均值和标准差;(4c)将加密网页流量序列T'i中第k段T'ik内序列个数的统计值和矢量的统计值,以及第k段T'ik内相邻序列之间时间间隔的统计值组成时序特征向量CTik,并将T'i中s段的时序特征向量组成时序特征向量集合CTi:CTi={CTi1,CTi2,...CTik,...CTis};(4本文档来自技高网
...

【技术保护点】
1.一种基于数据包时序的加密网页流量分割点识别方法,其特征在于,包括以下步骤:/n(1)获取加密网页流量原始数据集T:/n(1a)构建包含计算机D、加密网络N和网页服务器S的数据采集网络,计算机D包含匿名浏览器C和抓包软件,网页服务器S包括至少一个网页W;/n(1b)匿名浏览器C通过加密网络N对网页服务器S所包含的网页W进行n次访问,并通过抓包软件对每次访问的请求和应答过程所产生的双向加密网页流量数据进行抓取,得到加密网页流量原始数据集T,T={T

【技术特征摘要】
1.一种基于数据包时序的加密网页流量分割点识别方法,其特征在于,包括以下步骤:
(1)获取加密网页流量原始数据集T:
(1a)构建包含计算机D、加密网络N和网页服务器S的数据采集网络,计算机D包含匿名浏览器C和抓包软件,网页服务器S包括至少一个网页W;
(1b)匿名浏览器C通过加密网络N对网页服务器S所包含的网页W进行n次访问,并通过抓包软件对每次访问的请求和应答过程所产生的双向加密网页流量数据进行抓取,得到加密网页流量原始数据集T,T={T1,T2,...Ti,...Tn},其中,Ti表示第i次抓取的包含m个数据包的加密网页流量数据,第j个数据包的时间戳和长度分别为tij和lij,n≥2,m≥3;
(2)定义加密网页流量数据Ti的矢量数据包:
定义加密网页流量数据Ti中带有方向的数据包为矢量数据包,匿名浏览器C通过加密网络N向网页服务器S发送的请求数据包为矢量数据包-lij,网页服务器S通过加密网络N向匿名浏览器C发送的应答数据包为矢量数据包+lij;
(3)基于数据包时序获取加密网页流量数据Ti的序列段集合:
(3a)将加密网页流量数据Ti中数据包的矢量数据包记为l′ij,并以[时间戳,矢量]为格式对Ti进行序列化,得到加密网页流量序列T′i:
T′i={(ti1,l′i1),(ti2,l′i2),...,(tij,l′ij),...(tim,l′im)};
(3b)以Δt为单位时间对加密网页流量序列T′i进行划分,得到包括s段子序列的序列段集合T′i={T′i1,T′i2,...T′ik,...T′is},其中,T′ik表示第k段序列;
(4)获取加密网页流量序列T′i的时序特征向量集合CTi和标签集合Yi:
(4b)计算第k段T′ik内序列个数的统计值和矢量的统计值,以及第k段T′ik内相邻序列之间时间间隔的统计值,其中:
第k段T′ik内序列个数的统计值和矢量的统计值,包括矢量为“+”的序列个数scnk和序列总矢量和sclk、矢量为“-”的序列个数csnk和序列总矢量和cslk、sclk的长度|sclk|和cslk的长度|cslk|、序列总个数vnk和序列总矢量和vlk,以及序列总矢量长度vl′k、scnk与vnk的比值csnk与vnk的比值sclk与vlk的比值cslk与vlk的比值|sclk|与vl′k的比值|cslk|与vl′k的比值k≥2,其中:
vnk=scnk+csnk
vlk=sclk+cslk
vl′k=|sclk|+|cslk|



【专利技术属性】
技术研发人员:杨超孟献昆苏锐丹尤伟郑昱郭刚陈明哲
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1