一种基于HTTP不同版本的加密网站细粒度分类方法和装置制造方法及图纸

技术编号:24800614 阅读:86 留言:0更新日期:2020-07-07 21:13
本发明专利技术涉及一种基于HTTP不同版本的加密网站细粒度分类方法和装置。该方法包括以下步骤:对待分类的加密网站建立本地请求和响应序列特征;将待分类的加密网站的本地请求和响应序列特征输入深度森林模型;所述深度森林模型是利用由训练数据建立的网页的本地请求和响应序列特征进行训练而得到的深度森林模型;通过深度森林模型得到加密网站细粒度分类结果本发明专利技术可以对使用不同版本的HTTP协议的加密网站进行分类,既适用于粗粒度网站指纹,即对不同网站的主页分类,也适用于细粒度网站指纹,即对同一个网站下不同网页分类;不仅可以在双向流场景中使用,也可以在单向流场景中使用。

【技术实现步骤摘要】
一种基于HTTP不同版本的加密网站细粒度分类方法和装置
本专利技术涉及一种基于HTTP不同版本的加密网站细粒度分类方法和装置,属于计算机软件

技术介绍
随着加密协议如SSL/TLS的广泛使用,传统的基于包内容的方法很难识别网络流量。因此,最近的研究对网络流量提取了各种特征并使用机器学习算法进行分类。加密网站细粒度分类是指利用流量的基本时空特征、行为特征和协议特征在加密信道中精细化地识别特定加密Web网页,又称为网站指纹技术。以前的网站指纹工作只是对基于HTTP/1.1的加密网站分类。据W3Techs称,截至2019年1月,前1000万网站中有32.5%支持HTTP/2.0。SearchDatalogy还报告,在2018年4月的200个顶级网站中,44%的网站支持HTTP/2.0。HTTP/2.0中的多路复用和并发技术导致HTTP/2.0与以前版本的HTTP协议有很大的不同。以往关于网站指纹的研究主要集中在基于HTTP/1.0和HTTP/1.1的特征上,这些特征不适用于HTTP/2.0协议。随着技术的发展,HTTP/2被广泛使用本文档来自技高网...

【技术保护点】
1.一种基于HTTP不同版本的加密网站细粒度分类方法,其特征在于,包括以下步骤:/n对待分类的加密网站建立本地请求和响应序列特征;/n将待分类的加密网站的本地请求和响应序列特征输入深度森林模型;所述深度森林模型是利用由训练数据建立的网页的本地请求和响应序列特征进行训练而得到的深度森林模型;/n通过深度森林模型得到加密网站细粒度分类结果。/n

【技术特征摘要】
1.一种基于HTTP不同版本的加密网站细粒度分类方法,其特征在于,包括以下步骤:
对待分类的加密网站建立本地请求和响应序列特征;
将待分类的加密网站的本地请求和响应序列特征输入深度森林模型;所述深度森林模型是利用由训练数据建立的网页的本地请求和响应序列特征进行训练而得到的深度森林模型;
通过深度森林模型得到加密网站细粒度分类结果。


2.根据权利要求1所述的方法,其特征在于,所述本地请求和响应序列特征包括三部分:第一部分特征描述网页的整体统计特征;第二部分特征包含页面加载期间每个时间片中传入和传出数据包的数量和总大小;第三部分特征描述网页的详细信息。


3.根据权利要求2所述的方法,其特征在于,所述第一部分特征包括10维统计特征:c2s的数据包总字节数,s2c的数据包总字节数,c2s的数据包总包数,s2c的数据包总包数,前30个c2s数据包的总字节数,前10个s2c数据包的总字节数,前30个数据包中c2s数据包个数,前10个数据包中s2c数据包个数,最后10个s2c数据包的总字节数,最后10个数据包s2c数据包个数;所述第二部分特征包括80维统计特征:由页面加载期间分成的20个时间片中,每个时间片的c2s数据包的总字节数,s2c的数据包个数,c2s的数据包个数,s2c数据包的总字节数;所述第三部分特征包括60维统计特征:前20个c2s的数据包的包长序列,前20个s2c的数据包的包长序列,最后20个s2c的数据包的包长序列。


4.根据权利要求2或3所述的方法,其特征在于,所述深度森林模型包括多粒度扫描模块和层次森林模块;所述多粒度扫描模块分别用不同长度滑动窗口扫描输入的第二部分特征和第三部分特征;所述层次森林模块中,第一层随机森林的输入是第一部分特征加上滑动窗口产生的细粒度特征,之后的每一层随机森林的输入包括第一部分特征和滑动窗口产生的细粒度特...

【专利技术属性】
技术研发人员:熊刚苟高鹏张子青李镇管洋洋王炳旭
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1