一种压缩网页指纹库构建方法和压缩网页快速相似性匹配方法组成比例

技术编号:17248480 阅读:25 留言:0更新日期:2018-02-11 06:39
本发明专利技术涉及一种压缩网页指纹库构建方法和压缩网页快速相似性匹配方法。该方法包括:对Gzip压缩网页进行霍夫曼解码,得到半解压缩网页;对半解压缩网页进行分词处理,并选取能够表征网页的分词作为特征分词;对网页的特征分词进行降维处理,生成一维的指纹信息;根据网页的指纹信息构建指纹库;对在线的Gzip压缩网页采用同样方法生成一维的指纹信息,并与Gzip压缩网页的指纹库中的指纹进行相似性比较,根据设定的相似度阈值判定是否相似。采用本发明专利技术的方法进行压缩网页的相似性匹配,能够有效地提高压缩网页的相似性匹配的效率。

【技术实现步骤摘要】
一种压缩网页指纹库构建方法和压缩网页快速相似性匹配方法
本专利技术属于网络安全领域,具体涉及一种针对压缩网页的指纹库构建方法和快速相似性匹配方法。
技术介绍
目前,境内外有大量的有害网站,而这些有害网站对网络环境造成了恶劣的影响。控制有害网站对社会、人群造成的犯罪性危害,一直是各国政府们担忧的问题。根据Google旗下广告服务商Doubleclick的资料显示,流量前500名的网站中,有数十个是有害成人网站。美国BusinessInsider公布的数据,有害网站占全球网站整体数量的12%。平均来说,如果每天会逛10个网站,可能其中一个就是有害网站。《商业价值》中报道,世界上最大的成人有害网站每月访问量可以达到44亿,这个数字是是京东访问量的2倍,更是优酷访问量的11倍。而此刻它在权威网站排名Alexa的榜单上排第34名,把BBC、天猫等知名网站都远远的甩在了身后。多次净网专项行动中,运营商和安全软件开发商采用各种各样的方法检测并且关闭色情、赌博或者挂马等有害网站,切断非法信息传播的源头。然而,非法网站采用更换网站专用服务器、更换网站域名和使用镜像反向代理等多种技术手段逃避检测,导致不能通过使用主动探测或者主动爬取的手段来探测这类有害网站。采用被动流量分析并在线发现有害网站的方法,对于维护网络环境具有重要的深远意义。基于被动流量分析的过程中,一般需要采用深度包检测的方法进行内容审查,或者采用md5或者sha1等哈希算法对网页内容提取指纹,然后采用对新捕获的网页再进行匹配的方法来检测有害网站。然而现实网页流量中却存在大量含有相似变形词网页的情况,如服务器的自审查,导致敏感词被替换,上述两种方法均失效。而且服务器的关键词过滤列表不同产生了不同的网页,导致其哈希值也会不同,同样失效。访问镜像反向代理网站,或者使用不同设备(如PC和手机)、不同时间得到的同一服务器网页,同样会有在页面布局或内容上的差异,甚至局部信息展示的微小变化都会导致整个网页的指纹信息完全更改;同样不能使用md5或者sha1哈希的方法进行匹配。因此在被动流量分析的过程中,由于关键字审查以及指纹匹配失效,需要针对含有变形词的网页进行相似性网页匹配。大多数网站服务商和应用程序都应用了Gzip压缩它们所提供的内容。而且Gzip网页已经成为了HTTP1.1的基本准则。客户端以及服务端都支持Gzip压缩网页的传输。IEEdge,Firefox、Chrome、Safari、搜狗浏览器、360浏览器等等都支持Gzip形式传输的网页。而服务端方面Nginx、Microsoft-IIS、Apache、Tomcat等都内置Gzip压缩的功能,简单配置即可开启网站的Gzip压缩。比如nginx只需要在conf/nginx.conf写入Gzipon即可开启。并且可以选择压缩的文件类型,比如css、javascript、html文件等等。在线流量占比方面,Alexa,排名前3000的网站有50%启用了Gzip压缩。排名越靠前的一些网站,其中开启Gzip压缩的越高,甚至top100的网站中有65%的网站开启了Gzip压缩。同样的,在实际网络流量中Gzip压缩含量占比同样很大。经过测量采集自国家互联网应急中心的数据可知,网络中真实传输的流量,在文本类的数据,有65%的流量是以Gzip的压缩的形式传输的,而数量上面的占比为66%。占比都超过了60%。网络流中Gzip压缩网页流量占据了主要部分,在被动流量分析的过程中势必要考虑Gzip压缩对于相似网页匹配技术的影响。然而Gzip压缩网页编码非明文,解析困难:Gzip压缩是由Gzip头部加上Deflate算法生成的内容所组成。而Deflate算法是由原文进行两步压缩得到—LZ77编码以及(静态和动态)霍夫曼编码。而且Gzip解压缩耗时且消耗大量的计算资源。Gzip压缩网页解析困难,速度慢的特点跟在线审查对于‘快’的需求形成矛盾,因此需要针对Gzip特点提出更快速的匹配算法。
技术实现思路
为了解决Gzip压缩网页快速相似性匹配速度慢的问题,本专利技术提出了一种针对Gzip压缩算法的压缩网页快速相似性匹配方法,可以适用于高速网络中的入侵检测系统。本专利技术采用的技术方案如下:一种压缩网页指纹库构建方法,包括以下步骤:1)对Gzip压缩网页进行霍夫曼解码,得到半解压缩网页;2)对半解压缩网页进行分词处理,并选取能够表征网页的分词作为特征分词;3)对网页的特征分词进行降维处理,生成一维的指纹信息;4)根据网页的指纹信息构建指纹库。进一步地,步骤1)得到半解压缩网页后,对其中的指针以及由于指针原因形成的不完整分词进行去除处理。进一步地,步骤2)采用IKAnalyzer算法进行分词处理,并采用TF-IDF算法计算所有分词的权重,对权重排序后选取一定量的分词作为表征网页的特征分词。进一步地,步骤3)采用Simhash算法对特征分词进行降维处理,生成一维的指纹信息。进一步地,步骤4)通过结合鸽巢原理与字典树来构建指纹库,通过将链表形式的哈希值改进为字典树的形式形成高速索引。一种压缩网页相似性匹配方法,包括以下步骤:1)对在线的Gzip压缩网页进行霍夫曼解码,得到半解压缩网页;2)对半解压缩网页进行分词处理,并选取能够表征网页的分词作为特征分词;3)对网页的特征分词进行降维处理,生成一维的指纹信息;4)将生成的在线网页的指纹信息与Gzip压缩网页的指纹库中的指纹进行相似性比较,并根据设定的相似度阈值判定是否相似。进一步地,步骤1)根据有害网站的Gzip压缩网页构建指纹库,作为恶意样本库;步骤4)通过将在线网页的指纹信息与恶意样本库中的指纹信息进行相似性比较,来判断在线网页是否为恶意网页。进一步地,步骤1)通过结合鸽巢原理与字典树来构建指纹库,通过将链表形式的哈希值改进为字典树的形式形成高速索引;步骤4)进行相似性比较时,根据鸽巢原理将在线网页的指纹信息划分成n块,然后将n块分别在哈希表中进行匹配,找到对应的哈希值,即字典树。进一步地,步骤4)通过计算指纹信息的哈希值的海明距离来确定相似度;对于字典树中海明距离的计算,通过维护一个最小堆来进行剪枝操作,以加快匹配速度。一种服务器,所述服务器包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上面所述方法中各步骤的指令。一种存储计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时,实现上面所述方法的步骤。本专利技术的有益效果如下:本专利技术在半解压缩的基础上进行特征提取,而不是全解压缩之后的提取,并结合字典树与鸽巢原理构建了相似性检索所需的高速索引。相比于现有的全解压缩的方法,采用本专利技术的方法进行压缩网页的相似性匹配,速度能够提升40%左右,有效地提高了压缩网页的相似性匹配的效率。附图说明图1是压缩网页快速相似性匹配方法的整体框架图。图2是高速索引示意图。图3是字典树示意图。具体实施方式下面通过具体实施例和附图,对本专利技术做进一步详细说明。压缩网页快速相似性匹配的核心目的是为了加快在线网络流量中恶意网页的匹配,减少整个过程的耗时。基于此,本专利技术优化了传统的相似性匹配的框架,专门针对压缩网页进行了改进,其主要设计包含以下几个方面:1)半解压缩状态本文档来自技高网
...
一种压缩网页指纹库构建方法和压缩网页快速相似性匹配方法

【技术保护点】
一种压缩网页指纹库构建方法,其特征在于,包括以下步骤:1)对Gzip压缩网页进行霍夫曼解码,得到半解压缩网页;2)对半解压缩网页进行分词处理,并选取能够表征网页的分词作为特征分词;3)对网页的特征分词进行降维处理,生成一维的指纹信息;4)根据网页的指纹信息构建指纹库。

【技术特征摘要】
1.一种压缩网页指纹库构建方法,其特征在于,包括以下步骤:1)对Gzip压缩网页进行霍夫曼解码,得到半解压缩网页;2)对半解压缩网页进行分词处理,并选取能够表征网页的分词作为特征分词;3)对网页的特征分词进行降维处理,生成一维的指纹信息;4)根据网页的指纹信息构建指纹库。2.如权利要求1所述的压缩网页的指纹库构建方法,其特征在于,步骤1)得到半解压缩网页后,对其中的指针以及由于指针原因形成的不完整分词进行去除处理。3.如权利要求1所述的压缩网页的指纹库构建方法,其特征在于,步骤2)采用IKAnalyzer算法进行分词处理,并采用TF-IDF算法计算所有分词的权重,对权重排序后选取一定量的分词作为表征网页的特征分词;步骤3)采用Simhash算法对特征分词进行降维处理,生成一维的指纹信息。4.如权利要求1所述的压缩网页的指纹库构建方法,其特征在于,步骤4)通过结合鸽巢原理与字典树来构建指纹库,通过将链表形式的哈希值改进为字典树的形式形成高速索引。5.一种压缩网页相似性匹配方法,其特征在于,包括以下步骤:1)对在线的Gzip压缩网页进行霍夫曼解码,得到半解压缩网页;2)对半解压缩网页进行分词处理,并选取能够表征网页的分词作为特征分词;3)对网页的特征分词进行降维处理,生成一维的指纹信息;4)将生成的在线网页的指纹信息与Gz...

【专利技术属性】
技术研发人员:杨嵘张斌张鹏杨威李舒窦凤虎刘庆云
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1