一种检测页面篡改的方法及装置制造方法及图纸

技术编号:10411789 阅读:133 留言:1更新日期:2014-09-10 20:20
本发明专利技术提供了一种检测页面篡改的方法及装置,其中,所述方法包括:生成黑链特征数据库,并在多台服务器中部署所述黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;获取当前检测页面的特征信息;依据所述页面的特征信息确定对应的目标服务器;采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配,判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判定当前页面为被篡改页面。本发明专利技术可以在尽可能减少人工干预的前提下,提高检测页面篡改的效率和准确率,尤其是在需检测页面数量众多,并且,所需匹配的黑链特征数据较多的情况下,提高检测页面篡改的效率和准确率。

【技术实现步骤摘要】
一种检测页面篡改的方法及装置本专利技术专利申请是申请日为2011年12月30日、申请号为201110457654.3、名称为“一种检测页面篡改的方法及装置”的中国专利技术专利申请的分案申请。
本申请涉及计算机安全的
,特别是涉及一种检测页面篡改的方法,以及一种检测页面篡改的装置。
技术介绍
万维网成为大量信息的载体,为有效地提取并利用这些信息,搜索引擎(SearchEngine)作为一个辅助人们检索信息的工具,成为用户访问万维网的入口和指南。SEO(Search Engine Optimizat1n,搜索引擎优化),是较为流行的网络营销方式,主要目的是增加特定关键字的曝光率以增加网站的能见度,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力。网站SEO数据表示本网站的内容在其它搜索引擎中被收录的数量,收录得越多就更容易被用户搜索到。对于搜索引擎的这种特性,目前有些工具提供了黑链技术,黑链是SEO黑帽手法中相当普遍的一种手段,笼统地说,它就是指一些人用非正常的手段获取的其它网站的反向链接,最常见的黑链就是通过各种网站程序漏洞获取搜索引擎权重或者PR(PageRank,网页级别),较高的网站的WEBSHELL(匿名用户(入侵者)通过网站端口对网站服务器的某种程度上操作的权限),进而在被黑网站上链接自己的网站。黑链主要针对搜索引擎,例如,对搜索引擎搜索出来的排名最靠前的几个网站进行简单的分析,查看其网站架构,关键词分布,以及外链等等,有可能发现一些网站排名非常好,而且关键词网页相关数都达到几百万,但网站架构一般,关键词密度不是很合适,最主要的是有些网站没有任何导出的链接,通过查看其反向链接才发现,绝大数外链都来自于黑链。SEO主要是靠高质量的外链来决定排名,按照百分比来讲,应超过50 %,因此在权重较高的网站上做黑链有利于网站排名的。此外黑链一般以隐藏链接的模式,所以在网站的常规检查中管理员很难发现网站被做了黑链。目前,黑链一般用于暴利的黑(灰)色产业,例如私服,医疗,冷门高利润行业等等。黑链也已形成产业化。在实际应用中,如果用户没有做好安全防护工作,那么打开被黑链篡改的页面就会容易就会感染网站上的病毒。现有技术中,对于黑链的检测通常是由人工,比如网站的站长,通过大量人工收集的篡改关键词,如hack、hacked by,六合彩、性经历、夕卜挂,私服等匹配网页中的HTML正文,以判断其是否被黑链篡改。例如,被黑链篡改网页常见的特征分为黑客炫耀的特征如:然而,这种人工检测的方式严重依赖于人工收集的篡改关键词和人工的定期检测,效率十分低下。再者,对于在所需检测页面数量众多,并且,所需匹配的黑链特征数据(如篡改关键词)较多的情况下,人工的方式显然完全无法应对。因此,目前需要本领域技术人员解决的一个技术问题就是,提供一种检测页面篡改的机制,用以在尽可能减少人工干预的前提下,提高检测页面篡改的效率和准确率,尤其是在需检测页面数量众多,并且,所需匹配的黑链特征数据较多的情况下,提高检测页面篡改的效率和准确率。
技术实现思路
本申请提供一种检测页面篡改的方法,用以在尽可能减少人工干预的前提下,提高检测页面篡改的效率和准确率,尤其是在需检测页面数量众多,并且,所需匹配的黑链特征数据较多的情况下,提高检测页面篡改的效率和准确率。本申请还提供了一种检测页面篡改的装置,用以保证上述方法在实际中的应用及实现。为了解决上述问题,本申请公开了一种检测页面篡改的方法,包括:生成黑链特征数据库,并在多台服务器中部署所述黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;获取当前检测页面的特征信息;依据所述页面的特征信息确定对应的目标服务器;采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配,判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判定当前页面为被篡改页面。优选的,所述服务器具有服务器标识,所述特征信息包括页面分类信息,所述依据页面的特征信息确定对应的目标服务器的步骤包括:按照预置的页面分类信息与服务器标识的对应关系,提取当前页面分类信息对应的服务器标识;将所述服务器标识对应的服务器确定为目标服务器。优选的,所述特征信息包括页面的URL,所述服务器具有数值标识,所述依据页面的特征信息确定对应的服务器标识的步骤包括:采用预设算法将当前检测页面的URL转换为数值;按所述数值提取对应数值标识的服务器为目标服务器。优选的,所述页面分类信息包括页面的内容分类信息,页面的类型分类信息,页面的属性分类信息。优选的,所述生成黑链特征数据库的步骤包括:采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据;保存所述黑链特征数据形成黑链特征数据库。优选的,所述黑链特征数据包括篡改关键词和黑链URL。优选的,所述分析所述黑链特征数据在特征页面中的布局的步骤包括:判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常;和/ 或,判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常;和/ 或,判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。优选的,所述根据页面元素生成黑链规则的步骤为:从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。优选的,所述的方法,还包括:按预设时间间隔更新所述黑链特征数据库。本申请还公开了一种检测页面篡改的装置,包括:数据库生成模块,用于生成黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;数据库部署模块,用于在多台服务器中部署所述黑链特征数据库;特征信息获取模块,用于获取当前检测页面的特征信息;目标服务器确定模块,用于依据所述页面的特征信息确定对应的目标服务器;篡改检测模块,用于采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配,判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判定当前页面为被篡改页面。优选的,所述服务器具有服务器标识,所述特征信息包括页面分类信息,所述目标服务器确定模块包括:标识提取子模块,用于按照预置的页面分类信息与服务器标识的对应关系,提取当前页面分类信息对应的服务器标识;标识定位子模块,用于将所述服务器标识对应的服务器确定为目标服务器。优选的,所述特征信息包括页面的URL,所述服务器具有数值标识,所述目标服务器确定模块包括:URL转换子模块,用于采用预设算法将当前检测页面的URL转换为数值;标识对应子模块,用于按所述数值提取对应数值标识的服务器为目标服务器。优选的,所述数据库生成模块包括:特征页面搜索子模块,用于采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;布局分析子模块,用于分析所述黑链特征数据在特征页面中的布局;页面元素提取子模块,用于在发现布局异常时,从该本文档来自技高网
...

【技术保护点】
一种检测页面篡改的方法,其特征在于,包括:生成黑链特征数据库,并在多台服务器中部署所述黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;获取当前检测页面的特征信息;依据所述页面的特征信息确定对应的目标服务器;采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配,判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判定当前页面为被篡改页面。

【技术特征摘要】
1.一种检测页面篡改的方法,其特征在于,包括: 生成黑链特征数据库,并在多台服务器中部署所述黑链特征数据库,所述黑链特征数据库中包括黑链特征数据; 获取当前检测页面的特征信息; 依据所述页面的特征信息确定对应的目标服务器; 采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配,判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判定当前页面为被篡改页面。2.如权利要求1所述的方法,其特征在于,所述服务器具有服务器标识,所述特征信息包括页面分类信息,所述依据页面的特征信息确定对应的目标服务器的步骤包括: 按照预置的页面分类信息与服务器标识的对应关系,提取当前页面分类信息对应的服务器标识; 将所述服务器标识对应的服务器确定为目标服务器。3.如权利要求1所述的方法,其特征在于,所述特征信息包括页面的URL,所述服务器具有数值标识,所述依据页面的特征信息确定对应的服务器标识的步骤包括: 采用预设算法将当前检测页面的URL转换为数值; 按所述数值提取对应数值标识的服务器为目标服务器。4.如权利要求2所述的方法,其特征在于,所述页面分类信息包括页面的内容分类信息,页面的类型分类信息,页面的属性分类信息。5.如权利要求1或2或3或4所述的方法,其特征在于,所述生成黑链特征数据库的步骤包括: 采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面; 分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素; 根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据; 保存所述黑链特征数据形成黑链特征数据库。6.如权利要求5所述的方法,其特征在于,所述黑链特征数据包括篡改关键词和黑链URL。7.如权利要求5所述的方法,其特征在于,所述分析所述黑链特征数据在特征页面中的布局的步骤包括: 判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常; 和/或, 判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常; 和/或, 判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。8.如权利要求6所述的方法,其特征在于,所述根据页面元素生成黑链规则的步骤为: 从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。9.如权利要求6所述的方法,其特征在于,还包括: 按预设时间间隔更新所述黑链特征数据库。10.一种检测页面篡改的装置,其特征在于,包括: 数据库生成模块,用于生成黑链特征数据库...

【专利技术属性】
技术研发人员:刘起郭峰
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有1条评论
  • 来自[美国加利福尼亚州圣克拉拉县山景市谷歌公司] 2015年04月07日 04:46
    用作伪的手段对经典、理论、政策等进行改动或曲解。
    0
1