页面篡改检测方法及黑链数据库生成方法技术

技术编号:10470219 阅读:162 留言:0更新日期:2014-09-24 20:58
本申请提供了一种检测页面篡改的方法及装置,其中,所述方法包括:生成黑链特征数据库,并在多台服务器中部署所述黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;获取当前检测页面的特征信息;依据所述页面的特征信息确定对应的目标服务器;采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配,判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判定当前页面为被篡改页面。本申请可以在尽可能减少人工干预的前提下,提高检测页面篡改的效率和准确率,尤其是在需检测页面数量众多,并且,所需匹配的黑链特征数据较多的情况下,提高检测页面篡改的效率和准确率。

【技术实现步骤摘要】
本专利技术专利申请是申请日为2011年12月30日、申请号为201110457654. 3、名称 为一种检测页面篡改的方法及装置的中国专利技术专利申请的分案申请。
本申请涉及计算机安全的
,特别是涉及一种检测页面篡改的方法,以及 一种检测页面篡改的装置。
技术介绍
万维网成为大量信息的载体,为有效地提取并利用这些信息,搜索引擎(Search Engine)作为一个辅助人们检索信息的工具,成为用户访问万维网的入口和指南。 SE0(Search Engine Optimization,搜索引擎优化),是较为流行的网络营销方 式,主要目的是增加特定关键字的曝光率以增加网站的能见度,使其提高搜索引擎排名,从 而提高网站访问量,最终提升网站的销售能力或宣传能力。网站SE0数据表示本网站的内 容在其它搜索引擎中被收录的数量,收录得越多就更容易被用户搜索到。 对于搜索引擎的这种特性,目前有些工具提供了黑链技术,黑链是SE0黑帽手法 中相当普遍的一种手段,笼统地说,它就是指一些人用非正常的手段获取的其它网站的反 向链接,最常见的黑链就是通过各种网站程序漏洞获取搜索引擎权重或者PR(PageRank,网 页级别),较高的网站的WEBSHELL (匿名用户(入侵者)通过网站端口对网站服务器的某种 程度上操作的权限),进而在被黑网站上链接自己的网站。 黑链主要针对搜索引擎,例如,对搜索引擎搜索出来的排名最靠前的几个网站进 行简单的分析,查看其网站架构,关键词分布,以及外链等等,有可能发现一些网站排名非 常好,而且关键词网页相关数都达到几百万,但网站架构一般,关键词密度不是很合适,最 主要的是有些网站没有任何导出的链接,通过查看其反向链接才发现,绝大数外链都来自 于黑链。SE0主要是靠高质量的外链来决定排名,按照百分比来讲,应超过50%,因此在权 重较高的网站上做黑链有利于网站排名的。此外黑链一般以隐藏链接的模式,所以在网站 的常规检查中管理员很难发现网站被做了黑链。目前,黑链一般用于暴利的黑(灰)色产 业,例如私服,医疗,冷门高利润行业等等。黑链也已形成产业化。在实际应用中,如果用户 没有做好安全防护工作,那么打开被黑链篡改的页面就会容易就会感染网站上的病毒。 现有技术中,对于黑链的检测通常是由人工,比如网站的站长,通过大量人工收集 的篡改关键词,如hack、hacked by,六合彩、性经历、夕卜挂,私服等匹配网页中的HTML正文, 以判断其是否被黑链篡改。例如,被黑链篡改网页常见的特征分为黑客炫耀的特征如:然 而,这种人工检测的方式严重依赖于人工收集的篡改关键词和人工的定期检测,效率十分 低下。 再者,对于在所需检测页面数量众多,并且,所需匹配的黑链特征数据(如篡改关 键词)较多的情况下,人工的方式显然完全无法应对。 因此,目前需要本领域技术人员解决的一个技术问题就是,提供一种检测页面篡 改的机制,用以在尽可能减少人工干预的前提下,提高检测页面篡改的效率和准确率,尤其 是在需检测页面数量众多,并且,所需匹配的黑链特征数据较多的情况下,提高检测页面篡 改的效率和准确率。
技术实现思路
本申请提供一种检测页面篡改的方法,用以在尽可能减少人工干预的前提下,提 高检测页面篡改的效率和准确率,尤其是在需检测页面数量众多,并且,所需匹配的黑链特 征数据较多的情况下,提高检测页面篡改的效率和准确率。 本申请还提供了一种检测页面篡改的装置,用以保证上述方法在实际中的应用及 实现。 为了解决上述问题,本申请公开了一种检测页面篡改的方法,包括: 生成黑链特征数据库,并在多台服务器中部署所述黑链特征数据库,所述黑链特 征数据库中包括黑链特征数据; 获取当前检测页面的特征信息; 依据所述页面的特征信息确定对应的目标服务器; 采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配,判断当前检 测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判定当前页面为被篡 改页面。 优选的,所述服务器具有服务器标识,所述特征信息包括页面分类信息,所述依据 页面的特征信息确定对应的目标服务器的步骤包括: 按照预置的页面分类信息与服务器标识的对应关系,提取当前页面分类信息对应 的服务器标识; 将所述服务器标识对应的服务器确定为目标服务器。 优选的,所述特征信息包括页面的URL,所述服务器具有数值标识,所述依据页面 的特征信息确定对应的服务器标识的步骤包括: 采用预设算法将当前检测页面的URL转换为数值; 按所述数值提取对应数值标识的服务器为目标服务器。 优选的,所述页面分类信息包括页面的内容分类信息,页面的类型分类信息,页面 的属性分类信息。 优选的,所述生成黑链特征数据库的步骤包括: 采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面; 分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面 中提取包含所述黑链特征数据的页面元素; 根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹 配,并在匹配的特征页面中提取新的黑链特征数据; 保存所述黑链特征数据形成黑链特征数据库。 优选的,所述黑链特征数据包括篡改关键词和黑链URL。 优选的,所述分析所述黑链特征数据在特征页面中的布局的步骤包括: 判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所 述黑链特征数据在特征页面中的布局异常; 和 / 或, 判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑 链特征数据在特征页面中的布局异常; 和 / 或, 判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判 定所述黑链特征数据在特征页面中的布局异常。 优选的,所述根据页面元素生成黑链规则的步骤为: 从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑 链规则。 优选的,所述的方法,还包括: 按预设时间间隔更新所述黑链特征数据库。 本申请还公开了一种检测页面篡改的装置,包括: 数据库生成模块,用于生成黑链特征数据库,所述黑链特征数据库中包括黑链特 征数据; 数据库部署模块,用于在多台服务器中部署所述黑链特征数据库; 特征信息获取模块,用于获取当前检测页面的特征信息; 目标服务器确定模块,用于依据所述页面的特征信息确定对应的目标服务器; 篡改检测模块,用于采用所述目标服务器中的黑链特征数据库与当前检测页面进 行匹配,判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判 定当前页面为被篡改页面。 优选的,所述服务器具有服务器标识,所述特征信息包括页面分类信息,所述目标 服务器确定模块包括: 标识提取子模块,用于按照预置的页面分类信息与服务器标识的对应关系,提取 当前页面分类信息对应的服务器标识; 标识定位子模块,用于将所述服务器标识对应的服务器确定为目标服务器。 优选的,所述特征信息包括页面的URL,所述服务器具有数值标识,所述目标服务 器确定模本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201410318946.html" title="页面篡改检测方法及黑链数据库生成方法原文来自X技术">页面篡改检测方法及黑链数据库生成方法</a>

【技术保护点】
一种页面篡改检测方法,其包括:获取当前检测页面的特征信息;依据所获取的特征信息确定对应的目标服务器;采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配以判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据;如果包含,则判定当前页面为被篡改页面。

【技术特征摘要】
1. 一种页面篡改检测方法,其包括: 获取当前检测页面的特征信息; 依据所获取的特征信息确定对应的目标服务器; 采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配以判断当前检测 页面中是否包含所述黑链特征数据库中的黑链特征数据; 如果包含,则判定当前页面为被篡改页面。2. 如权利要求1所述的方法,其中,所述黑链特征数据库部署在多台服务器上。3. 如权利要求1或2所述的方法,其中,所述服务器具有服务器标识,所述特征信息包 括页面分类信息,所述依据页面的特征信息确定对应的目标服务器的步骤包括: 按照预置的页面分类信息与服务器标识的对应关系,提取当前页面分类信息对应的服 务器标识; 将所述服务器标识对应的服务器确定为目标服务器。4. 如权利要求3所述的方法,其中,所述页面分类信息包括页面的内容分类信息、页面 的类型分类信息、页面的标签分类信息和/或页面的属性分类信息。5. 如权利要求1或2所述的方法,其中,所述特征信息包括页面的URL,所述服务器具 有数值标识,所述依据页面的特征信息确定对应的服务器标识的步骤包括: 采用预设算法将当前检测页面的URL转换为数值; 按所述数值提取对应数值标识的服务器并将其作为目标服务器。6. 如权利要求1至5中任一项所述的方法,其中,所述黑链特征数据库按照下面步骤生 成: 采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面; 分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面中提 取包含所述黑链特征数据的页面元素; 根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹配,并 在匹配的特征页面中提取新的黑链特征数据; 保存所述黑链特征数据形成黑链特征数据库。7. 如权利要求6所述的方法,其中,所述黑链特征数据包括篡改关键词和黑链URL。8. 如权利要求6所述的方法,其中,所述分析所述黑链特征数据在特征页面中的布局 进一步包括: 判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑 链特征数据在特征页面中的布局异常; 和/或, 判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特 征数据在特征页面中的布局异常; 和/或, 判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所 述黑链特征数据在特征页面中的布局异常。9. 如权利要求7所述的方法,其中,所述根据页面元素生成黑链规则的步骤为: 从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规 则。10. 如权利要求7所述的方法,其中,还包括: 按预设时间间隔更新所述黑链特征数据库。11. 一种黑链数据库生成方法,其包括: 采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面; 分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面中提 取包含所述黑链特征数据的页面元素; 根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹配,并...

【专利技术属性】
技术研发人员:刘起郭峰
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1