检测网页内容变更的方法及装置制造方法及图纸

技术编号:7786529 阅读:256 留言:0更新日期:2012-09-21 07:36
本发明专利技术提供一种检测网页内容变更的方法及装置,该方法包括:将第一网页生成第一文档对象模型DOM树,将第二网页生成第二DOM树;将第一DOM树和第二DOM树进行比较,确定第一DOM树和第二DOM树为同源DOM树;将第一DOM树中所有的子树与第二DOM树中所有的子树进行匹配,确定第一DOM树中与第二DOM树中每一子树的变更类型;若子树的变更类型为预设的需要进行合法验证的变更类型,则获取该子树对应的变更内容;查询内容权重列表,确定该子树对应的变更内容的权重等级;若该子树对应的变更内容的权重等级大于预设的非法变更等级,则确定该子树的变更类型为非法变更,解决现有的检测网页内容变更的方法检测效率低的问题。

【技术实现步骤摘要】

本专利技术涉及网络技术,尤其涉及一种检测网页内容变更的方法及装置
技术介绍
随着互联网技术的不断发展,网站为用户提供了实时的丰富多彩的内容,如新闻、公告、论坛等,由于各种因素,网站被黑客入侵,网站页面内容被篡改的事件屡有发生,需要对网站页面内容变更进行实时检测。现有的检测网页内容变更的方法主要是判断网页超文本标记语言(HypertextMarkup Language,简称HTML)源码是否发生了改变,但是,通过确定HTML源码发生改变的方法无法判断网页变更是否合法,这时仍然需要网络管理员通过人工检测的方法确定网页发生变更的合法性。 专利技术人在实现本专利技术的过程中发现由于网站页面数量庞大,现有的检测网页内容变更的方法存在检测效率低、准确率低的问题。
技术实现思路
本专利技术提供一种检测网页内容变更的方法及装置,解决了现有的检测网页内容变更的方法存在检测效率低、准确率低的问题。本专利技术的第一个方面是提供一种检测网页内容变更的方法,包括将第一网页生成第一文档对象模型DOM树,将第二网页生成第二 DOM树;将第一 DOM树和第二 DOM树进行比较,确定所述第一 DOM树和所述第二 DO本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种检测网页内容变更的方法,其特征在于,包括 将第一网页生成第一文档对象模型DOM树,将第二网页生成第二 DOM树; 将第一 DOM树和第二 DOM树进行比较,确定所述第一 DOM树和所述第二 DOM树为同源DOM 树; 将所述第一 DOM树中所有的子树与所述第二 DOM树中所有的子树进行匹配,确定所述第一 DOM树中与所述第二 DOM树中每一子树的变更类型; 若所述子树的变更类型为预设的需要进行合法验证的变更类型,则获取所述子树对应的变更内容; 查询内容权重列表,确定所述子树对应的变更内容的权重等级; 若所述子树对应的变更内容的权重等级大于预设的非法变更等级,则确定所述子树的变更类型为非法变更。2.根据权利要求I所述的方法,其特征在于,所述将第一DOM树和第二 DOM树进行比较,确定所述第一 DOM树和所述第二 DOM树为同源DOM树,具体包括 确定所述第一 DOM树与所述第二 DOM树中所有子树的哈希值hash_dom ; 分别将所述第一 DOM树中所有子树的hash_dom值与所述第二 DOM树中所有子树的hash_dom值按照预设的顺序组成第一哈希序列和第二哈希序列; 利用相似度算法计算所述第一哈希序列与所述第二哈希序列的相似度,若所述第一哈希序列与所述第二哈希序列的相似度大于哈希序列相似度阈值,则确定所述第一 DOM树与所述第二 DOM树为同源DOM树。3.根据权利要求I所述的方法,其特征在于,若所述第一DOM树为源DOM树,所述第二DOM树为所述第一 DOM树的同源DOM树; 所述将所述第一 DOM树中所有的子树与所述第二 DOM树中所有的子树进行匹配,确定所述第一 DOM树中与所述第二 DOM树中每一子树的变更类型具体包括 查找所述第一 DOM树的第一级子树集合A,若确定存在与第二 DOM树的第一级子树集合B中任一子树h具有相同hash_dom值的子树Bi,则确定所述具有相同hash_dom值的子树ai是否已被标记,若所述具有相同hash_dom值的子树子树Si被标记,则确定所述具有相同hash_dom值的子树Si的变更类型增加复制,确定与所述具有相同hash_dom值的子树Si对应的子树h的变更类型为复制,若所述具有相同hash_dom值的子树Bi未被标记,则对所述具有相同hash_dom值的子树Si进行标记,并确定所述具有相同hash_dom值的子树Si和与所述具有相同hash_dom值的子树Si对应的子树h的变更类型为相同。4.根据权利要求I所述的方法,其特征在于,所述将所述第一DOM树中所有的子树与所述第二 DOM树中所有的子树进行匹配,确定所述第一 DOM树中与所述第二 DOM树中每一子树的变更类型定具体包括 查找所述第一 DOM树的第一级子树集合A,若确定存在与第二 DOM树的第一级子树集合B中任一子树IDi的hash_dom值不相同、且不同源的子树ai;则查找所述第一 DOM树中所有子树集合确定是否存在与所述第二 DOM树的第一级子树集合B中任一子树IDi具有相同hash_dom值的子树a」; 若存在所述具有相同hash_dom值的子树a」,则确定所述具有相同hash_dom值的子树aj是否被标记,若所述具有相同hash_dom值的子树a」被标记,则确定所述具有相同hash_dom值的子树a」的变更类型增加移动,所述具有相同hash_dom值的子树a」对应的子树h的变更类型为复制;若所述具有相同hash_dom值的子树a]未被标记,则对所述具有相同hash_dom值的子树a」进行标记,并确定所述具有相同hash_dom值的子树a」和所述具有相同hash_dom值的子树a」对应的子树h的变更类型为移动; 若所述第二 DOM树的第一级子树集合B中存在与所述第一 DOM树中所有子树集合中的任一子树a」的hash_dom值不相同、且不同源的子树h,则确定所述子树IDi的变更类型为插入。5.根据权利要求I所述的方法,其特征在于,所述将所述第一DOM树中所有的子树与所述第二 DOM树中所有的子树进行匹配,确定所述第一 DOM树中与所述第二 DOM树中每一子树的变更类型具体包括 查找第一 DOM树的第一级子树集合A,若确定存在与第二 DOM树的第一级子树集合B中任一子树h同源的子树ak,则对所述子树ak进行标记,确定所述子树ak和与所述子树ak同源的子树匕的变更类型为修改。6.根据权利要求3-5中任一项所述的方法,其特征在于,所述将所述第一DOM树中所有的子树与所述第二 DOM树中所有的子树进行匹配,确定所述第一 DOM树中与所述第二 DOM树中每一子树的变更类型具体包括 查询所述第一 DOM树的所有子树集合; 若确定存在与所述第二 DOM树的所有子树集合中任一子树h的hash_dom值不相同的子树ap且所述子树a]未被标记,则确定所述子树a]的变更类型为删除。7.根据权利要求I所述的方法,其特征在于,所述查询内容权重列表,确定...

【专利技术属性】
技术研发人员:张振虎王晓明龙柯王兴罗宇付德龙
申请(专利权)人:北京神州绿盟信息安全科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1