一种基于视觉相似性镜像网站发现方法及系统技术方案

技术编号:19121734 阅读:80 留言:0更新日期:2018-10-10 05:01
本发明专利技术提供一种基于视觉相似性镜像网站发现方法及系统,该方法的步骤包括:对网页页面进行初步分块,将得到的块作为DOM树的结点;对可分割的结点继续分割,将分出的新块作为该结点的孩子结点;对于不可分割的结点,将该结点的块作为页面块存入页面块池中,如此循环迭代分块,直至得到全部的页面块;检测出页面中的分隔条,确定分割条的权重;基于分割条的权重进行重建,得到语义块;将语义块转换成图像,提取图像的签名特征;根据上述步骤提取目标网页和基准网页的各语义块的签名特征,基于签名特征通过EMD距离算法计算目标网页和基准网页之间的距离,如果该距离小于一设定阈值,则判定该目标网页的网站属于镜像网站。

【技术实现步骤摘要】
一种基于视觉相似性镜像网站发现方法及系统
本专利技术涉及网络信息
,具体涉及一种基于视觉相似性镜像网站发现方法及系统。
技术介绍
镜像网站是指对一个网站内容的拷贝。镜像网站通常用于为相同信息内容提供不同的源,特别是在下载量大的时候提供了一种可靠的网络连接。镜像网站和主站并没有太大差别,或者可算是为主站作的后备措施。镜像网站的特点是:如果不能对主站作正常访问(如某个服务器死掉或出了其它意外),但仍能通过其它服务器正常浏览。相对来说主站在速度等各方面比镜像站点略胜一筹。最常见的当属镜象站点。通过复制网站或网页的内容并分配以不同域名和服务器,以此欺骗搜索引擎对同一站点或同一页面进行多次索引。大多数搜索引擎都提供有能够检测镜象站点的适当的过滤系统,一旦发觉镜象站点,则源站点和镜象站点都会被从索引数据库中删除。“镜像网站”这种技术主要是在海外或中国租用一些多人共用的IP主机,而这些主机的域名都在亚马逊或谷歌之下,发布者将敏感网站内容抄到镜像主机之内,那些未经加密的敏感字内容除外,大部分网站都可以透过这种寄生于常用主机的镜像手法提供一个未经政府封锁的版本,政府的封锁亦因此失败。镜像的网站够多的话,政府要逐一封锁比较难,能够令敏感内容能够到达读者的电脑上。但是镜像网站不能解决关键字封锁,敏感字还是会被检测出来,如果使用加密就无法识别敏感关键字,镜像网站从而就不会被封锁。当前的镜像网站检测方法都是基于源码,在流量中通过条件过滤出HTTP协议,捕获相关数据包,获取网页源码,利用simhash算法将目标网页与基准网页进行源码对比。通过计算海明距离来与设定好的阈值进行对比判断,小于阈值的才是此网页的镜像网站。但是这种方法也存在着一定的局限性,现在很多网站都是套用模板,在网页源码上有着很高的相似性,从而simhash算法出现一定问题,召回率和准确率不可兼得。另外一方面,随着JavaScript的出现,很多网页都是导入JS,导致很多镜像网站源码差异很大,但是展现出的页面是相似的,所以,基于源码的镜像网站识别算法就已经不适用了。
技术实现思路
本专利技术的目的是提供一种基于视觉相似性镜像网站发现方法及系统,本方法通过页面分块技术和图像相似性检测技术,对具有视觉相似性的网站进行页面分块,对每个页面块进行图像相似性对比来发现镜像网站。为达到上述目的,本专利技术采用如下技术方案:一种基于视觉相似性镜像网站发现方法,步骤包括:基于视觉可视化信息和DOM树结构对网页页面进行初步分块,将得到的块作为DOM树的结点;判断每个结点是否可继续分割,如可以,则继续分割,将分出的新块作为该结点的孩子结点;如不可以,则将该结点的块作为页面块存入页面块池中,如此循环迭代分块,直至得到全部的页面块;检测出页面中的分隔条,确定分割条的权重;基于分隔条的权重,对网页页面进行重构(也称内容重建),从最小权重的分割条开始,将分割条两侧的页面块进行合并,组成新的页面块,如此迭代合并页面块,直至遇到权重最高的分隔条为止,得到由多个页面块合并的语义块;将得到的语义块转换成相同大小规格的图像,提取图像的签名特征;根据上述步骤提取目标网页和基准网页的各语义块的签名特征,基于签名特征通过EMD距离算法计算目标网页和基准网页之间的距离,如果该距离小于一设定阈值,则判定该目标网页的网站属于镜像网站。上述方法中,基于VIPS算法对网页页面进行初步分块。上述方法中,检测分割条的方法为:先将整个网页的页面设置为一个分隔条;再根据分隔条与页面块池中的每个页面块的包含、重合、跨越这三种关系调整分隔条,得到多个分隔条;最后移除页面边缘的四个分隔条。上述方法中,根据分隔条与页面块池中的每个页面块的包含、重合、跨越这三种关系调整分隔条包括:若页面块被包含在分隔条中,将该分隔条从页面块的边缘裂变为多个分隔条;若页面块与分隔条发生部分重合,那么根据页面块的边界重新调整分隔条的参数;若页面块跨越分隔条,则移除该分隔条。上述方法中,如果得到的语义块的DoC(DegreeofCoherence)值小于一设定阈值,则继续合并页面块,直至得到的语义块的DoC值不小于该设定阈值。上述方法中,采用htmltojpg方法将语义块转换成图像。上述方法中,对于每个语义块转换成的图像,采用一个四元组<A,R,G,B>来表示其颜色特征,先计算四元组<A,R,G,B>到原点的欧氏距离,再计算图像中心到原点的欧氏距离,再根据权重加起来,获得图像的签名特征。上述方法中,确定分隔条权重的规则包括:1)分隔条两边的页面块的距离越远,该分隔条的权重就越大;2)如果分隔条是通过检测HTML标签获取的,则该分隔条的权重增大;3)如果分隔条两侧的页面块的背景色不相同,则该分隔条的权重增大;4)对于水平分隔条而言,如果分隔条两侧的页面块的字体属性不同,则该分隔条的权重增大;而且如果分隔条上侧的页面块的字体小于分隔条下侧的页面块的字体,则该分隔条的权重更大;5)对于水平分隔条而言,分隔条两侧的页面块的结构越相似,则该分隔条的权重会越小。上述方法中,判断结点是否可以继续分割的规则包括:1)如果当前结点不是文本结点,而且又没有任何有效的孩子结点,则该结点将不被分割,并且从结点集合中删除;2)如果当前结点只有一个有效的孩子结点,同时该孩子结点不是文本结点,则当前结点将被分割;3)如果当前结点是整个子DOM树的根结点,同时只有一个子DOM树与当前的页面块关联,则分割该结点;4)如果当前结点的所有的孩子结点都是文本结点或者是虚拟文本结点,则不分割该结点;如果当前所有孩子结点的字体大小和字体重量都是相同的,则该结点的块的DoC值设置为10,否则设置为9;5)如果当前结点的孩子结点中有一个line-break结点,则该结点将被继续分割;6)如果当前结点的孩子结点中存在<HR>结点,则该结点将被继续分割;7)如果所有孩子结点的尺寸之和大于DOM树结点的尺寸,则分割该结点;8)如果当前结点的背景色与其所有子结点中的某个的背景色不相同,则该结点将被分割,同时具有不同颜色的孩子结点在本次迭代中不分割,在下次迭代中再进行分割,而且孩子结点的DoC值根据标签和尺寸的不同设置为6~8;9)如果当前结点至少具有一个文本或者虚拟文本孩子结点,同时结点的相对大小小于门槛大小,则该结点不再分割,同时根据标签的不同,其DoC值设置为5~8;10)如果当前结点的所有孩子结点中最大的尺寸小于门槛大小,则该结点将不再分割,同时其DoC值根据HTML标签和结点大小设置;11)如果前一个兄弟结点没有被分割,则该结点也不会被继续分割;12)基于当前节点标签和大小设置DoC值,来决定结点是否分割。上述方法中,先计算目标网页和基准网页各对应语义块对之间的距离,再根据语义块对的权重,加权得到目标网页和基准网页之间的距离。一种基于视觉相似性镜像网站发现系统,包括存储器和处理器,所述存储器存储计算机程序,所述程序被配置为由所述处理器执行,所述程序包括用于执行上述方法的各步骤的指令。本专利技术基于VIPS算法对网页进行页面分块,通过DOM树以及视觉的特征将网页分成不同的语义块,提取语义块之间的分隔条,再将网页内容进行重构;本文档来自技高网
...
一种基于视觉相似性镜像网站发现方法及系统

【技术保护点】
1.一种基于视觉相似性镜像网站发现方法,其步骤包括:对网页页面进行初步分块,将得到的块作为DOM树的结点;对可分割的结点继续分割,将分出的新块作为该结点的孩子结点;对于不可分割的结点,将该结点的块作为页面块存入页面块池中,如此循环迭代分块,直至得到全部的页面块;检测出页面中的分隔条,确定分割条的权重;从最小权重的分割条开始,将分割条两侧的页面块合并,组成新的页面块,如此迭代合并页面块,直至遇到权重最高的分隔条为止,得到由多个页面块合并的语义块;将得到的语义块转换成相同大小规格的图像,提取图像的签名特征;根据上述步骤提取目标网页和基准网页的各语义块的签名特征,基于签名特征通过EMD距离算法计算目标网页和基准网页之间的距离,如果该距离小于一设定阈值,则判定该目标网页的网站属于镜像网站。

【技术特征摘要】
1.一种基于视觉相似性镜像网站发现方法,其步骤包括:对网页页面进行初步分块,将得到的块作为DOM树的结点;对可分割的结点继续分割,将分出的新块作为该结点的孩子结点;对于不可分割的结点,将该结点的块作为页面块存入页面块池中,如此循环迭代分块,直至得到全部的页面块;检测出页面中的分隔条,确定分割条的权重;从最小权重的分割条开始,将分割条两侧的页面块合并,组成新的页面块,如此迭代合并页面块,直至遇到权重最高的分隔条为止,得到由多个页面块合并的语义块;将得到的语义块转换成相同大小规格的图像,提取图像的签名特征;根据上述步骤提取目标网页和基准网页的各语义块的签名特征,基于签名特征通过EMD距离算法计算目标网页和基准网页之间的距离,如果该距离小于一设定阈值,则判定该目标网页的网站属于镜像网站。2.根据权利要求1所述的方法,其特征在于,基于VIPS算法对网页页面进行初步分块。3.根据权利要求1所述的方法,其特征在于,检测分割条的方法为:先将整个网页的页面设置为一个分隔条;再根据分隔条与页面块池中的每个页面块的包含、重合、跨越这三种关系调整分隔条,得到多个分隔条;最后移除页面边缘的四个分隔条。4.根据权利要求1所述的方法,其特征在于,如果得到的语义块的DoC值小于一设定阈值,则继续合并页面块,直至得到的语义块的DoC值不小于该设定阈值。5.根据权利要求1所述的方法,其特征在于,采用htmltojpg方法将语义块转换成图像。6.根据权利要求1所述的方法,其特征在于,对于每个语义块转换成的图像,采用一个四元组<A,R,G,B>来表示其颜色特征,先计算四元组<A,R,G,B>到原点的欧氏距离,再计算图像中心到原点的欧氏距离,再将该两个距离根据权重相加,得到图像的签名特征。7.根据权利要求1所述的方法,其特征在于,确定分隔条权重的规则包括:1)分隔条两边的页面块的距离越远,该分隔条的权重就越大;2)如果分隔条是通过检测HTML标签获取的,则该分隔条的权重增大;3)如果分隔条两侧的页面块的背景色不相同,则该分隔条的权重增大;4)对于水平分隔条而言,如果分隔条两侧的页面块的字体属性不同,则该分隔条的权重增大;而且如果分隔条上...

【专利技术属性】
技术研发人员:李睿杜翠兰李鹏霄张鹏陈志鹏杨兴东
申请(专利权)人:中国科学院信息工程研究所国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1