重复网页识别方法和装置制造方法及图纸

技术编号:10458052 阅读:135 留言:0更新日期:2014-09-24 14:19
本发明专利技术实施例公开了一种重复网页识别方法和装置。所述重复网页识别方法包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。本发明专利技术实施例公开的重复网页识别方法和装置利用互联网网页之间的相互链接关系提高了重复网页的识别效率。

【技术实现步骤摘要】
重复网页识别方法和装置
本专利技术实施例涉及网络数据通信
,尤其涉及一种重复网页识别方法和装置。
技术介绍
在互联网为广大民众普遍使用的今天,新的网站、网页层出不穷。在众多的网页中,有相当一部分是重复网页。重复网页是指实质内容相同的网页,例如,显示内容完全相同的网页;正文内容相同,但标题不同的网页;正文内容相同,但辅助内容不同的网页等。有研究显示,重复网页占据当今互联网上网页总数的70%。有数量如此之大的重复性的数据,对于任何一个搜索引擎来说,都不得不说是相当大的处理障碍。现有的重复网页识别方案都是对互联网上的网页独立的进行重复网页识别,并没有利用网页之间的相互关系进行识别。因此,造成了重复网页的识别效率低下。
技术实现思路
有鉴于此,本专利技术实施例提出一种重复网页识别方法和装置,以提高重复网页的识别效率。第一方面,本专利技术实施例提供了一种重复网页识别方法,所述方法包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。第二方面,本专利技术实施例提供了一种重复网页识别装置,所述装置包括:原始重复网页识别模块,用于从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;候选重复网页识别模块,用于依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。本专利技术实施例提供的重复网页识别方法和装置,通过从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合,依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合,从而利用网页之间的相互链接关系搜索重复网页,提高了重复网页的识别效率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1是本专利技术第一实施例提供的重复网页识别方法的流程图;图2是本专利技术第二实施例提供的重复网页识别方法中原始重复网页识别的流程图;图3是本专利技术第三实施例提供的重复网页识别方法中候选重复网页识别的流程图;图4是本专利技术第四实施例提供的重复网页识别方法的流程图;图5是本专利技术第四实施例提供的重复网页识别方法的流程示意图;图6是本专利技术第五实施例提供的重复网页识别方法中重复网页验证的流程图;图7是本专利技术第六实施例提供的重复网页识别装置的结构图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。图1示出了本专利技术的第一实施例。图1是本专利技术第一实施例提供的重复网页识别方法的流程图。所述重复网页识别方法由重复网页识别装置执行,并且,所述重复网页识别装置集成在用于识别重复网页的服务器中。参见图1,所述重复网页识别方法包括:S110,从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合。在互联网大为流行的今天,互联网上有数量规模巨大的网页。在这些不同的网页中,重复网页占据了其中相当的比重。所谓重复网页,就是指网页的内容代码完全相同,或者差异非常小的网页。由于重复网页的存在,搜索引擎在进行网页内容抓取的过程中就需要对重复的网页进行剔除,以便提供给用户唯一的网页信息。通常情况下,在两个重复网页的相同位置的链接所指向的网页也是重复网页。本实施例通过网页之间的这种链接关系,迭代的识别互联网上的重复网页,从而提高重复网页识别的效率。由于是根据网页之间的链接关系迭代的识别重复网页,所以首先需要从互联网网页中识别出至少一组原始重复网页,以作为后续进行迭代的基础。每组原始重复网页包括至少两个代码相同或者差异很小的重复网页。优选的,可以通过相同反向链接数量以及锚文本相似度识别出一组原始重复网页。对于一个网络文档来说,所有指向该文档的链接都是它的反向链接。网页上将文本作为一个超链接,指向其他网页,则这样的链接被称为锚文本链接,而锚文本链接所对应的呈现给用户的文本被称为锚文本。所述锚文本相似度是锚文本代码中相同代码占全部锚文本代码的比率。所述重复网页集合是由不同的重复网页组成的集合。在识别出原始重复网页以后,将识别得出的原始重复网页存储到所述重复网页集合。优选的,可以将所述原始重复网页的统一资源定位符(Uniformresourcelocator,URL)存储至所述重复网页集合,以记录所述原始重复网页。S120,依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。针对每组原始重复网页,从互联网网页中识别到原始重复网页以后,可以从所述原始重复网页的链接所指向的网页中识别出另外一组重复网页。识别出的该组重复网页称为一级重复网页。类似的,可以从所述一级重复网页的链接所指向的网页中识别出二级重复网页。以此类推,可以依据互联网网页的链接关系,从互联网网页中识别出多级候选重复网页,添加到一个重复网页集合中。优选的,可以利用XPATH以及锚文本从已识别的重复网页中识别重复链接,再计算所述重复链接所指向的网页的相似度,最后根据网页的相似度识别互联网网页是否有重复网页。其中,XPATH是可扩展标记语言(Extensiblemarkuplanguage,XML)路径语言,是万维网联盟(Worldwidewebconsortium,W3C)关于查询部分XML文档的通用语言标准。需要说明的是,本实施例提供的重复网页识别方法不仅适用于使用超文本标记语言(Hypertextmarkuplanguage,HTML)写成的静态网页,而且对于使用动态服务器页面(Activeserverpage,ASP)、Java服务器页面(Javaserverpage,JSP)等语言写成的动态网页同样适用。本实施例通过从互联网网页中识别至少一组原始重复网页,将所述至少一组原始重复网页存储至重复网页集合,再依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合,实现了通过互联网网页之间的链接关系迭代的识别候选重复网页,提高了重复网页的识别效率。图2示出了本专利技术的第二实施例。图2是本专利技术第二实施例提供的重复网页识别方法中原始重复网页识别的流程图。参见图2,所述重复网页识别方法以本专利技术第一实施例为基础,进一步的,从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合包括:S111,根据互联网网页链接关系库获取设定网页资源的至少两个反向链接网页的锚文本以及链接地址。所述互联网网页链接关系库是一个预先建立的数据库。该数据库中存储着预先收集的互联网上不同网页之间的链接关系。比如网页A的页面有一个链接指向了网页B,那么,在所述互联网网页链接关系库中就会存储网本文档来自技高网...
重复网页识别方法和装置

【技术保护点】
一种重复网页识别方法,其特征在于,包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。

【技术特征摘要】
1.一种重复网页识别方法,其特征在于,包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合;从与所述至少一组原始重复网页有链接关系的网页中识别候选重复网页,并将所述候选重复网页存储至重复网页集合包括:将所述至少一组原始重复网页作为当前网页,根据当前网页上的锚文本识别无效链接,并将所述无效链接从当前网页上去除;获取当前网页中XPATH相同、锚文本相同或相近的重复链接;将所述重复链接指向的网页作为候选重复网页存储至重复网页集合;将所述候选重复网页作为当前网页,返回执行所述去除无效链接的操作,直至获取到的新的候选重复网页的数量小于或等于设定稳定值。2.根据权利要求1所述的方法,其特征在于,在依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合之后,还包括:对所述重复网页集合中的重复网页是否重复进行验证。3.根据权利要求1或2所述的方法,其特征在于,从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合包括:根据互联网网页链接关系库获取设定网页资源的至少两个反向链接网页的锚文本以及链接地址;将反向链接网页中相同反向链接数量超过预定相同反向链接数量阈值,并且锚文本相似度超过锚文本相似度阈值的反向链接网页作为重复网页组;计算所述重复网页组中网页的网页相似度,并将相似度满足设定阈值的网页作为一组原始重复网页。4.根据权利要求3所述的方法,其特征在于,所述锚文本相似度是锚文本代码中相同代码占全部锚文本代码的比率。5.根据权利要求2所述的方法,其特征在于,对所述重复网页集合中的重复网页是否重复进行验证包括:抓取所述重复网页集合中重复网页的代码;根据所述重复网页的代码计算重复网页的网页相似度;确认网页相似度高于相似度阈值的重复网页作为实际重复网页。6.根据权利要求5所述的方法,其特征在于,所述网页相似度是网页代码中相同代码占全部网页代码的比率。7.一种重复网页识别装置,其特征在于,包括...

【专利技术属性】
技术研发人员:李羽颜俊伟李浩
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1