【技术实现步骤摘要】
重复网页识别方法和装置
本专利技术实施例涉及网络数据通信
,尤其涉及一种重复网页识别方法和装置。
技术介绍
在互联网为广大民众普遍使用的今天,新的网站、网页层出不穷。在众多的网页中,有相当一部分是重复网页。重复网页是指实质内容相同的网页,例如,显示内容完全相同的网页;正文内容相同,但标题不同的网页;正文内容相同,但辅助内容不同的网页等。有研究显示,重复网页占据当今互联网上网页总数的70%。有数量如此之大的重复性的数据,对于任何一个搜索引擎来说,都不得不说是相当大的处理障碍。现有的重复网页识别方案都是对互联网上的网页独立的进行重复网页识别,并没有利用网页之间的相互关系进行识别。因此,造成了重复网页的识别效率低下。
技术实现思路
有鉴于此,本专利技术实施例提出一种重复网页识别方法和装置,以提高重复网页的识别效率。第一方面,本专利技术实施例提供了一种重复网页识别方法,所述方法包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所 ...
【技术保护点】
一种重复网页识别方法,其特征在于,包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合。
【技术特征摘要】
1.一种重复网页识别方法,其特征在于,包括:从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合;依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合;从与所述至少一组原始重复网页有链接关系的网页中识别候选重复网页,并将所述候选重复网页存储至重复网页集合包括:将所述至少一组原始重复网页作为当前网页,根据当前网页上的锚文本识别无效链接,并将所述无效链接从当前网页上去除;获取当前网页中XPATH相同、锚文本相同或相近的重复链接;将所述重复链接指向的网页作为候选重复网页存储至重复网页集合;将所述候选重复网页作为当前网页,返回执行所述去除无效链接的操作,直至获取到的新的候选重复网页的数量小于或等于设定稳定值。2.根据权利要求1所述的方法,其特征在于,在依据互联网网页的链接关系,从与所述至少一组原始重复网页有链接关系的网页中迭代的识别候选重复网页,并将所述候选重复网页存储至重复网页集合之后,还包括:对所述重复网页集合中的重复网页是否重复进行验证。3.根据权利要求1或2所述的方法,其特征在于,从互联网网页中识别至少一组原始重复网页,并将所述至少一组原始重复网页存储至重复网页集合包括:根据互联网网页链接关系库获取设定网页资源的至少两个反向链接网页的锚文本以及链接地址;将反向链接网页中相同反向链接数量超过预定相同反向链接数量阈值,并且锚文本相似度超过锚文本相似度阈值的反向链接网页作为重复网页组;计算所述重复网页组中网页的网页相似度,并将相似度满足设定阈值的网页作为一组原始重复网页。4.根据权利要求3所述的方法,其特征在于,所述锚文本相似度是锚文本代码中相同代码占全部锚文本代码的比率。5.根据权利要求2所述的方法,其特征在于,对所述重复网页集合中的重复网页是否重复进行验证包括:抓取所述重复网页集合中重复网页的代码;根据所述重复网页的代码计算重复网页的网页相似度;确认网页相似度高于相似度阈值的重复网页作为实际重复网页。6.根据权利要求5所述的方法,其特征在于,所述网页相似度是网页代码中相同代码占全部网页代码的比率。7.一种重复网页识别装置,其特征在于,包括...
【专利技术属性】
技术研发人员:李羽,颜俊伟,李浩,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。