网页去重方法及装置制造方法及图纸

技术编号:14932234 阅读:65 留言:0更新日期:2017-03-31 14:06
本申请提出一种网页去重方法及装置。其中,该方法包括:获取预定类型的网页;以及针对每个网页,提取出当前网页的特征码和当前网页正文包含的字数,并查询预设的数据表中是否包含特征码,若包含特征码,则读取数据表中与特征码对应的网页正文的字数,并当读取到的和提取出的字数差在预设范围内时,丢弃当前网页。本申请实施例的网页去重方法及装置,基于网页的特征码和网页正文包含的字数对网页进行去重,可大大提高网页去重的准确度,减少网页去重的误判率。

【技术实现步骤摘要】

本申请涉及互联网
,尤其涉及一种网页去重方法及装置
技术介绍
随着互联网技术的发展,互联网成为人们获取各种信息的重要来源,但是在互联网上,有很多信息是重复信息。目前几十亿上百亿网页中有大量信息重复的网页,这些重复网页的存在,对于信息处理非常麻烦,因此,对网页进行去重处理是十分必要的。目前,可通过在网页中选取特征码,对比特征码的方式对网页进行去重处理。现有的通过网页的特征码对网页去重的过程为:首先,在网页1中选取某个句号作为定位点,并在定位点两边选取一定数量的汉字作为特征码。然后,在网页2中采用相同的方式获取特征码,并对上述两个网页的特征码进行比较,若上述两个网页中的特征码相同,则判断出网页2为重复网页,并删除重复的网页2;若特征码不相同,则判断两个网页不相同,即网页2不是网页1的重复网页。现有的仅基于特征码进行网页去重的方式存在的问题是,容易造成对特征码相同而网页实际内容不同的网页的误判,例如,网页1为几十个字的诗句,用户转载网页1后,根据自己的理解对该诗句进行几百字以上的解释,并且解释文字中没有句号,若仅基于特征码进行网页去重,这两个网页会被判断为相同的网页,而这两个网页应为不同的网页。因此,上述网页去重的方式的网页去重准确率不高。另外,上述方式所提取的特征码不准确。例如,若用户在转载网页的题注或编辑中添加句号,当以现有的方式提取网页的特征码,并进行网页去重时,原网页和转载网页的特征码不同,原网页和转载网页被判断为不同的网页。但实际上,原网页和转载网页所包含的网页正文内容可能相同。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种网页去重方法,该方法可大大提高网页去重的准确度,减少网页去重的误判率。本申请的第二个目的在于提出一种网页去重装置。为达上述目的,本申请第一方面实施例提出了一种网页去重方法,包括:获取预定类型的网页;以及针对每个网页,提取出当前网页的特征码和当前网页正文包含的字数,并查询预设的数据表中是否包含所述特征码,若包含所述特征码,则读取所述数据表中与所述特征码对应的网页正文的字数,并当读取到的字数和提取出的字数间的字数差在预设范围内时,丢弃所述当前网页。本申请实施例的网页去重方法,通过获取预定类型的网页,并针对每个网页,提取出当前网页的特征码和当前网页正文包含的字数,并查询预设的数据表中是否包含特征码,若包含特征码,则读取数据表中与特征码对应的网页正文的字数,并当读取到的和提取出的字数差在预设范围内时,丢弃当前网页,该实施例基于网页的特征码和网页正文包含的字数对网页进行去重,相对于现有的仅基于特征码对网页去重的方式,可大大提高网页去重的准确度,减少网页去重的误判率。为达上述目的,本申请第二方面实施例提出了一种网页去重装置,包括:获取模块,用于获取预定类型的网页;以及第一处理模块,用于针对每个网页,提取出当前网页的特征码和当前网页正文包含的字数,并查询预设的数据表中是否包含所述特征码,若包含所述特征码,则读取所述数据表中与所述特征码对应的网页正文的字数,并当读取到的字数和提取出的字数间的字数差在预设范围内时,丢弃所述当前网页。本申请实施例的网页去重装置,通过获取模块获取预定类型的网页,第一处理模块针对每个网页,提取出当前网页的特征码和当前网页正文包含的字数,并查询预设的数据表中是否包含特征码,若包含特征码,则读取数据表中与特征码对应的网页正文的字数,并当读取到的和提取出的字数差在预设范围内时,丢弃当前网页,该实施例基于网页的特征码和网页正文包含的字数对网页进行去重,相对于现有的仅基于特征码对网页去重的方式,可大大提高网页去重的准确度,减少网页去重的误判率。附图说明图1是本申请一个实施例的网页去重方法的流程图。图2是本申请一个实施例的网页的示意图一。图3是本申请一个实施例的网页的示意图二。图4是本申请一个实施例的网页去重装置的结构示意图。图5是本申请另一个实施例的网页去重装置的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的网页去重方法及装置。图1是本申请一个实施例的网页去重方法的流程图,如图1所示,该网页去重方法包括:S101,获取预定类型的网页。具体地,用户在搜索引擎中以某个关键词进行搜索后,可获得多个与该关键词相关的网页,并从中选择出预定类型的网页,例如包含正文的网页。S102,针对每个网页,提取出当前网页的特征码和当前网页正文包含的字数,并查询预设的数据表中是否包含特征码,若包含特征码,则读取数据表中与特征码对应的网页正文的字数,并当读取到的字数和提取出的字数间的字数差在预设范围内时,丢弃当前网页。具体地,在获得预定类型例如包含正文的网页后,对于每个网页,可以获取当前网页正文包含的段落,并针对当前网页正文中的每个段落,在当前段落的预设位置选取第一预设数量的字符,以及将选取的所有段落的字符拼接成字符串,并对字符串进行运算,以生成特征码。优选地,针对每个段落,可以以当前段落的中间位置为中心,并从中心的左侧和右侧选取第二预设数量的字符,其中,第二预设数量为第一预设数量的二分之一,且第二预设数量可以为3-8个,为了提高网页去重的能力,减少特征码所占的存储空间,优选地,第二预设数量可以为5个,相应地,第一预设数量可以为10个。例如,某个网页中仅有一个段落,并且该段落中包含1000个汉字字符,则在该段落的中间位置处,向左和向右各取5个汉字字符,共取10个汉字字符。如果按照信息论中多元文法(N-Gram)的定义,这10汉字字符相当于一个10阶的文字(10-Gram),按照6753个汉字计算,这10个汉字字符重复的概率大约为1/(6763)10,也就是说,该网页的特征码重复的概率大约为1/(6763)10。由此可以看出,从每个段落中的中间位置各取10个字符的方式,可以有效地保证网页特征码各不相同,可提高网页特征码的计算准确率。需要说明的是,若网页中的某个段落中的字符数量小于第一预设数量,可通过特定的字符进行补充。另外,在获得当前网页的每个段落中的第一预定数量例如10个字符后,可按照段落顺序将所获得的字符拼接为一个字符串,为了可以高效本文档来自技高网
...

【技术保护点】
一种网页去重方法,其特征在于,包括:获取预定类型的网页;以及针对每个网页,提取出当前网页的特征码和当前网页正文包含的字数,并查询预设的数据表中是否包含所述特征码,若包含所述特征码,则读取所述数据表中与所述特征码对应的网页正文的字数,并当读取到的字数和提取出的字数间的字数差在预设范围内时,丢弃所述当前网页。

【技术特征摘要】
1.一种网页去重方法,其特征在于,包括:
获取预定类型的网页;以及
针对每个网页,提取出当前网页的特征码和当前网页正文包含的字数,并查询预设的
数据表中是否包含所述特征码,若包含所述特征码,则读取所述数据表中与所述特征码对
应的网页正文的字数,并当读取到的字数和提取出的字数间的字数差在预设范围内时,丢
弃所述当前网页。
2.根据权利要求1所述的方法,其特征在于,在所述查询预设的数据表中是否包含所
述特征码之后,还包括:
若所述数据表中未包含所述特征码,则将提取出的所述当前网页的特征码和字数对应
写入所述数据表中。
3.根据权利要求1所述的方法,其特征在于,还包括:
当读取到的字数和提取的字数间的字数差未在预设范围内时,将提取出的所述当前网
页的特征码和所述字数对应写入所述数据表中。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述提取当前网页的特征码,
包括:
获取当前网页正文包含的段落;
针对每个段落,在当前段落的预设位置选取第一预设数量的字符;以及
将选取的所有段落的字符拼接成字符串,并对所述字符串进行运算,以生成所述特征
码。
5.根据权利要求4所述的方法,其特征在于,所述在当前段落的预设位置选取第一预
设数量的字符,包括:
以所述当前段落的中间位置为中心,从所述中心的左侧和右侧选取第二预设数量的字
符,其中,所述第二预设数量为所述第一预设数量的二分之一,且所述第二预设数量为3-8
个。
6.根据权利要求5所述的方法,其特征在于,所述第二预设数量优选为5个。
7.一种网页去重装置,...

【专利技术属性】
技术研发人员:唐小棚
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1