网页去重方法及装置制造方法及图纸

技术编号：14932234 阅读：65 留言：0更新日期：2017-03-31 14:06

本申请提出一种网页去重方法及装置。其中，该方法包括：获取预定类型的网页；以及针对每个网页，提取出当前网页的特征码和当前网页正文包含的字数，并查询预设的数据表中是否包含特征码，若包含特征码，则读取数据表中与特征码对应的网页正文的字数，并当读取到的和提取出的字数差在预设范围内时，丢弃当前网页。本申请实施例的网页去重方法及装置，基于网页的特征码和网页正文包含的字数对网页进行去重，可大大提高网页去重的准确度，减少网页去重的误判率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及互联网
，尤其涉及一种网页去重方法及装置。
技术介绍
随着互联网技术的发展，互联网成为人们获取各种信息的重要来源，但是在互联网上，有很多信息是重复信息。目前几十亿上百亿网页中有大量信息重复的网页，这些重复网页的存在，对于信息处理非常麻烦，因此，对网页进行去重处理是十分必要的。目前，可通过在网页中选取特征码，对比特征码的方式对网页进行去重处理。现有的通过网页的特征码对网页去重的过程为：首先，在网页1中选取某个句号作为定位点，并在定位点两边选取一定数量的汉字作为特征码。然后，在网页2中采用相同的方式获取特征码，并对上述两个网页的特征码进行比较，若上述两个网页中的特征码相同，则判断出网页2为重复网页，并删除重复的网页2；若特征码不相同，则判断两个网页不相同，即网页2不是网页1的重复网页。现有的仅基于特征码进行网页去重的方式存在的问题是，容易造成对特征码相同而网页实际内容不同的网页的误判，例如，网页1为几十个字的诗句，用户转载网页1后，根据自己的理解对该诗句进行几百字以上的解释，并且解释文字中没有句号，若仅基于特征码进行网页去重，这两个网页会被判断为相同的网页，而这两个网页应为不同的网页。因此，上述网页去重的方式的网页去重准确率不高。另外，上述方式所提取的特征码不准确。例如，若用户在转载网页的题注或编辑中添加句号，当以现有的方式提取网页的特征码，并进行网页去重时，原网页和转载网页的特征码不同，原网页和转载...

【技术保护点】
一种网页去重方法，其特征在于，包括：获取预定类型的网页；以及针对每个网页，提取出当前网页的特征码和当前网页正文包含的字数，并查询预设的数据表中是否包含所述特征码，若包含所述特征码，则读取所述数据表中与所述特征码对应的网页正文的字数，并当读取到的字数和提取出的字数间的字数差在预设范围内时，丢弃所述当前网页。

【技术特征摘要】
1.一种网页去重方法，其特征在于，包括：
获取预定类型的网页；以及
针对每个网页，提取出当前网页的特征码和当前网页正文包含的字数，并查询预设的
数据表中是否包含所述特征码，若包含所述特征码，则读取所述数据表中与所述特征码对
应的网页正文的字数，并当读取到的字数和提取出的字数间的字数差在预设范围内时，丢
弃所述当前网页。
2.根据权利要求1所述的方法，其特征在于，在所述查询预设的数据表中是否包含所
述特征码之后，还包括：
若所述数据表中未包含所述特征码，则将提取出的所述当前网页的特征码和字数对应
写入所述数据表中。
3.根据权利要求1所述的方法，其特征在于，还包括：
当读取到的字数和提取的字数间的字数差未在预设范围内时，将提取出的所述当前网
页的特征码和所述字数对应写入所述数据表中。
4.根据权利要求1-3任一项所述的方法，其特征在于，所述提取当前网页的特征码，
包括：
获取当前网页正文包含的段落；
针对每个段落，在当前段落的预设位置选取第一预设数量的字符；以及
将选取的所有段落的字符拼接成字符串，并对所述字符串进行运算，以生成所述特征
码。
5.根据权利要求4所述的方法，其特征在于，所述在当前段落的预设位置选取第一预
设数量的字符，包括：
以所述当前段落的中间位置为中心，从所述中心的左侧和右侧选取第二预设数量的字
符，其中，所述第二预设数量为所述第一预设数量的二分之一，且所述第二预设数量为3-8
个。
6.根据权利要求5所述的方法，其特征在于，所述第二预设数量优选为5个。
7.一种网页去重装置，...

【专利技术属性】
技术研发人员：唐小棚，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人