【技术实现步骤摘要】
一种从收藏网页中消除重复网页的方法及系统
本专利技术涉及互联网信息
,特别是涉及一种从收藏网页中消除重复网页的方法及系统。
技术介绍
随着Internet的发展及其广泛应用,网络上的信息呈爆炸式增长,互联网已经成为了人们获取信息的重要来源。为了帮助人们快速找到所需要的信息,搜索引擎技术就应运而生了。搜索引擎方便了人们查找自己所需要的信息,节省了处理时间,已经成为了人们使用频繁的网上服务。但是据互联网信息中心统计报告显示,重复结果太多是用户在使用搜索引擎时遇到的主要问题。据统计,Internet上大约有30%左右的重复网页,大部分是由于转载造成的。网页重复问题对搜索引擎带来了一定的影响,重复网页不仅浪费了存储空间,也增加了搜索引擎的处理时间。同时搜索引擎的检索结果包含了很多内容重复的网页,降低了检索质量,所以网页消重已经成为搜索引擎中一项必不可少的工作。当前,高质量的网页消重都是将网页正文文本作为消重对象的,是基于内容的文本复制检测。两个网页之间存在重复,表现为网页正文文本间内容完全相同或部分相同。网页消重的核心任务是判断网页正文文本之间的相似度,所谓相似度是 ...
【技术保护点】
1.一种从收藏网页中消除重复网页的方法,其特征在于,包括如下步骤:获取用于收藏网页的收藏文件夹,并从所述收藏文件夹中获取收藏网页的源代码;根据所述源代码提取所述网页中的至少部分正文内容;将所述至少部分正文内容与在先收藏网页中的对应内容进行相似度计算;在相似度大于或等于一预设相似度时,将该至少部分正文内容对应的网页进行删除操作。
【技术特征摘要】
1.一种从收藏网页中消除重复网页的方法,其特征在于,包括如下步骤:获取用于收藏网页的收藏文件夹,并从所述收藏文件夹中获取收藏网页的源代码;根据所述源代码提取所述网页中的至少部分正文内容;将所述至少部分正文内容与在先收藏网页中的对应内容进行相似度计算;在相似度大于或等于一预设相似度时,将该至少部分正文内容对应的网页进行删除操作。2.根据权利要求1所述的从收藏网页中消除重复网页的方法,其特征在于,根据所述源代码提取所述网页中的至少部分正文内容,包括以下步骤:对所述源代码进行解析,并标定所述源代码的多个预定位置;提取所述源代码中的所述多个预定位置对应的正文内容,每一预定位置对应的正文内容是所述网页中的全部正文内容的一部分。3.根据权利要求2所述的从收藏网页中消除重复网页的方法,其特征在于,所述至少部分正文内容包含全部正文内容中不同段落的至少部分内容。4.根据权利要求2所述的从收藏网页中消除重复网页的方法,其特征在于,对所述源代码进行解析,并标定所述源代码的多个预定位置,包括如下步骤:对所述源代码进行校对,去除噪音参数;将去除所述噪音参数的源代码进行排版;对排版后的源代码进行预定位置的标定。5.根据权利要求4所述的从收藏网页中消除重复网页的方法,其特征在于,所述预定位置选择为排版的中心位置。6.一种从收藏网页中...
【专利技术属性】
技术研发人员:丁玉珍,
申请(专利权)人:佛山市灏金赢科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。