【技术实现步骤摘要】
本专利技术涉及网络搜索
,尤其涉及一种用于基于内容特征信息对指向相同 资源文件的多个链接进行去重处理的技术。
技术介绍
随着互联网的飞速发展,网络中存在大量重复的资源文件。例如,大多数用户会将 其希望分享的资源文件上传至网络,对于热门的、或者受欢迎度较高的资源文件,会被许多 用户上传至网络,这必然造成相同的资源文件被重复上传。同时,不同的网站也会转载、引 用以及提供下载相同的资源文件,这进一步扩大了网络中重复资源文件的数量。然后,搜索引擎通过“网络蜘蛛(spider)”、“网络爬虫(crawler) ”或者“机器人 (robot),,等网页抓取工具从网络中抓取网页时,对抓取到的网页不做区分,这些网页中可 能包括指向相同的资源文件的网页。如果不对这些指向相同的资源文件的网页去重,搜索 引擎在抓取这些网页后,需要大量的存储空间来存储这些网页,并且还需要分配更多的检 测设备对存储的网页进行后期检测。因此,如何提供一种基于内容特征信息对指向相同资源文件的多个链接进行去重 处理的方法,成为目前急需解决的问题之一。
技术实现思路
本专利技术的目的是提供一种用于基于内容特征 ...
【技术保护点】
一种用于基于内容特征信息对指向相同资源文件的多个链接进行去重处理的方法,其中,该方法包括以下步骤:a获取多个第一链接,其中,所述第一链接指向资源文件;b对所述第一链接所指向的资源文件执行基于摘要算法的处理操作,以获取与所述第一链接相对应的内容特征信息;c根据所述内容特征信息,并结合所述第一链接所属的站点,对所述多个第一链接进行分组,以获取一个或多个第一链接集,其中,所述第一链接集包括多个从属于同一站点且内容特征信息相同的第一链接;d对所述第一链接集进行去重处理。
【技术特征摘要】
【专利技术属性】
技术研发人员:姚远,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。