【技术实现步骤摘要】
本专利技术涉及互联网系统中的搜索引擎
,尤其是涉及一种。
技术介绍
搜索引擎技术是近些年来非常热门的网络搜索技术,以其为核心基础的网页搜索、新闻搜索、音乐搜索、图片搜索和地图搜索等技术都分别具有较大的实用价值和商业价值。其中爬虫子系统(Crawler,指搜索引擎系统中负责抓取互联网原始数据资源的子系统)是搜索引擎系统中一个非常重要的组成部分,它的作用是为搜索引擎系统提供最原始的互联网数据来源,如提供网页、mp3、图片、电子邮件、文档或软件资源等等,来极大的扩展搜索引擎技术在各种场合下的应用。其中设计良好、结构合理的crawler是实现搜索性能优越的搜索引擎技术的前提条件和基础。 其中crawler通过如下的基本工作过程来实现在搜索引擎系统中抓取互联网原始数据资源crawler初始运行时,会首先抓取搜索引擎系统预先指定的种子统一资源定位符(URL,Uniform Resource Locator);然后通过对抓取到的URL所对应的网页内容进行分析,来提取其中的链接URL,并进而抓取这些链接URL,如此循环往复下去,直到抓取到搜索引擎系统预先所定义的规模数 ...
【技术保护点】
一种网页标识抓取方法,其特征在于,设置第一存储结构,用于存储规定数目的最新抓取的网页标识哈希值;和第二存储结构,用于存储所有已抓取的网页标识哈希值,所述第二存储结构包括初始子存储结构和分别对应初始子存储结构中每个节点的冲突避免子存储结构;针对每个欲抓取的网页标识执行步骤:A、根据网页标识的哈希值计算第一存储结构的对应节点索引值;B、判断网页标识的哈希值与根据本次计算的节点索引值在第一存储结构中索引到的节点中存储的内容是否相同,如果是,放弃抓取网页标识;否则 使用网页标识的哈希值更新本次索引到的节点中存储的内容,并C、根据网页标识的哈希值 ...
【技术特征摘要】
及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求1.一种网页标识抓取方法,其特征在于,设置第一存储结构,用于存储规定数目的最新抓取的网页标识哈希值;和第二存储结构,用于存储所有已抓取的网页标识哈希值,所述第二存储结构包括初始子存储结构和分别对应初始子存储结构中每个节点的冲突避免子存储结构;针对每个欲抓取的网页标识执行步骤A、根据网页标识的哈希值计算第一存储结构的对应节点索引值;B、判断网页标识的哈希值与根据本次计算的节点索引值在第一存储结构中索引到的节点中存储的内容是否相同,如果是,放弃抓取网页标识;否则使用网页标识的哈希值更新本次索引到的节点中存储的内容,并C、根据网页标识的哈希值计算初始子存储结构的对应节点索引值;D、判断根据本次计算的节点索引值在初始子存储结构中索引到的节点中存储的内容是否为零,如果是,将网页标识的哈希值存储到本次索引到的节点中;否则判断网页标识的哈希值与本次索引到的节点中存储的内容是否相同,如果是,放弃抓取网页标识;否则E、判断网页标识的哈希值与本次索引到的节点所对应的冲突避免子存储结构中存储的内容是否存在相同情况,如果是,放弃抓取网页标识;否则将网页标识的哈希值存储到本次索引到的节点所对应的冲突避免子存储结构的对应节点中。2.如权利要求1所述的方法,其特征在于,所述存储结构为表存储结构。3.如权利要求1所述的方法,其特征在于,所述存储结构为树型存储结构。4.如权利要求2所述的方法,其特征在于,所述步骤A具体包括步骤A1、基于网页标识的哈希值对第一表存储结构包含的表项总数取余;并A2、将取余得到的余数值作为在第一表存储结构中的对应节点索引值。5.如...
【专利技术属性】
技术研发人员:杨卫,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。