【技术实现步骤摘要】
本专利技术涉及数据搜索
,特别是涉及资源搜索调度方法及装置。
技术介绍
在网络数据搜索技术中,蜘蛛(Spider)系统位于搜索引擎数据流的最上游,负责将互联网上的资源采集到本地,提供给后续检索使用,是搜索引擎的最主要数据来源之一。spider系统的目标就是发现并抓取互联网中一切有价值的网页,为达到这个目标,首先就是发现有价值网页的链接,当前spider系统有一定的调度机制来尽量快而全的发现资源链接。例如:在进行资源链接的调度时,可以设定以下机制:机制一:对挖掘的种子按一定的周期(例如I天调度20次)进行调度,以便能覆盖到所有的时效性的网页。机制二:考虑到有限的流量及大量的索引页,对一般的索引页(不在种子集合范围内)按一定的周期(例如一周重抓一次)进行调度。上述调度机制具有至少下列缺点:对于机制一,种子调度周期间隔较短时,一般不会存在漏链的问题,但是可能会有流量的浪费,即当采点不准时,就是浪费流量;种子调度周期间隔较长时,可能会存在漏链。对于机制二,由于调度周期间隔较长,可能会存在漏链。在调度过程中出现漏链的情况会降低Spider系统的收录覆盖率。【 ...
【技术保护点】
一种资源搜索调度方法,包括:获取待调度索引页的当前主体链接;将获取的所述当前主体链接与所述待调度索引页的历史主体链接进行比较;若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行后续调度操作;若根据比较结果确定不存在链接遗漏,执行后续调度操作。
【技术特征摘要】
【专利技术属性】
技术研发人员:郑燕琴,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。