网络爬虫集群信息的更新方法和装置制造方法及图纸

技术编号:14953915 阅读:76 留言:0更新日期:2017-04-02 10:22
本申请公开了一种网络爬虫集群信息的更新方法和装置。其中,网络爬虫集群中每个网络爬虫配备一个本地检查器,该方法包括:目标本地检查器根据其对应的网络爬虫发送的消息在该目标本地检查器中查询是否存在目标爬取链接,其中,消息中携带有目标爬取链接;在查询出不存在目标爬取链接时,目标本地检查器保存目标爬取链接,并向其他本地检查器发送携带有目标爬取链接的广播,以使其他本地检查器依据广播更新爬取链接。本申请解决了相关技术中网络爬虫的爬取效率比较低的技术问题。

【技术实现步骤摘要】

本申请涉及互联网爬虫领域,具体而言,涉及一种网络爬虫集群信息的更新方法和装置
技术介绍
网络爬虫集群在爬取各种网站时,需要过滤重复的链接,以防止重复页面被反复爬取。在网络爬虫爬取页面的过程中,已经爬取过的链接存储在用来过滤重复网页的检查器中,为了网络爬虫集群中的每个爬虫在任意时刻都拥有尽量相同的检查器,避免重复页面被再次爬取,因此,需要同步更新检查器。现有方案在集群中部署统一的一个检查器,所有网络爬虫都会访问同一个检查器来排除重复页面,但是这种方案使得集群中的所有网络爬虫都要竞争同一个检查器资源,每个网络爬虫爬取页面时,都需要检查器检查爬取的链接是否重复,导致网络爬虫的爬取效率比较低。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种网络爬虫集群信息的更新方法和装置,以至少解决相关技术中网络爬虫的爬取效率比较低的技术问题。根据本申请实施例的一个方面,提供了一种网络爬虫集群信息的更新方法,所述网络爬虫集群中每个网络爬虫配备一个本地检查器,目标本地检查器根据其对应的网络爬虫发送的消息查询在该目标本地检查器中是否存在目标爬取链接,其中,所述消息中携带有所述目标爬取链接;在查询出不存在所述目标爬取链接时,保存所述目标爬取链接,并向其他本地检查器发送携带有所述目标爬取链接的广播,以使所述其他本地检查器依据所述广播更新爬取链接。。根据本申请实施例的另一方面,还提供了一种网络爬虫集群信息的更新装置,所述网络爬虫集群中每个网络爬虫配备一个本地检查器,所述装置包括:查询单元,用于根据目标本地检查器对应的网络爬虫发送的消息查询在所述目标本地检查器中是否存在目标爬取链接,其中,所述消息中携带有所述目标爬取链接;广播单元,用于在查询出不存在所述目标爬取链接时,保存所述目标爬取链接,并向其他本地检查器发送携带有所述目标爬取链接的广播,以使所述其他本地检查器依据所述广播更新爬取链接。在本申请实施例中,采用目标本地检查器根据其对应的网络爬虫发送的消息查询在该目标本地检查器中是否存在目标爬取链接,其中,消息中携带有目标爬取链接;在查询出不存在目标爬取链接时,保存目标爬取链接,并向其他本地检查器发送携带有目标爬取链接的广播,以使其他本地检查器依据广播更新爬取链接的方式,每个网络爬虫通过一个相应的本地检查器过滤重复目标爬取链接,提高了爬取效率。同时,每个本地检查器通过广播接收同步更新已经爬取过的链接的信息,也可以通过广播发送同步更新已经爬取过的链接的信息,使得网络爬虫集群中的本地检查器拥有一致的信息,也就保证了不同爬虫之间也不会重复爬取同一个链接,在多个爬虫同时执行爬取任务时,即能保证比较高的爬取效率,又能保证比较高的准确性,进而解决了相关技术中网络爬虫的爬取效率比较低的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的网络爬虫集群信息的更新方法的流程图;图2是根据本申请实施例的一种可选的网络爬虫集群结构的示意图;图3是根据本申请实施例的网络爬虫集群信息的更新装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本申请实施例,提供了一种网络爬虫集群信息的更新方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本申请实施例的网络爬虫集群信息的更新方法的流程图,该网络爬虫集群中每个网络爬虫都配备一个本地检查器,如图1所示,该方法包括如下步骤:步骤S102,目标本地检查器根据其对应的网络爬虫发送的消息查询在该目标本地检查器中是否存在目标爬取链接,其中,消息中携带有目标爬取链接。步骤S104,在查询出不存在目标爬取链接时,目标本地检查器保存目标爬取链接,并向其他本地检查器发送携带有目标爬取链接的广播,以使其他本地检查器依据广播更新爬取链接。网络爬虫集群中的每个网络爬虫都配备一个本地检查器,目标本地检查器可以是网络爬虫集群中的任意一个网络爬虫所对应的本地检查器。当采用目标本地检查器查询出某个链接没有被爬取过时,相应的网络爬虫可以对该链接进行爬取,目标本地检查器通过广播来发送该链接已经被爬取的消息,收到该广播的其他本地检查器存储该链接,以便于存储有该链接的检查器所对应的网络爬虫在进行爬取时,过滤掉该链接避免重复爬取同一个链接。由于网络爬虫集群中的每个网络爬虫的本地检查器都能收到广播,因此,网络爬虫集群中的网络爬虫的本地检查器能够同步更新本地存储的信息。在该实施例中,广播的方式实现了多个本地检查器同步更新检查器的信息,无论网络爬虫集群利用哪个本地检查器过滤重复链接,都能避免重复链接被准确过滤掉。由于每个网络爬虫对应一个本地检查器,网络爬虫利用其对应的本地检查器进行重复链接的检查即可,无需抢占同一个检查器的资源,提高了过滤重复链接的效率,也就提高了网络爬虫的爬取效率。已经爬取过的链接存储于网络爬虫集群中的每个本地检查器中,也就使得每个爬虫通过各自的本地检查器过滤重复链接都是准确的,即在提高爬取效率的同时也能提高过滤重复链接的准确性,达到了准确、高效进行爬取的效果。可选地,在目标本地检查器根据其对应的网络爬虫发送的消息查询在该目标本地检查器中是否存在目标爬取链接之后,方法还包括:在查询出不存在目标爬取链接时,目标本地检查器向其对应的网络爬虫发送允许爬取的指令,以使网络爬虫爬取目标爬取链接;在查询出存在目标爬取链接时,目标本地检查器向其对应的网络爬虫发送放弃爬取的指令,以使网络爬虫放弃爬取目标爬取链接。由目标本地检查器查询其是否存储有目标爬取链接,能够查到就说明该目标爬取链接已经爬取过,不需要再爬取,则通知相应的网络爬虫不对目标爬取链接进行爬取;不能查到就说明该目标爬取链接没有爬取过,可以进行爬取,则通知相应的网络爬虫对目标爬取链接进行爬取。由于在爬取之前先查询该目标爬取链接是否爬取过,因此避免了相同的目标爬取链接被重复爬取。由于网络爬虫集群中的每个本地检查器的爬取链接信息是同步的,因此,每个本文档来自技高网
...
网络爬虫集群信息的更新方法和装置

【技术保护点】
一种网络爬虫集群信息的更新方法,其特征在于,所述网络爬虫集群中每个网络爬虫配备一个本地检查器,所述方法包括:目标本地检查器根据其对应的网络爬虫发送的消息在该目标本地检查器中查询是否存在目标爬取链接,其中,所述消息中携带有所述目标爬取链接;在查询出不存在所述目标爬取链接时,所述目标本地检查器保存所述目标爬取链接,并向其他本地检查器发送携带有所述目标爬取链接的广播,以使所述其他本地检查器依据所述广播更新爬取链接。

【技术特征摘要】
1.一种网络爬虫集群信息的更新方法,其特征在于,所述网络爬虫集群中每个网络爬虫配备一个本地检查器,所述方法包括:目标本地检查器根据其对应的网络爬虫发送的消息在该目标本地检查器中查询是否存在目标爬取链接,其中,所述消息中携带有所述目标爬取链接;在查询出不存在所述目标爬取链接时,所述目标本地检查器保存所述目标爬取链接,并向其他本地检查器发送携带有所述目标爬取链接的广播,以使所述其他本地检查器依据所述广播更新爬取链接。2.根据权利要求1所述的方法,其特征在于,在所述目标本地检查器根据其对应的网络爬虫发送的消息查询在该目标本地检查器中是否存在目标爬取链接之后,所述方法还包括:在查询出不存在所述目标爬取链接时,所述目标本地检查器向其对应的网络爬虫发送允许爬取的指令,以使所述网络爬虫爬取所述目标爬取链接;在查询出存在所述目标爬取链接时,所述目标本地检查器向其对应的网络爬虫发送放弃爬取的指令,以使所述网络爬虫放弃爬取所述目标爬取链接。3.根据权利要求1所述的方法,其特征在于,所述网络爬虫集群还包括广播模块,所述目标本地检查器向其他本地检查器发送携带有所述目标爬取链接的广播包括:所述目标本地检查器向所述广播模块发送携带有所述目标爬取链接的爬取信息,以使所述广播模块根据所述爬取信息生成所述广播,并将所述广播发送给订阅广播的其他本地检查器。4.根据权利要求1所述的方法,其特征在于,所述目标本地检查器向其他本地检查器发送携带有所述目标爬取链接的广播,以使所述其他本地检查器依据所述广播更新爬取链接包括:所述本地检查器向其他本地检查器发送携带有所述目标爬取链接的广播,以使所述其他本地检查器...

【专利技术属性】
技术研发人员:崔志伸
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1