抓取网页的系统、网页抓取节点分配方法、抓取网页的方法技术方案

技术编号:14452082 阅读:97 留言:0更新日期:2017-01-18 13:56
本申请公开了一种抓取网页的系统。本申请还公开了一种网页抓取节点分配方法及装置,以及抓取网页的方法及装置。本申请还涉及两种电子设备。所述抓取网页的系统包括至少一个主控节点,至少一个网页抓取节点和通讯网络,所述主控节点、网页抓取节点之间通过通讯网络连接,主控节点接收对网页抓取节点的获取请求,从所管理维护的可用网页抓取节点列表内,以设定的规则为不同的获取网页抓取节点的请求选择分配网页抓取节点,向获取网页抓取节点的请求方输出所选择分配的网页抓取节点的信息;网页抓取节点接收抓取网页的请求,执行网页抓取操作,输出抓取到的网页。所述系统、方法、装置或电子设备能够起到高效、及时地大量抓取网页的效果。

【技术实现步骤摘要】

本申请涉及一种抓取网页的系统。本申请还涉及一种网页抓取节点分配方法及装置,以及抓取网页的方法及装置。本申请还涉及两种电子设备。
技术介绍
随着国际互联网的迅速发展,国际互联网成为大量信息的载体。为利用国际互联网上的资源,有些情况下需要同时大量地访问下载国际互联网上的网页,访问下载网页也被称为抓取网页。现有的大规模抓取网页资源的系统是网络爬虫系统,作为一个自动大规模抓取网页的系统,它从一个或若干初始网页的统一资源定位符开始,获得初始网页上的统一资源定位符,并将其放入待抓取网页的队列里,然后逐一抓取网页的队列里的网页。在抓取网页的过程中,不断从当前网页上获取新的统一资源定位符加入到待抓取网页的队列,直到满足系统的一定停止条件。另外,所有被网络爬虫系统抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。现有的抓取网页的网络爬虫系统的基本结构如图1所示。可以看出,现有的自动大规模抓取网页的方法关注的是对于网络资源的可持续性抓取,网络爬虫系统抓取网页的方法抓取的网页内容需要经过分析处理然后通过特定的接口才能被用户访问到,这就使得获得的网页内容不能实时的被用户获取。而对于需要实时地抓取指定的网页的情况,由于现有的网络爬虫系统需要对抓取的网页进行分析,过滤,索引等处理,有可能会导致抓取网页内容耗时过长甚至返回网页内容失败的情况发生。而通常执行实时获取网页的单独的计算机由于性能的限制如处理器的处理能力,接口承受能力或存储的容量的限制,导致无法承受大规模并发网页抓取的操作。综上所述,目前还缺少一种成熟的大规模并发抓取网页的系统及方法。专利技术内容本申请提供一种抓取网页的系统,以解决现有自动大规模抓取网页的方法耗时长甚至返回网页内容失败的问题。此外,本申请还提供一种网页抓取节点分配方法及装置。本申请还提供一种抓取网页的方法及装置。本申请还提供两种相关的电子设备。本申请提供一种抓取网页的系统,包括至少一个主控节点,至少一个网页抓取节点和通讯网络,所述主控节点、网页抓取节点之间通过通讯网络连接,其特征在于,主控节点接收对网页抓取节点的获取请求,从所管理维护的可用网页抓取节点列表内,以设定的规则为不同的获取网页抓取节点的请求选择分配网页抓取节点,向获取网页抓取节点的请求方输出所选择分配的网页抓取节点的信息;网页抓取节点接收抓取网页的请求,执行网页抓取操作,输出抓取到的网页。可选地,还包括缓存设备,用于接收并存储所述网页抓取节点抓取的网页源代码,供各个网页抓取节点访问;所述缓存设备还存储各个抓取节点所在的网络地址访问不同网络主机的最近一次的时间信息。可选地,所述缓存设备中存储的网页源代码对应其统一资源定位符存储。可选地,所述缓存设备中存储的网页源代码在超过设定的时长阈值之后被删除。可选地,所述网页抓取节点按照设定的时间间隔将自己的身份识别信息发送给所述主控节点,所述主控节点收到该网页抓取节点所发送的身份识别信息后,根据其中包含的网页抓取节点的身份识别信息,判断该网页抓取节点是否已经存在于可用网页抓取节点列表内,若否,则将该网页抓取节点记录到可用网页抓取节点列表内。可选地,所述主控节点按照设定的时间间隔向可用网页抓取节点列表内的所有网页抓取节点发送检测信息,并接收来自这些网页抓取节点的应答,对于没有应答的网页抓取节点,则从其所管理维护的所述可用网页抓取节点列表内删除该网页抓取节点的记录。可选地,所述身份识别信息包括网页抓取节点所在的网络地址和进程端口号。本申请提供一种网页抓取节点分配方法,由包括至少一个主控节点和至少一个网页抓取节点的抓取网页的系统中的主控节点执行下述步骤;接收获取网页抓取节点的请求;根据设定的规则,在所管理维护的可用网页抓取节点列表中,为不同的请求选择分配相应的网页抓取节点;向提出请求方返回选择分配的网页抓取节点的地址信息。可选地,所述主控节点接收网页抓取节点按照设定的时间间隔发送的所述网页抓取节点自身的身份识别信息,该主控节点根据所述身份识别信息,判断该网页抓取节点是否已经存在于所述主控节点所管理维护的可用网页抓取节点列表中,若否,则将该网页抓取节点记录到可用网页抓取节点列表中。可选地,所述主控节点按照设定的时间间隔向可用网页抓取节点列表内的所有网页抓取节点发送检测信息,并接收来自这些网页抓取节点的应答,对于没有应答的网页抓取节点,则从其所管理维护的所述可用网页抓取节点列表内删除该网页抓取节点的记录。本申请提供一种抓取网页的方法,应用于抓取网页的系统中,所述抓取网页的系统包括至少一个网页抓取节点,所述方法包括:所述网页抓取节点接收抓取指定网页的命令;根据所述抓取指定网页的命令中包含的统一资源定位符,抓取指定网页的源代码;将所获得的源代码返回抓取指定网页的命令的请求方。可选地,所述抓取网页的系统还包括缓存设备,所述根据所述抓取指定网页的命令中包含的统一资源定位符,抓取指定网页的源代码的步骤,包括:根据所述统一资源定位符访问缓存设备,判断缓存设备中是否存储了所述统一资源定位符所标识的网页的源代码;若是,则读取所述缓存设备中存储的所述源代码,作为所抓取的指定网页的源代码;若否,则根据所述统一资源定位符,通过网络访问所述网页,获取该网页的源代码。可选地,在执行所述根据所述统一资源定位符,通过网络访问所述网页,获取该网页的源代码的步骤之后,执行下述步骤:提取所述统一资源定位符中的主机标识、当前网页抓取节点所在的网络地址、以及访问该网页源代码的时间,并将其形成一个抓取特征记录记录在所述缓存设备中;所述缓存设备通过存储所述抓取特征记录实现存储各个抓取节点所在的网络地址访问不同网络主机的最近一次的访问时间。可选地,在执行所述根据所述统一资源定位符,通过网络访问所述网页,获取该网页的源代码的步骤之前,执行下述步骤:使用所述缓存设备中的抓取特征记录,查询本抓取网页节点所在的网络地址对所请求的统一资源定位符中主机的最近一次的访问时间;判断所述最近一次的访问时间距离当前时间的差值是否大于设定的访问间隔阈值;若是,则执行所述根据所述统一资源定位符,通过网络访问所述网页,获取该网页的源代码的步骤;若否,则等待设定时间后,返回所述判断所述最近一次的访问时间距离当前时间的差值是否大于设定的访问间隔阈值的步骤。可选地,所述抓取特征记录包括可查询关键词和被查询值;所述可查询关键词由所述统一资源定位符中的主机标识、当前网页抓取节点所在的网络地址组成;所述被查询值为访问所述主机的时间;所述使用所述缓存设备中的抓取特征记录,查询当前抓取网页节点对所请求的统一资源定位符所在主机的最近一次的访问时间,就是采用当前抓取网页节点所在的网络地址,以及所请求访问的统一资源定位符中的主机标识组成查询关键词,并以该查询关键词为依据,在所述抓取特征记录中查询所述被查询值。可选地,所述主机标识包括主机的互联网协议地址或域名。可选地,所述抓取网页的系统还包括主控节点,所述网页抓取节点按照设定的时间间隔将自己的身份识别信息发送给所述主控节点。可选地,所述抓取网页的系统还包括主控节点,所述网页抓取节点接收主控节点发送的检测信息,并根据检测信息应答。本申请提供的一种网页抓取节点分配装置,包括:接收单元,本文档来自技高网...

【技术保护点】
一种抓取网页的系统,包括至少一个主控节点,至少一个网页抓取节点和通讯网络,所述主控节点、网页抓取节点之间通过通讯网络连接,其特征在于,主控节点接收对网页抓取节点的获取请求,从所管理维护的可用网页抓取节点列表内,以设定的规则为不同的获取网页抓取节点的请求选择分配网页抓取节点,向获取网页抓取节点的请求方输出所选择分配的网页抓取节点的信息;网页抓取节点接收抓取网页的请求,执行网页抓取操作,输出抓取到的网页。

【技术特征摘要】
1.一种抓取网页的系统,包括至少一个主控节点,至少一个网页抓取节点和通讯网络,所述主控节点、网页抓取节点之间通过通讯网络连接,其特征在于,主控节点接收对网页抓取节点的获取请求,从所管理维护的可用网页抓取节点列表内,以设定的规则为不同的获取网页抓取节点的请求选择分配网页抓取节点,向获取网页抓取节点的请求方输出所选择分配的网页抓取节点的信息;网页抓取节点接收抓取网页的请求,执行网页抓取操作,输出抓取到的网页。2.根据权利要求1所述的抓取网页的系统,其特征在于,还包括缓存设备,用于接收并存储所述网页抓取节点抓取的网页源代码,供各个网页抓取节点访问;所述缓存设备还存储各个抓取节点所在的网络地址访问不同网络主机的最近一次的时间信息。3.根据权利要求2中所述的抓取网页的系统,其特征在于,所述缓存设备中存储的网页源代码对应其统一资源定位符存储。4.根据权利要求3所述的抓取网页的系统,其特征在于,所述缓存设备中存储的网页源代码在超过设定的时长阈值之后被删除。5.根据权利要求1所述的抓取网页的系统,其特征在于,所述网页抓取节点按照设定的时间间隔将自己的身份识别信息发送给所述主控节点,所述主控节点收到该网页抓取节点所发送的身份识别信息后,根据其中包含的网页抓取节点的身份识别信息,判断该网页抓取节点是否已经存在于可用网页抓取节点列表内,若否,则将该网页抓取节点记录到可用网页抓取节点列表内。6.根据权利要求5所述的抓取网页的系统,其特征在于,所述主控节点按照设定的时间间隔向可用网页抓取节点列表内的所有网页抓取节点发送检测信息,并接收来自这些网页抓取节点的应答,对于没有应答的网页抓取节点,则从其所管理维护的所述可用网页抓取节点列表内删除该网页抓取节点的记录。7.根据权利要求5所述的抓取网页的系统,其特征在于,所述身份识别信息包括网页抓取节点所在的网络地址和进程端口号。8.一种网页抓取节点分配方法,其特征在于,由包括至少一个主控节点和至少一个网页抓取节点的抓取网页的系统中的主控节点执行下述步骤;接收获取网页抓取节点的请求;根据设定的规则,在所管理维护的可用网页抓取节点列表中,为不同的请求选择分配相应的网页抓取节点;向提出请求方返回选择分配的网页抓取节点的地址信息。9.根据权利要求8所述的网页抓取节点分配方法,其特征在于,所述主控节点接收网页抓取节点按照设定的时间间隔发送的所述网页抓取节点自身的身份识别信息,该主控节点根据所述身份识别信息,判断该网页抓取节点是否已经存在于所述主控节点所管理维护的可用网页抓取节点列表中,若否,则将该网页抓取节点记录到可用网页抓取节点列表中。10.根据权利要求8所述的网页抓取节点分配方法,其特征在于,所述主控节点按照设定的时间间隔向可用网页抓取节点列表内的所有网页抓取节点发送检测信息,并接收来自这些网页抓取节点的应答,对于没有应答的网页抓取节点,则从其所管理维护的所述可用网页抓取节点列表内删除该网页抓取节点的记录。11.一种抓取网页的方法,其特征在于,应用于抓取网页的系统中,所述抓取网页的系统包括至少一个网页抓取节点,所述方法包括:所述网页抓取节点接收抓取指定网页的命令;根据所述抓取指定网页的命令中包含的统一资源定位符,抓取指定网页的源代码;将所获得的源代码返回抓取指定网页的命令的请求方。12.根据权利要求11所述的抓取网页的方法,其特征在于,所述抓取网页的系统还包括缓存设备,所述根据所述抓取指定网页的命令中包含的统一资源定位符,抓取指定网页的源代码的步骤,包括:根据所述统一资源定位符访问缓存设备,判断缓存设备中是否存储了所述统一资源定位符所标识的网页的源代码;若是,则读取所述缓存设备中存储的所述源代码,作为所抓取的指定网页的源代码;若否,则根据所述统一资源定位符,通过网络访问所述网页,获取该网页的源代码。13.根据权利要求12所述的抓取网页的方法,其特征在于,在执行所述根据所述统一资源定位符,通过网络访问所述网页,获取该网页的源代码的步骤
\t之后,执行下述步骤:提取所述统一资源定位符中的主机标识、当前网页抓取节点所在的网络地址、以及访问该网页源代码的时间,并将其形成一个抓取特征记录记录在所述缓存设备中;所述缓存设备通过存储所述抓取特征记录实现存储各个抓取节点所在的网络地址访问不同网络主机的最近一次的访问时间。14.根...

【专利技术属性】
技术研发人员:苗欣韩陆
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1