信息抓取方法、装置、中央控制节点设备及分布式系统制造方法及图纸

技术编号:15690877 阅读:123 留言:0更新日期:2017-06-24 03:37
本发明专利技术实施例提供的一种信息抓取方法、装置、中央控制节点设备及分布式系统,中央控制节点设备可以获得客户端子节点设备上传的当前抓取的网页的网页标识并存储,在客户端子节点设备的工作状态为未正常抓取状态时,将当前抓取的网页的网页标识返回给客户端子节点设备,以使客户端子节点设备根据网页标识继续对当前抓取的网页进行抓取。由于爬虫所在的客户端子节点设备当前抓取的网页的网页标识被保存到了中央控制节点设备中,因此当爬虫所在的客户端子节点设备本地的爬取历史消失时,本发明专利技术仍能控制爬虫所在的客户端子节点设备继续对当前抓取的网页进行抓取。本发明专利技术不会导致网页的重复抓取,提高了爬虫的网页抓取效率,节省了大量的页面浏览量。

Information grabbing method, device, central control node device and distributed system

A method of information extraction, the embodiment of the invention provides a device and a central control node device and distributed system, the central control node capture device can obtain the customer terminal node devices to upload web page ID and stored in the client terminal node equipment working state is not normal grasping state, will return to the web page identify the current crawl to the customer terminal node equipment to the customer terminal equipment according to the node on the current web page to the web crawlers to crawl. Because the client terminal node equipment crawler to crawl the web page the current logo is saved to a central control node device, so when the customer terminal node crawler crawling device of the local history disappear, the invention can still control the customer terminal node equipment is located to the crawler on the current web crawlers to crawl. The invention does not lead to repeated crawling of web pages, thereby improving crawler crawling efficiency and saving a large amount of page browsing.

【技术实现步骤摘要】
信息抓取方法、装置、中央控制节点设备及分布式系统
本专利技术涉及信息抓取
,特别是涉及信息抓取方法、装置、中央控制节点设备及分布式系统。
技术介绍
以爬虫为首的信息抓取技术可以从互联网中抓取大量的有用信息,为各种决策、分析提供数据支持。爬虫在抓取信息过程中会将爬取的网页信息记录到本地的爬取历史中,当爬虫由于某些不可控因素而消亡时,爬虫首先重新启动,然后读取本地的爬取历史,将待抓取列表中的已抓取过的网页过滤掉,从而抓取新的网页的信息。但是,当本地的爬取历史消失时,爬虫将无法读取消失的爬取历史中的数据,这就导致爬虫需要重新对待抓取列表中的所有网页进行抓取。由于待抓取列表中的很多网页爬虫已经抓取过,因此必然导致网页的重复抓取,降低了爬虫的网页抓取效率,浪费了大量的页面浏览量。
技术实现思路
本专利技术实施例的目的在于提供一种信息抓取方法、装置、中央控制节点设备及分布式系统,以提高了爬虫的网页抓取效率,节省了大量的页面浏览量。为达到上述目的,本专利技术实施例公开了一种信息抓取方法,应用于分布式系统中的中央控制节点设备中,所述分布式系统包括所述中央控制节点设备和进行网页抓取的客户端子节点设备本文档来自技高网...
信息抓取方法、装置、中央控制节点设备及分布式系统

【技术保护点】
一种信息抓取方法,其特征在于,应用于分布式系统中的中央控制节点设备中,所述分布式系统包括所述中央控制节点设备和进行网页抓取的客户端子节点设备,所述中央控制节点设备与所述客户端子节点设备通信连接,所述方法包括:获得所述客户端子节点设备上传的当前抓取的网页的网页标识,将获得的网页标识进行存储;获得所述客户端子节点设备的工作状态;在所述工作状态为未正常抓取状态时,将所述当前抓取的网页的网页标识返回给所述客户端子节点设备,以使所述客户端子节点设备根据所述网页标识继续对所述当前抓取的网页进行抓取。

【技术特征摘要】
1.一种信息抓取方法,其特征在于,应用于分布式系统中的中央控制节点设备中,所述分布式系统包括所述中央控制节点设备和进行网页抓取的客户端子节点设备,所述中央控制节点设备与所述客户端子节点设备通信连接,所述方法包括:获得所述客户端子节点设备上传的当前抓取的网页的网页标识,将获得的网页标识进行存储;获得所述客户端子节点设备的工作状态;在所述工作状态为未正常抓取状态时,将所述当前抓取的网页的网页标识返回给所述客户端子节点设备,以使所述客户端子节点设备根据所述网页标识继续对所述当前抓取的网页进行抓取。2.根据权利要求1所述的方法,其特征在于,所述客户端子节点设备中保存有待抓取网页列表,所述待抓取网页列表中保存有所述客户端子节点设备的待抓取网页的网页标识,所述获得所述客户端子节点设备上传的当前抓取的网页的网页标识,将获得的网页标识进行存储,包括:获得所述客户端子节点设备在按照预设的抓取顺序对待抓取网页列表中的网页进行抓取时上传的当前抓取的网页的网页标识,将获得的网页标识进行存储;所述在所述工作状态为未正常抓取状态时,将所述当前抓取的网页的网页标识返回给所述客户端子节点设备,以使所述客户端子节点设备根据所述网页标识继续对所述当前抓取的网页进行抓取,包括:在所述工作状态为未正常抓取状态时,将所述当前抓取的网页的网页标识返回给所述客户端子节点设备,以使所述客户端子节点设备根据所述网页标识继续按照预设的抓取顺序从所述当前抓取的网页开始对待抓取网页列表中的网页对进行抓取。3.根据权利要求2所述的方法,其特征在于,还包括:对所述客户端子节点设备中保存的待抓取网页列表进行备份,在所述客户端子节点设备中保存的待抓取网页列表消失时,将与所述客户端子节点设备的标识对应的待抓取网页列表发送到所述客户端子节点设备中。4.根据权利要求2所述的方法,其特征在于,还包括:获得所述客户端子节点设备当前抓取的网页中的统一资源定位符URL,将获得的URL作为待抓取网页的网页标识放入所述待抓取网页列表中。5.根据权利要求1至4中任一项所述的方法...

【专利技术属性】
技术研发人员:林少维
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1