一种分布式垂直爬虫方法及终端设备技术

技术编号:19544240 阅读:34 留言:0更新日期:2018-11-24 20:41
本发明专利技术适用于信息检索技术领域,提供了一种分布式垂直爬虫方法及终端设备,包括:中控平台将抓取任务发送至任务分发平台;任务分发平台根据抓取任务的任务类型、数据抓取平台的终端类型、数据抓取平台的网络类型和数据抓取平台的爬取能力中的至少一种,确定抓取任务的分发策略,并根据分发策略,将抓取任务分发至数据抓取平台;数据抓取平台根据抓取任务进行数据抓取,并将抓取结果发送至数据分析平台;数据分析平台根据抓取结果,加载预设置的数据萃取策略,判断是否有新的抓取任务,若有,将新的抓取业务通过任务分发平台分发至数据抓取平台,若无,将抓取结果发送至中控平台。该方法解决了数据量巨大时爬虫端抓取效率较低的问题。

A Distributed Vertical Crawler Method and Terminal Equipment

The invention is applicable to the field of information retrieval technology, and provides a distributed vertical crawler method and terminal equipment, including: the central control platform sends the crawling task to the task distribution platform; the task distribution platform according to the task type of the crawling task, the terminal type of the data crawling platform, the network type of the data crawling platform and the network type of the data crawling platform. At least one of the crawling capabilities of the data grabbing platform determines the distribution strategy of the crawling task, and distributes the crawling task to the data grabbing platform according to the distribution strategy; the data grabbing platform crawls the data according to the crawling task, and sends the crawling results to the data analysis platform; the data analysis platform crawls the data according to the crawling node. As a result, the pre-set data extraction strategy is loaded to determine whether there is a new capture task. If so, the new capture service is distributed to the data capture platform through the task distribution platform. If not, the capture result is sent to the central control platform. This method solves the problem of low efficiency of crawler grasping when the amount of data is huge.

【技术实现步骤摘要】
一种分布式垂直爬虫方法及终端设备
本专利技术属于信息检索
,尤其涉及一种分布式垂直爬虫方法及终端设备。
技术介绍
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,现有的通用性搜索引擎也存在着一定的局限性,如:不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页;通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深;万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取;通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询等为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,极大的节省了硬件和网络资源,保存的页面也由于数量少而更新快,能够很好的满足一些特定人群对特定
信息的需求。就目前互联网的规模来说,单台机器运行的网络爬虫远远不能完成在有效的时间内搜索整个万维网的任务,因此现在采用的网络爬虫都是分布式在多机上并行运行的,称为分布式爬虫,然而,当需要爬取的数据量巨大时,现有的分布式爬虫架构的爬取效率较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种分布式垂直爬虫方法及终端设备,以解决现有技术中当需要爬取的数据量巨大时分布式爬虫爬取效率较低的问题。本专利技术实施例的第一方面提供了一种分布式垂直爬虫方法,该方法应用于一种中控平台,中控平台与任务分发平台、数据分析平台和数据抓取平台相连接,该方法包括:获取任务分发平台、数据分析平台和数据抓取平台的性能数据;当性能数据的值超过预设值时,发出预警信息。进一步的,获取任务分发平台、数据分析平台和数据抓取平台的性能数据包括:接收任务分发平台、数据分析平台和数据抓取平台的性能数据;或,按照预设时间间隔向任务分发平台、数据分析平台和数据抓取平台发送第一指示消息,第一指示消息用于指示任务分发平台、数据分析平台和数据抓取平台将性能数据发送至中控平台;接收任务分发平台、数据分析平台和数据抓取平台的性能数据。进一步的,该方法还包括:将抓取任务通过任务分发平台分发至数据抓取平台,以使得数据抓取平台根据抓取任务进行数据的抓取。本专利技术实施例的第二方面提供了一种分布式垂直爬虫方法,该方法应用于一种任务分发平台,任务分发平台与中控平台、数据分析平台和n个数据抓取平台相连接,其中n≥2,该方法包括:接收中控平台或数据分析平台的抓取任务;根据抓取任务的任务类型、数据抓取平台的终端类型、数据抓取平台的网络类型和数据抓取平台的爬取能力中的至少一种,确定抓取任务的分发策略;根据分发策略,将抓取任务分发至数据抓取平台。本专利技术实施例的第三方面提供了一种分布式垂直爬虫方法,该方法应用于一种数据分析平台,数据分析平台与中控平台、任务分发平台和数据抓取平台相连接,该方法包括:接收数据抓取平台发送的抓取结果;根据抓取结果,加载预设置的数据萃取策略,判断是否有新的抓取任务,若有,将新的抓取业务通过任务分发平台分发至数据抓取平台,以使得数据抓取平台根据新的抓取任务进行数据的抓取,若没有,将抓取结果发送至中控平台。进一步的,预设置的数据萃取策略是根据抓取任务的业务领域获得的,萃取策略通过插件的形式进行加载。本专利技术实施例的第四方面提供了一种分布式垂直爬虫方法,该方法应用于一种分布式垂直爬虫系统,该系统包括中控平台、任务分发平台、数据分析平台、数据抓取平台和数据传输平台,其中数据传输平台用于中控平台、任务分发平台、数据分析平台和数据抓取平台之间的数据传输,该方法包括:中控平台将抓取任务发送至任务分发平台;任务分发平台根据抓取任务的任务类型、数据抓取平台的终端类型、数据抓取平台的网络类型和数据抓取平台的爬取能力中的至少一种,确定抓取任务的分发策略,并根据分发策略,将抓取任务分发至数据抓取平台;数据抓取平台根据抓取任务进行数据抓取,并将抓取结果发送至数据分析平台;数据分析平台根据抓取结果,加载预设置的数据萃取策略,判断是否有新的抓取任务,若有,将新的抓取业务通过任务分发平台分发至数据抓取平台,以使得数据抓取平台根据新的抓取任务进行数据的抓取,若没有,将抓取结果发送至中控平台。本专利技术实施例的第五方面提供了一种中控平台,所述中控平台与任务分发平台、数据分析平台和数据抓取平台相连接,所述中控平台包括获取单元和预警单元;所述获取单元,用于获取任务分发平台、数据分析平台和数据抓取平台的性能数据;所述预警单元,用于当所述性能数据的值超过预设值时,发出预警信息。本专利技术实施例的第六方面提供了一种任务分发平台,所述任务分发平台与中控平台、数据分析平台和n个数据抓取平台相连接,其中n为正整数,n≥2,所述任务分发平台包括接收单元,确定单元和分发单元;所述接收单元,用于接收所述中控平台或所述数据分析平台的抓取任务;所述确定单元,用于根据所述抓取任务的任务类型、所述数据抓取平台的终端类型、所述数据抓取平台的网络类型和所述数据抓取平台的爬取能力中的至少一种,确定所述抓取任务的分发策略;所述分发单元,用于根据所述分发策略,将所述抓取任务分发至所述数据抓取平台。本专利技术实施例的第七方面提供了一种数据分析平台,数据分析平台与中控平台、任务分发平台和数据抓取平台相连接,所述数据分析平台包括接收单元和判断单元;所述接收单元,用于接收所述数据抓取平台发送的抓取结果;所述判断单元,用于根据所述抓取结果,加载预设置的数据萃取策略,判断是否有新的抓取任务,若有,将所述新的抓取业务通过所述任务分发平台分发至所述数据抓取平台,以使得所述数据抓取平台根据所述新的抓取任务进行数据的抓取,若没有,将所述抓取结果发送至所述中控平台。本专利技术实施例的第八方面提供了一种中控平台,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现本专利技术实施例第一方面中的任一项方法的步骤。本专利技术实施例的第九方面提供了一种任务分发平台,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如本专利技术实施例第二方面的方法的步骤。本专利技术实施例的第十方面提供了一种数据分析平台,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如本专利技术实施例第三方面中任一项方法的步骤。本专利技术实施例的第十一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如本专利技术实施例第一方面中任一项方法的步骤。本专利技术实施例的第十二方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如本专利技术实施例第二方面的方法的步骤。本专利技术实施例的第十三方面提供了一种计本文档来自技高网
...

【技术保护点】
1.一种分布式垂直爬虫方法,其特征在于,该方法应用于一种中控平台,中控平台与任务分发平台、数据分析平台和数据抓取平台相连接,该方法包括:获取任务分发平台、数据分析平台和数据抓取平台的性能数据;当所述性能数据的值超过预设值时,发出预警信息。

【技术特征摘要】
1.一种分布式垂直爬虫方法,其特征在于,该方法应用于一种中控平台,中控平台与任务分发平台、数据分析平台和数据抓取平台相连接,该方法包括:获取任务分发平台、数据分析平台和数据抓取平台的性能数据;当所述性能数据的值超过预设值时,发出预警信息。2.根据权利要求1所述的方法,其特征在于,获取任务分发平台、数据分析平台和数据抓取平台的性能数据包括:接收所述任务分发平台、数据分析平台和数据抓取平台的性能数据;或,按照预设时间间隔向所述任务分发平台、数据分析平台和数据抓取平台发送第一指示消息,所述第一指示消息用于指示所述任务分发平台、数据分析平台和数据抓取平台将性能数据发送至所述中控平台;接收所述任务分发平台、数据分析平台和数据抓取平台的性能数据。3.根据权利要求1或2所述的方法,其特征在于,该方法还包括:将抓取任务通过所述任务分发平台分发至所述数据抓取平台,以使得所述数据抓取平台根据所述抓取任务进行数据的抓取。4.一种分布式垂直爬虫方法,其特征在于,该方法应用于一种任务分发平台,所述任务分发平台与中控平台、数据分析平台和n个数据抓取平台相连接,其中n为正整数,n≥2,该方法包括:接收所述中控平台或所述数据分析平台的抓取任务;根据所述抓取任务的任务类型、所述数据抓取平台的终端类型、所述数据抓取平台的网络类型和所述数据抓取平台的爬取能力中的至少一种,确定所述抓取任务的分发策略;根据所述分发策略,将所述抓取任务分发至所述数据抓取平台。5.一种分布式垂直爬虫方法,其特征在于,该方法应用于一种数据分析平台,所述数据分析平台与中控平台、任务分发平台和数据抓取平台相连接,该方法包括:接收所述数据抓取平台发送的抓取结果;根据所述抓取结果,加载预设置的数据萃取策略,判断是否有新的抓取任务,若有,将所述新的抓取业务通过所述任务分发平台分发至所述数据抓取平台,以使得所述数据抓取平台根据所述新的抓取任务进行数据的抓取,若没有,将所述抓取结果发送至所述中控平台。6.根据权利要求5所述的方法,其特征在于,所述预设置的数据萃取策略是根据所述抓取任务的业务领域获得的,所述萃取策略通过插件的形式进行加载。7.一种分布式垂直爬虫方法,其特征在于,该方法应用于一种分布式垂直爬虫系统,该系统包括中控平台、任务分发平台、数据分析平台、数据抓取平台和数据传输平台,其中所述数据传输平台用于所述中控平台、任务分发平台、数据分析平台和数据抓取平台之间的数据传输,该方法包括:所述中控平台将抓取任务发送至所述任务分发平台;所述任务分发平台根据所述抓取任务的任务类型、所述数据抓取平台的终端类型、所述数据抓取平台的网络类型和所述数据抓取平台的爬取能力中的至少一种,确定所述抓取任务的分发策略,并根据所述分发策略,将所述抓取任务分发至所述数据抓取平台;所述数据抓取平台根据所述抓取任务进行数据抓取,并将抓取结果发送至所述数据分析平台;所述数据分析平...

【专利技术属性】
技术研发人员:张中月姜仕鹏孙岳倪安
申请(专利权)人:深圳市酷达通讯有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1