The invention is applicable to the field of information retrieval technology, and provides a distributed vertical crawler method and terminal equipment, including: the central control platform sends the crawling task to the task distribution platform; the task distribution platform according to the task type of the crawling task, the terminal type of the data crawling platform, the network type of the data crawling platform and the network type of the data crawling platform. At least one of the crawling capabilities of the data grabbing platform determines the distribution strategy of the crawling task, and distributes the crawling task to the data grabbing platform according to the distribution strategy; the data grabbing platform crawls the data according to the crawling task, and sends the crawling results to the data analysis platform; the data analysis platform crawls the data according to the crawling node. As a result, the pre-set data extraction strategy is loaded to determine whether there is a new capture task. If so, the new capture service is distributed to the data capture platform through the task distribution platform. If not, the capture result is sent to the central control platform. This method solves the problem of low efficiency of crawler grasping when the amount of data is huge.
【技术实现步骤摘要】
一种分布式垂直爬虫方法及终端设备
本专利技术属于信息检索
,尤其涉及一种分布式垂直爬虫方法及终端设备。
技术介绍
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,现有的通用性搜索引擎也存在着一定的局限性,如:不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页;通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深;万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取;通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询等为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,极大的节省了硬件和网络资源,保存的页面也由于数量少而更新快,能够很好的满足一些特定人群对特定
信息的需求。就目前互联网的规模来说,单台机器运行的网络爬虫远远不能完成在有效的时间内搜索整个万维网的任务,因此现在采用的网络爬虫都是分布式在多机上并行运行的,称为分布式爬虫,然而,当需要爬取的数据量巨大时,现有的分布式爬 ...
【技术保护点】
1.一种分布式垂直爬虫方法,其特征在于,该方法应用于一种中控平台,中控平台与任务分发平台、数据分析平台和数据抓取平台相连接,该方法包括:获取任务分发平台、数据分析平台和数据抓取平台的性能数据;当所述性能数据的值超过预设值时,发出预警信息。
【技术特征摘要】
1.一种分布式垂直爬虫方法,其特征在于,该方法应用于一种中控平台,中控平台与任务分发平台、数据分析平台和数据抓取平台相连接,该方法包括:获取任务分发平台、数据分析平台和数据抓取平台的性能数据;当所述性能数据的值超过预设值时,发出预警信息。2.根据权利要求1所述的方法,其特征在于,获取任务分发平台、数据分析平台和数据抓取平台的性能数据包括:接收所述任务分发平台、数据分析平台和数据抓取平台的性能数据;或,按照预设时间间隔向所述任务分发平台、数据分析平台和数据抓取平台发送第一指示消息,所述第一指示消息用于指示所述任务分发平台、数据分析平台和数据抓取平台将性能数据发送至所述中控平台;接收所述任务分发平台、数据分析平台和数据抓取平台的性能数据。3.根据权利要求1或2所述的方法,其特征在于,该方法还包括:将抓取任务通过所述任务分发平台分发至所述数据抓取平台,以使得所述数据抓取平台根据所述抓取任务进行数据的抓取。4.一种分布式垂直爬虫方法,其特征在于,该方法应用于一种任务分发平台,所述任务分发平台与中控平台、数据分析平台和n个数据抓取平台相连接,其中n为正整数,n≥2,该方法包括:接收所述中控平台或所述数据分析平台的抓取任务;根据所述抓取任务的任务类型、所述数据抓取平台的终端类型、所述数据抓取平台的网络类型和所述数据抓取平台的爬取能力中的至少一种,确定所述抓取任务的分发策略;根据所述分发策略,将所述抓取任务分发至所述数据抓取平台。5.一种分布式垂直爬虫方法,其特征在于,该方法应用于一种数据分析平台,所述数据分析平台与中控平台、任务分发平台和数据抓取平台相连接,该方法包括:接收所述数据抓取平台发送的抓取结果;根据所述抓取结果,加载预设置的数据萃取策略,判断是否有新的抓取任务,若有,将所述新的抓取业务通过所述任务分发平台分发至所述数据抓取平台,以使得所述数据抓取平台根据所述新的抓取任务进行数据的抓取,若没有,将所述抓取结果发送至所述中控平台。6.根据权利要求5所述的方法,其特征在于,所述预设置的数据萃取策略是根据所述抓取任务的业务领域获得的,所述萃取策略通过插件的形式进行加载。7.一种分布式垂直爬虫方法,其特征在于,该方法应用于一种分布式垂直爬虫系统,该系统包括中控平台、任务分发平台、数据分析平台、数据抓取平台和数据传输平台,其中所述数据传输平台用于所述中控平台、任务分发平台、数据分析平台和数据抓取平台之间的数据传输,该方法包括:所述中控平台将抓取任务发送至所述任务分发平台;所述任务分发平台根据所述抓取任务的任务类型、所述数据抓取平台的终端类型、所述数据抓取平台的网络类型和所述数据抓取平台的爬取能力中的至少一种,确定所述抓取任务的分发策略,并根据所述分发策略,将所述抓取任务分发至所述数据抓取平台;所述数据抓取平台根据所述抓取任务进行数据抓取,并将抓取结果发送至所述数据分析平台;所述数据分析平...
【专利技术属性】
技术研发人员:张中月,姜仕鹏,孙岳,倪安,
申请(专利权)人:深圳市酷达通讯有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。