The invention discloses a method for realizing concurrent acquisition using cloud crawler, including crawler end and several cloud node server, crawler end can regularly check the cloud state, and select the cloud task send; real-time configuration synchronization according to the cloud state; according to the cloud has been downloaded Web pages, choose page through the local charge; the data cache and abnormal fault tolerant processing, ensure the webpage is not lost. The use of the cloud for concurrent collection crawler compared with the existing methods, by sending end batch download tasks, batch crawler for the download page, improve the transmission efficiency, the effect of crawler and cloud interaction bring to a minimum. Through the local and database records to download information, to achieve the download of the contents of the exception handling and transaction control, to ensure that the download task is carried out to reduce the traditional crawler prone to loss of web pages.
【技术实现步骤摘要】
本专利技术涉及计算机应用
,具体地说是一种实用性强、利用云端进行并发采集的爬虫实现方法。
技术介绍
随者互联网的飞速发展,大数据这个概念越来越受到人们的关注。企业可以通过网络爬虫采集互联网中的数据,数据本身具有一定的商业价值,并且可以对海量数据进行深加工找出更有价值的数据分析结果,并通过分析结果提供决策支持,驱动企业的加速发展。数据的价值越来越受到人们的关注。但互联网上的数据,以指数级逐年增长,同时互联网也会针对爬虫做出限制,爬虫节点较少时爬取能力有限,所以大量使用云服务器进行分布式爬取成为流行。基于此,现提供一种基于利用云端进行并发采集的爬虫实现方法,使服务器上的爬虫能够将网页下载任务分发至云节点实现大规模分布式并发采集。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种实用性强、利用云端进行并发采集的爬虫实现方法。本专利技术的一种利用云端进行并发采集的爬虫实现方法,包括爬虫端和若干云节点服务端,其实现过程为:1)爬虫端通过云节点服务端进行采集,爬虫端将采集任务批次发送到云节点服务端,通过校验、请求处理实现云节点服务端任务分发;2)云节点服务端进行状态检测,实时检测云节点服务端的可用状态以及任务队列和下载队列排队情况,并根据云节点服务端情况选择是否发送任务或者是否立刻收取网页;3)爬虫端将本地数据库的配置同步至云节点服务端;4)云节点服务端网页收取,爬虫端向云节点服务端请求已经下载的页面,云节点服务端批量返回已经下载的页面;5)实现下载任务的异常容错处理和事物控制,通过本地缓存和数据实现异常容错处理,保证网页不丢失。所述步骤1)的详细过 ...
【技术保护点】
一种利用云端进行并发采集的爬虫实现方法,其特征在于,包括爬虫端和若干云节点服务端,其实现过程为:1)爬虫端通过云节点服务端进行采集,爬虫端将采集任务批次发送到云节点服务端,通过校验、请求处理实现云节点服务端任务分发;2)云节点服务端进行状态检测,实时检测云节点服务端的可用状态以及任务队列和下载队列排队情况,并根据云节点服务端情况选择是否发送任务或者是否立刻收取网页;3)爬虫端将本地数据库的配置同步至云节点服务端;4)云节点服务端网页收取,爬虫端向云节点服务端请求已经下载的页面,云节点服务端批量返回已经下载的页面;5)爬虫端实现下载任务的异常容错处理和事物控制,通过本地缓存和数据实现异常容错处理,保证网页不丢失。
【技术特征摘要】
1.一种利用云端进行并发采集的爬虫实现方法,其特征在于,包括爬虫端和若干云节点服务端,其实现过程为:1)爬虫端通过云节点服务端进行采集,爬虫端将采集任务批次发送到云节点服务端,通过校验、请求处理实现云节点服务端任务分发;2)云节点服务端进行状态检测,实时检测云节点服务端的可用状态以及任务队列和下载队列排队情况,并根据云节点服务端情况选择是否发送任务或者是否立刻收取网页;3)爬虫端将本地数据库的配置同步至云节点服务端;4)云节点服务端网页收取,爬虫端向云节点服务端请求已经下载的页面,云节点服务端批量返回已经下载的页面;5)爬虫端实现下载任务的异常容错处理和事物控制,通过本地缓存和数据实现异常容错处理,保证网页不丢失。2.根据权利要求1所述的一种利用云端进行并发采集的爬虫实现方法,其特征在于,所述步骤1)的详细过程为:爬虫端从下载任务的生产者中接收下载任务,该生产者是数据库中的待下载数据或者消息队列中的待下载数据;爬虫端定时同步现有任务配置至云节点服务端,云节点服务端根据规则进行间隔下载;爬虫端定时检查所有云节点服务端状态,选择可用同时任务排队数小于排队阈值的云节点服务端;爬虫端将任务均匀的发送至云节点服务端,并且记录发送信息备份到本地缓存以及数据库中。3.根据权利要求2所述的一种利用云端进行并发采集的爬虫实现方法,其特征在于,爬虫端定时检查云节点服务端的状态是指通过tcp或http方式进行数据查看,查看云端的可用状态、已有任务配置数、待下载任务排队数、已下载网页数,并将状态等数值缓存到本地。4.根据权利要求1所...
【专利技术属性】
技术研发人员:王洪添,张裕超,
申请(专利权)人:山东浪潮云服务信息科技有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。