【技术实现步骤摘要】
本专利技术涉及搜索引擎
,尤其涉及。
技术介绍
随着互联网信息的爆炸式增长,传统的网络爬虫采集数据的方式已经逐渐显示出劣势。传统的网络爬虫采集数据时任务没有细粒度的切分,耗时比较长,服务器CPU、内存和网络带宽的限制,数据爬取效率比较低下,而且容易出现单点故障。因此,现有技术还有待于改进和发展。
技术实现思路
鉴于上述现有技术的不足,本专利技术的目的在于提供,旨在解决目前网络爬虫采集数据方法效率低,耗时长的问题。本专利技术的技术方案如下: 一种网络爬虫多任务执行和调度方法,其中,所述方法包括: A、根据不同的内容和网站特点,对待爬取内容进行细粒度切分并根据切分后内容分别制作各爬虫解析模板文件,设置网络爬虫分别结合各爬虫解析模板文件形成用于执行爬取任务的各采集模块; B、多个节点服务器上分别部署所述网络爬虫,每个节点服务器分别设置有用于调度爬取任务的调度器; C、所述调度器按照预先定义的调度策略调用关联的采集模块执行爬取任务进行数据米集。所述的网络爬虫多任务执行和调度方法,其中,所述步骤A中根据不同的内容和网站特点,对待爬取内容进行细粒度 ...
【技术保护点】
一种网络爬虫多任务执行和调度方法,其特征在于,所述方法包括:A、根据不同的内容和网站特点,对待爬取内容进行细粒度切分并根据切分后内容分别制作各爬虫解析模板文件,设置网络爬虫分别结合各爬虫解析模板文件形成用于执行爬取任务的各采集模块;B、多个节点服务器上分别部署所述网络爬虫,每个节点服务器分别设置有用于调度爬取任务的调度器;C、所述调度器按照预先定义的调度策略调用关联的采集模块执行爬取任务进行数据采集。
【技术特征摘要】
1.一种网络爬虫多任务执行和调度方法,其特征在于,所述方法包括: A、根据不同的内容和网站特点,对待爬取内容进行细粒度切分并根据切分后内容分别制作各爬虫解析模板文件,设置网络爬虫分别结合各爬虫解析模板文件形成用于执行爬取任务的各采集模块; B、多个节点服务器上分别部署所述网络爬虫,每个节点服务器分别设置有用于调度爬取任务的调度器; C、所述调度器按照预先定义的调度策略调用关联的采集模块执行爬取任务进行数据米集。2.根据权利要求1所述的网络爬虫多任务执行和调度方法,其特征在于,所述步骤A中根据不同的内容和网站特点,对待爬取内容进行细粒度切分具体为: 当所述待爬取内容包括多个类型相同的网站时,将多个类型相同的网站切分为单个网站; 或者,当单个网站包含多个内容不同的版块时,将单个网站切分为不同的版块; 或者,当单一板块中包含多个页面时,将单一板块切分为多个页面。3.根据权利要求1所述的网络爬虫多任务执行和调度方法,其特征在于,所述切分后的内容之间无关联性,所述各采集模块分别对应关联各爬取任务。4.根据权利要求3所述的网络爬虫多任务执行和调度方法,其特征在于,所述各爬取任务之间无关联性,每一爬取任务通过一独立线程完成。5.根据权利要求1所述的网络爬虫多任务执行和调度方法,其特征在于,所述预先定义的调度策略包括: 指定所述爬取任务在一固定的节点服务器上执行; 按照所述节点服务器节点等比原则在多个节点服务器中随机分配爬取任务; 根据所述多个节点服务器当前的资源信息,优先选择资源利用率低的节点服务器执行爬取任务。6.根据权利要求5所述的网络爬虫多任务执行和调度方法,其特征在于,所述预先定义的调度策略具体设置为: 预先设置并存储一信息列表,所述信息列表中存储有所述节点服务器的IP、端口信息...
【专利技术属性】
技术研发人员:宋轲,刘世才,毛海涛,
申请(专利权)人:TCL集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。