【技术实现步骤摘要】
一种通过可视化配置进行云端数据采集的方法、装置及系统
本专利技术涉及计算机应用
,具体地说是一种实用性强、通过可视化配置进行云端数据采集的方法、装置及系统。
技术介绍
随着互联网的迅速发展,网页成了大量公开信息的载体。公司或个人可以通过网络爬虫从页面上获取公开信息。这些数据本身可能不具备很高的价值,但是通过专业的数据分析师加工处理之后,就可能拥有很高的数据价值。但是现阶段,互联网上网站特别多,展示的公开数据的数据量增长十分迅速。传统的单机爬虫不能解决如此大数据量的获取需求。再加上每个网站数据提取格式及展现形式不一致,传统的针对每个网站单独编写代买爬取数据的方式变的不可取,且存在效率较慢的问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种通过可视化配置网站数据提取规则,利用云端的爬虫节点进行并行数据采集的方法、装置及系统,以解决传统爬虫针对每个网站都需要单独编写程序进行数据爬取,且效率较慢的问题。为实现上述专利技术目的,本专利技术提供了的技术方案如下:一方面,本申请提供了一种基于可视化配置进行云端数据采集的方法,应用于服务器端,所述服务器端包括任务生成器、采集内容选择器和任务调度器,该方法包括;在任务生成器中配置需要采集的网址和需要提取的数据形式,生成任务序列号和子采集任务,并将配置的网址传输给采集内容选择器,同时将该子采集任务和任务序列号发给任务调度器进行任务调度;采集内容选择器调用内置的浏览器打开该网址对应的网站,在浏览器上选择需要采集的内容,根据该内容生成相应的规则,并将所述规则保存到任务生成器生成的子采集任务中,所述规则包括信息 ...
【技术保护点】
1.一种基于可视化配置进行云端数据采集的方法,其特征在于,应用于服务器端,所述服务器端包括任务生成器、采集内容选择器和任务调度器,该方法包括;在任务生成器中配置需要采集的网址和需要提取的数据形式,生成任务序列号和子采集任务,并将配置的网址传输给采集内容选择器,同时将该子采集任务和任务序列号发送给任务调度器进行任务调度;采集内容选择器调用内置的浏览器打开该网址对应的网站,在浏览器上选择需要采集的内容,根据该内容生成相应的规则,并将所述规则保存到任务生成器生成的子采集任务中,所述规则包括信息提取规则、存储规则和新页面发现规则;任务调度器接收该任务生成器的子采集任务,根据负载均衡原则,将该子采集任务和任务序列号推送给云端的爬虫节点执行。
【技术特征摘要】
1.一种基于可视化配置进行云端数据采集的方法,其特征在于,应用于服务器端,所述服务器端包括任务生成器、采集内容选择器和任务调度器,该方法包括;在任务生成器中配置需要采集的网址和需要提取的数据形式,生成任务序列号和子采集任务,并将配置的网址传输给采集内容选择器,同时将该子采集任务和任务序列号发送给任务调度器进行任务调度;采集内容选择器调用内置的浏览器打开该网址对应的网站,在浏览器上选择需要采集的内容,根据该内容生成相应的规则,并将所述规则保存到任务生成器生成的子采集任务中,所述规则包括信息提取规则、存储规则和新页面发现规则;任务调度器接收该任务生成器的子采集任务,根据负载均衡原则,将该子采集任务和任务序列号推送给云端的爬虫节点执行。2.根据权利要求1所述的基于可视化配置进行云端数据采集的方法,其特征在于,该方法进一步包括:任务调度器接收云端爬虫节点的子任务创建申请,将云端爬虫节点发现的新网址作为一个子采集任务,再使用任务生成器在对应的任务序列号下创建完成,并发送给云端爬虫节点执行。3.根据权利要求1所述的基于可视化配置进行云端数据采集的方法,其特征在于,所述任务序列号记录所有的子采集任务和数据提取形式,所述子采集任务记录需要采集的网址、页面信息提取规则、数据存储规则和新页面发现规则。4.一种基于可视化配置进行云端数据采集的方法,其特征在于,应用于云端,所述云端包括若干爬虫节点,各爬虫节点通过在任务调度器上注册与服务器端通信,该方法包括;各爬虫节点接收子采集任务和任务序列号,从子采集任务中提取需要爬取的url或url列表,然后按接收的先后顺序根据url或url列表打开对应的网站并下载网页的源代码,并根据子任务中保存的信息提取规则提取需要采集的信息,并通过存储规则进行存储,并使用新页面发现规则在下载的源代码中尝试发现新的需要抓取的页面,若未找到,则该子采集任务执行结束,若找到,则将找到的所有新页面的url和该任务序列号返回给任务调度器,等待任务调度器创建新的子采集任务结束后,当前子采集任务执行完成;当任务序列号下的所有子采集任务执行完成时,该任务执行才完成。5.一种基于可视化配置进行云端数据采集的装置,其特征在于,所述装置为服务器端,所述服务器端包括任务生成器、采集内容选择器和任务调度器;所述任务生成器,用于配置需要采集的网址和需要提取的数据形式,生成任务序列号和子采集任务,并将配置的网址传输给采集内容选择器,同时将所述子采集任务和任务序列号发给任务调度器进行任务调度;所述采集内容选择器,用于调用内置的浏览器打开该网址对应的网站,在浏览器上选择需要采集的内容,根据该内容生成相应的规则,并将所述规则保存到任务生成器生成的子采集任务中,所述规则包括信息提取规则、存储规则和新页面发现规则;所述任务调度器,用于接收该任务生成器的子采集任务,根据负载均衡原则,将该子采集任务和任务序列号推送给云...
【专利技术属性】
技术研发人员:余刚,
申请(专利权)人:成都市映潮科技股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。