一种通过可视化配置进行云端数据采集的方法、装置及系统制造方法及图纸

技术编号:19934389 阅读:37 留言:0更新日期:2018-12-29 04:37
本发明专利技术公开了一种通过可视化配置进行云端数据采集的方法、装置及系统,方法应用于服务器端和云端,服务器端包括任务生成器、采集内容选择器和任务调度器;云端包括若干爬虫节点,各爬虫节点通过在任务调度器上注册与服务器端通信,在使用时,由于需要抓取的网站只需要配置入口网址,不需要编写任何代码,所有需要的代码都可以通过页面可视化配置生成,并且所需的配置和相关数据都是远程获取的,无需对爬虫节点进行复杂的配置,再加上任务调度器与爬虫节点无需双向匹配,使得整个爬虫系统横向扩展爬虫节点数量的能力很强,且很方便,解决了传统爬虫针对每个网站都需要单独编写程序进行数据爬取,且效率较慢的问题。

【技术实现步骤摘要】
一种通过可视化配置进行云端数据采集的方法、装置及系统
本专利技术涉及计算机应用
,具体地说是一种实用性强、通过可视化配置进行云端数据采集的方法、装置及系统。
技术介绍
随着互联网的迅速发展,网页成了大量公开信息的载体。公司或个人可以通过网络爬虫从页面上获取公开信息。这些数据本身可能不具备很高的价值,但是通过专业的数据分析师加工处理之后,就可能拥有很高的数据价值。但是现阶段,互联网上网站特别多,展示的公开数据的数据量增长十分迅速。传统的单机爬虫不能解决如此大数据量的获取需求。再加上每个网站数据提取格式及展现形式不一致,传统的针对每个网站单独编写代买爬取数据的方式变的不可取,且存在效率较慢的问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种通过可视化配置网站数据提取规则,利用云端的爬虫节点进行并行数据采集的方法、装置及系统,以解决传统爬虫针对每个网站都需要单独编写程序进行数据爬取,且效率较慢的问题。为实现上述专利技术目的,本专利技术提供了的技术方案如下:一方面,本申请提供了一种基于可视化配置进行云端数据采集的方法,应用于服务器端,所述服务器端包括任务生成器、采集内容选择器和任务调度器,该方法包括;在任务生成器中配置需要采集的网址和需要提取的数据形式,生成任务序列号和子采集任务,并将配置的网址传输给采集内容选择器,同时将该子采集任务和任务序列号发给任务调度器进行任务调度;采集内容选择器调用内置的浏览器打开该网址对应的网站,在浏览器上选择需要采集的内容,根据该内容生成相应的规则,并将所述规则保存到任务生成器生成的子采集任务中,所述规则包括信息提取规则、存储规则和新页面发现规则;任务调度器接收该任务生成器的子采集任务,根据负载均衡原则,将该子采集任务和任务序列号推送给云端的爬虫节点执行。第二方面,提供一种基于可视化配置进行云端数据采集的方法,应用于云端,所述云端包括若干爬虫节点,各爬虫节点通过在任务调度器上注册与服务器端通信,该方法包括;各爬虫节点接收子采集任务和任务序列号,从子采集任务中提取需要爬取的url或url列表,然后按接收的先后顺序根据url或url列表打开对应的网站并下载网页的源代码,并根据子任务中保存的信息提取规则提取需要采集的信息,并通过存储规则进行存储,并使用新页面发现规则在下载的源代码中尝试发现新的需要抓取的页面,若未找到,则该子采集任务执行结束,若找到,则将找到的所有新页面的url和该任务序列号返回给任务调度器,等待任务调度器创建新的子采集任务结束后,当前子采集任务执行完成。、第三方面,提供一种基于可视化配置进行云端数据采集的的装置,所述装置为服务器端,所述服务器端包括任务生成器、采集内容选择器和任务调度器;所述任务生成器,用于配置需要采集的网址和需要提取的数据形式,生成任务序列号和子采集任务,并将配置的网址传输给采集内容选择器,同时将所述子采集任务和任务序列号发给任务调度器进行任务调度;所述采集内容选择器,用于调用内置的浏览器打开该网址对应的网站,在浏览器上选择需要采集的内容,根据该内容生成相应的规则,并将所述规则保存到任务生成器生成的子采集任务中,所述规则包括信息提取规则、存储规则和新页面发现规则;所述任务调度器,用于接收该任务生成器的子采集任务,根据负载均衡原则,将该子采集任务和任务序列号推送给云端的爬虫节点执行。第四方面,提供一种基于可视化配置进行云端数据采集的装置,所述装置为云端,所述云端包括若干爬虫节点,各爬虫节点通过在任务调度器上注册与服务器端通信,各爬虫节点接收子采集任务和任务序列号,从子采集任务中提取需要爬取的url或url列表,然后按接收的先后顺序根据url或url列表打开对应的网站并下载网页的源代码,并根据子任务中保存的信息提取规则提取需要采集的信息,并通过存储规则进行存储,并使用新页面发现规则在下载的源代码中尝试发现新的需要抓取的页面,若未找到,则该子采集任务执行结束,若找到,则将找到的所有新页面的url和该任务序列号返回给任务调度器,等待任务调度器创建新的子采集任务结束后,当前子采集任务执行完成;当任务序列号下的所有子采集任务执行完成时,该任务执行才完成。第五方面,提供一种基于可视化配置进行云端数据采集的系统,包括云端和服务器端;所述服务器端包括任务生成器、采集内容选择器和任务调度器;所述任务生成器,用于配置需要采集的网址和需要提取的数据形式,生成任务序列号和子采集任务,并将配置的网址传输给采集内容选择器,同时将所述子采集任务和任务序列号发给任务调度器进行任务调度;所述采集内容选择器,用于调用内置的浏览器打开该网址对应的网站,在浏览器上选择需要采集的内容,根据该内容生成相应的规则,并将所述规则保存到任务生成器生成的子采集任务中,所述规则包括信息提取规则、存储规则和新页面发现规则;所述任务调度器,用于接收该任务生成器的子采集任务,根据负载均衡原则,将该子采集任务和任务序列号推送给云端的爬虫节点执行;所述云端包括若干爬虫节点,各爬虫节点通过在任务调度器上注册与服务器端通信,各爬虫节点接收子采集任务和任务序列号,从子采集任务中提取需要爬取的url或url列表,然后按接收的先后顺序根据url或url列表打开对应的网站并下载网页的源代码,并根据子任务中保存的信息提取规则提取需要采集的信息,并通过存储规则进行存储,并使用新页面发现规则在下载的源代码中尝试发现新的需要抓取的页面,若未找到,则该子采集任务执行结束,若找到,则将找到的所有新页面的url和该任务序列号返回给任务调度器,等待任务调度器创建新的子采集任务结束后,当前子采集任务执行完成;当任务序列号下的所有子采集任务执行完成时,该任务执行才完成。本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:(1)本专利技术实施例提供了一种通过可视化配置进行云端数据采集的方法、装置及系统,所述方法在使用时,由于需要抓取的网站只需要配置入口网址,后续网址规则和在页面筛选需要爬取数据的详细位置,不需要编写任何代码,所有需要的代码都可以通过页面可视化配置生成,并且所需的配置和相关数据都是远程获取的,无需对爬虫节点进行复杂的配置,再加上任务调度器与爬虫节点无需双向匹配,使得整个爬虫系统横向扩展爬虫节点数量的能力很强,且很方便。使用大量爬虫节点进行并行的数据采集形式也提高了数据采集的效率和质量,并且避免了传统爬虫单个爬虫在高频率的页面下载时导致的封锁问题。并且由于所有的页面下载及解析的整体流程都在爬虫端进行,避免了爬虫端下载的页面向本地收集的流量消耗和时间消耗;同时由于数据解析也在爬虫节点进行,也节约了大量数据解析需要的时间。附图说明图1是本专利技术的方法总流程图;图2是本专利技术的服务器端方法流程图;图3是本专利技术的云端爬虫节点运行流程图;图4是本专利技术的系统结构图。具体实施方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好地理解本专利技术。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本专利技术的主要内容时,这些描述在这里将被忽略。实施例1本专利技术为了解决传统爬虫针对每个网站都需要单独编写程序进行数据爬取,且效率较慢的问题。如图1、图2所示,本专利技术为了解决上述问题,提供一种基于可视本文档来自技高网...

【技术保护点】
1.一种基于可视化配置进行云端数据采集的方法,其特征在于,应用于服务器端,所述服务器端包括任务生成器、采集内容选择器和任务调度器,该方法包括;在任务生成器中配置需要采集的网址和需要提取的数据形式,生成任务序列号和子采集任务,并将配置的网址传输给采集内容选择器,同时将该子采集任务和任务序列号发送给任务调度器进行任务调度;采集内容选择器调用内置的浏览器打开该网址对应的网站,在浏览器上选择需要采集的内容,根据该内容生成相应的规则,并将所述规则保存到任务生成器生成的子采集任务中,所述规则包括信息提取规则、存储规则和新页面发现规则;任务调度器接收该任务生成器的子采集任务,根据负载均衡原则,将该子采集任务和任务序列号推送给云端的爬虫节点执行。

【技术特征摘要】
1.一种基于可视化配置进行云端数据采集的方法,其特征在于,应用于服务器端,所述服务器端包括任务生成器、采集内容选择器和任务调度器,该方法包括;在任务生成器中配置需要采集的网址和需要提取的数据形式,生成任务序列号和子采集任务,并将配置的网址传输给采集内容选择器,同时将该子采集任务和任务序列号发送给任务调度器进行任务调度;采集内容选择器调用内置的浏览器打开该网址对应的网站,在浏览器上选择需要采集的内容,根据该内容生成相应的规则,并将所述规则保存到任务生成器生成的子采集任务中,所述规则包括信息提取规则、存储规则和新页面发现规则;任务调度器接收该任务生成器的子采集任务,根据负载均衡原则,将该子采集任务和任务序列号推送给云端的爬虫节点执行。2.根据权利要求1所述的基于可视化配置进行云端数据采集的方法,其特征在于,该方法进一步包括:任务调度器接收云端爬虫节点的子任务创建申请,将云端爬虫节点发现的新网址作为一个子采集任务,再使用任务生成器在对应的任务序列号下创建完成,并发送给云端爬虫节点执行。3.根据权利要求1所述的基于可视化配置进行云端数据采集的方法,其特征在于,所述任务序列号记录所有的子采集任务和数据提取形式,所述子采集任务记录需要采集的网址、页面信息提取规则、数据存储规则和新页面发现规则。4.一种基于可视化配置进行云端数据采集的方法,其特征在于,应用于云端,所述云端包括若干爬虫节点,各爬虫节点通过在任务调度器上注册与服务器端通信,该方法包括;各爬虫节点接收子采集任务和任务序列号,从子采集任务中提取需要爬取的url或url列表,然后按接收的先后顺序根据url或url列表打开对应的网站并下载网页的源代码,并根据子任务中保存的信息提取规则提取需要采集的信息,并通过存储规则进行存储,并使用新页面发现规则在下载的源代码中尝试发现新的需要抓取的页面,若未找到,则该子采集任务执行结束,若找到,则将找到的所有新页面的url和该任务序列号返回给任务调度器,等待任务调度器创建新的子采集任务结束后,当前子采集任务执行完成;当任务序列号下的所有子采集任务执行完成时,该任务执行才完成。5.一种基于可视化配置进行云端数据采集的装置,其特征在于,所述装置为服务器端,所述服务器端包括任务生成器、采集内容选择器和任务调度器;所述任务生成器,用于配置需要采集的网址和需要提取的数据形式,生成任务序列号和子采集任务,并将配置的网址传输给采集内容选择器,同时将所述子采集任务和任务序列号发给任务调度器进行任务调度;所述采集内容选择器,用于调用内置的浏览器打开该网址对应的网站,在浏览器上选择需要采集的内容,根据该内容生成相应的规则,并将所述规则保存到任务生成器生成的子采集任务中,所述规则包括信息提取规则、存储规则和新页面发现规则;所述任务调度器,用于接收该任务生成器的子采集任务,根据负载均衡原则,将该子采集任务和任务序列号推送给云...

【专利技术属性】
技术研发人员:余刚
申请(专利权)人:成都市映潮科技股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1