基于分布式架构的可视化主题网页内容爬取系统及方法技术方案

技术编号:20242454 阅读:72 留言:0更新日期:2019-01-29 23:22
本发明专利技术主要公开了基于分布式架构的可视化主题网页内容爬取系统及方法,其技术方案:包括包括三大子系统,分别为可视化子系统、爬取子系统以及分布式存储索引子系统;网页内容爬取方法通过任务初始化提交,任务生成,任务调度,任务执行,任务状态跟踪五大步骤进行,本发明专利技术能够高效并发支持网页内容请求,爬取各种主题网站,解析页面源代码后把非结构化数据变成结构化数据存放在分布式存储系统上索引,可以有效支撑后续大规模结构化数据的分析和挖掘,同时本发明专利技术在提高数据采集效率情况下能大大降低海量网页采集的软硬件成本。

【技术实现步骤摘要】
基于分布式架构的可视化主题网页内容爬取系统及方法
本专利技术涉及互联网信息爬取
,特别是基于分布式架构的可视化主题网页内容爬取系统及方法。
技术介绍
2000年以后互联网进入爆发式发展,互联网承载了海量信息,为了高效提取和利用信息诞生了以百度,谷歌,雅虎等为代表的通用搜索引擎,搜索引擎为了能达到索引海量信息的目的,诞生了“爬虫”又称“网络蜘蛛(Spider)”。爬虫是一个可以定向抓取相关网页资源的一段程序或者脚本,可以分为通用网络爬虫、聚焦网络爬虫、增量网络爬虫、深度网页爬虫等。不管哪一类爬虫都面临着如下重要问题需要解决:互联网上网页数量超过百亿急需提升爬虫效率和改变底层存储架构,前端页面越来越多动态页面,传统解析方式不再适用。网站反爬取技术研究越来越成熟,传统粗暴的基于http或者https请求返回结果进行解析方式不再通用。
技术实现思路
针对现有技术存在的不足,本专利技术提供一种基于分布式架构的可视化主题网页内容爬取系统及方法,能够高效并发支持网页内容请求,爬取各种主题网站,并且可以把非结构化网页内容数据转化为结构化数据进行存储便于后续分析使用,网页爬取系统高度模块化及自动化。本文档来自技高网...

【技术保护点】
1.基于分布式架构的可视化主题网页内容爬取系统,其特征在于,包括可视化子系统、爬取子系统以及分布式存储索引子系统,每个子系统分若干模块。

【技术特征摘要】
1.基于分布式架构的可视化主题网页内容爬取系统,其特征在于,包括可视化子系统、爬取子系统以及分布式存储索引子系统,每个子系统分若干模块。2.根据权利要求1所述的基于分布式架构的可视化主题网页内容爬取系统,其特征在于:所述可视化子系统包括任务配置模块、前端展示模块以及登入权限控制模块;所述爬取子系统包括代理IP采集管理模块、任务调度模块、页面下载模块、页面抽取模块、数据传输模块以及任务信息统计模块;所述分布式存储索引子系统包括分布式存储模块、索引模块和计算模块。3.一种基于分布式架构的可视化主题网页内容爬取方法,其特征在于,包括以下步骤:1)任务初始化提交;2)任务生成;3)任务调度;4)任务执行;5)任务状态跟踪。4.根据权利要求3所述的方法,其特征在于:所述任务初始化提交包括待爬主题网站域名,预设爬取优先级,爬取方式,爬取算法,解析规则,是否进行索引,通过登入可视化web界面,配置需要爬取的主题网站。5.根据权利要求3所述的方法,其特征在于:所述任务生成包括利用任务过滤器判定待爬取的域名是否已经执行过,判定结果为:未执行,根据待爬取任务初始化详情设置Task对象,把任务提交给分布式任务协调器。6.根据权利要求3所述的方法,其特征在于:所述任务调度包括任务调度中心从分布式任务协调器上取得每一个任务执行器工作负载情况,根据工作负载均衡算法,为当前待爬取任务分配一个负载较低的任务执...

【专利技术属性】
技术研发人员:王科
申请(专利权)人:杭州艾塔科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1