一种基于分布式的一站式采集方法及采集系统技术方案

技术编号:26762968 阅读:27 留言:0更新日期:2020-12-18 23:18
本公开提出了一种基于分布式的一站式采集方法及系统,包括:分布式采集集群构建:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;全网采集:集群服务器接收所需采集的网站,进行全网数据采集,并对网站中的列表页数据进行过滤;解析:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;采集任务配置:配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。用户可根据采集需求自定义分配采集资源,采集任务结束后自动释放采集资源,有效的提高了采集效率。

【技术实现步骤摘要】
一种基于分布式的一站式采集方法及采集系统
本公开属于数据采集
,尤其涉及一种基于基于分布式的一站式采集方法及采集系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。现在越来越多的企业和政府都意识到了数据的重要性,而互联网数据可以政府和企业提供底层数据信息。为了满足政府和企业对海量数据的需求,就需要专业的分布式互联网数据采集技术实现大规模的数据采集。网页数据类型多样,展现形式也各有不同。传统的数据采集技术可以实现对单一网站编写特定的采集脚本、配置专属该网页的页面解析规则,这导致采集成本很高,很难实现大规模的数据采集。而且实现使用门槛较高,普通用户很难上手使用。在对采集任务监控中,对于不同的采集需求不能灵活设置采集周期采集、采集频率,不能对不同的采集任务进行实时监控。现在市面上也有一些数据采集工具,用户可通过软件界面配置目标网站的采集规则和采集计划,并支持将数据保存和发布到Mysql/Oracle等数据库中。但是这种工具多为客户端软件,无法进行分布式部署,采集性能也受到客户端所在的本文档来自技高网...

【技术保护点】
1.一种基于分布式的一站式采集方法,其特征是,包括:/n分布式采集集群构建:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;/n全网采集:集群服务器接收所需采集的网站,进行全网数据采集,并对网站中的列表页数据进行过滤;/n解析:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;/n采集任务配置:配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。/n

【技术特征摘要】
1.一种基于分布式的一站式采集方法,其特征是,包括:
分布式采集集群构建:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;
全网采集:集群服务器接收所需采集的网站,进行全网数据采集,并对网站中的列表页数据进行过滤;
解析:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;
采集任务配置:配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。


2.如权利要求1所述的一种基于分布式的一站式采集方法,其特征是,调用人工智能算法模型对列表页规则和详情页规则进行智能解析,人工智能算法模型包括列表规则解析模型和详情页规则解析模型,通过列表规则解析模型获取列表页中标题、发文时间的xpath规则,通过详情页规则解析模型获取内容详情页的xpath规则,通过这两个模型代替人工手动点选获取xpath规则。


3.如权利要求1所述的一种基于分布式的一站式采集方法,其特征是,所述将集群服务器添加到采集集群中:通过输入服务器IP、服务器用户名和密码可将服务器添加到采集集群中,实现一键扩容。


4.如权利要求1所述的一种基于分布式的一站式采集方法,其特征是,添加采集应用至集群服务器中时,可自定义启动的应用数量。


5.如权利要求4所述的一种基于分布式的一站式采集方法,其特征是,应用管理中可自定义启动的应用数量,采集任务结束后自动释放资源。


6.如权利要求4所述的一种基于分布式的一站式采集方法,其特征是,”所述增量...

【专利技术属性】
技术研发人员:李钊孙露孙浩杨春魏静胡传会陈通
申请(专利权)人:山东亿云信息技术有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1