基于Kubernetes和Typescript扩展数据方法和系统技术方案

技术编号：26259435 阅读：19 留言：0更新日期：2020-11-06 17:54

本申请提供一种基于Kubernetes和Typescript的扩展数据系统。包括：任务调度中心、任务和配置数据库、爬虫组件、数据处理组件；任务调度中心，用于从所述任务和配置数据库获取数据采集任务,控制任务抓取速率,并将任务结果写入下游的存储中；爬虫组件，用于不停轮询调度中心获取并执行属于自己的任务，采集到结果后，把任务结果传回调度中心；所述任务结果包括结果数据；数据处理组件，用于获取所述任务结果，并对所述任务结果进行清洗、整合并存储。

全部详细技术资料下载

【技术实现步骤摘要】
基于Kubernetes和Typescript扩展数据方法和系统
本申请涉及数据采集相关
，具体涉及一种基于Kubernetes和Typescript扩展数据方法和系统。
技术介绍
互联网数据采集技术是指借助网络爬虫技术，抓取特定或者不特定的一个或多个数据源(网站或App),将抓取的数据清洗整理并存储起来的技术。通常超大规模的采集是类似百度这样的搜索引擎发起的，针对不特定的网站系统采集公开的数据，小规模的采集是通过编程语言编写特定的网站或app来进行针对性的抓取。除搜索引擎的爬虫系统以外，业界有一些开源的定向爬虫框架，如:python下的scrapy,Javanutch等等。这些爬虫框架也很流行，但是都有下面的一个或几个问题:仅仅是爬虫框架，仅仅关注数据采集的逻辑和任务管理，对于采集回来的数据并没有明确的处理方法，有待开发者自行解决。对于大规模的数据存储，清洗没有明确的方法，需要开发者自行解决。整个爬虫的工作流程紧耦合，无法对具体的任务继续拆分，不利于重用采集逻辑。
技术实现思路
本申请提供一种基于Kubernetes和Typescript扩展数据方法和系统，以解决上述问题。本申请提供一种基于Kubernetes和Typescript的高通量高扩展互联网数据采集系统。包括：任务调度中心、任务和配置数据库、爬虫组件、数据处理组件；任务调度中心，用于从所述任务和配置数据库获取数据采集任务,控制任务抓取速率,并将任务结果写入下游的存储中；爬虫组件，用于不停轮询调度中心获取并...

【技术保护点】
1.一种基于Kubernetes和Typescript扩展数据系统，其特征在于，包括：任务调度中心、任务和配置数据库、爬虫组件、数据处理组件；/n任务调度中心，用于从所述任务和配置数据库获取数据采集任务,控制任务抓取速率,并将任务结果写入下游的存储中；/n爬虫组件，用于不停轮询调度中心获取并执行属于自己的任务，采集到结果后，把任务结果传回调度中心；所述任务结果包括结果数据；/n数据处理组件，用于获取所述任务结果，并对所述任务结果进行清洗、整合并存储。/n

【技术特征摘要】
1.一种基于Kubernetes和Typescript扩展数据系统，其特征在于，包括：任务调度中心、任务和配置数据库、爬虫组件、数据处理组件；
任务调度中心，用于从所述任务和配置数据库获取数据采集任务,控制任务抓取速率,并将任务结果写入下游的存储中；
爬虫组件，用于不停轮询调度中心获取并执行属于自己的任务，采集到结果后，把任务结果传回调度中心；所述任务结果包括结果数据；
数据处理组件，用于获取所述任务结果，并对所述任务结果进行清洗、整合并存储。

2.根据权利要求1所述的基于Kubernetes和Typescript扩展数据系统，其特征在于，所述任务调度中心和所述爬虫组件均都是以容器实例在Kubernetes环境下运行；Kubernetes会自动根据配置或者资源占用条件动态更改运行时实例个数。

3.根据权利要求1所述的基于Kubernetes和Typescript扩展数据系统，其特征在于，数据处理组件具体用于：
将存储在分布式文件系统HDFS中的任务结果加载进操作数据表中；
对于操作数据表中的数据进行清洗，整合后存储在DataWarehouse的事实表中；
事实表中的数据再次进过合并，汇总统计之后会通过DataX数据传输框架，放入ElasticSearch搜索服务器和Hbase列族数据库供后续服务查询使用。

4.根据权利要求1所述的基于Kubernetes和Typescript扩展数据系统，其特征在于，所述爬虫组件采用Typescript编写的高度灵活的框架，有内置的代理下载中间件和数据采集中间件；
爬虫组件规定了整个数据采集的标准流程；
数据采集任务会通过任务调度中心放入消息队列中暂存；
爬虫组件下的数据采集器会请求任务调度中心，从对应的消息队列中获取数据采集任务，根据任务类型，选择不同的Downloader对目标进行下载；下载完成获取响应数据后，根据数据类型选择对应的Spider对结果进行解析；将解析的结果放入任务调度中心；其中，所述解...

【专利技术属性】
技术研发人员：刘思洋，
申请(专利权)人：北京明亮的星文化传媒有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人