一种采集存储介质变更数据入数据仓库的方法技术

技术编号:37545295 阅读:20 留言:0更新日期:2023-05-12 16:17
本发明专利技术涉及大数据领域,具体而言,涉及一种采集存储介质变更数据入数据仓库的方法,该方法的步骤包括:对存储介质集群进行扩容,并在存储介质集群的每一个服务器处安装数据采集插件,之后依次重启集群内的各个存储介质;调用存储介质的接口,并配置数据采集插件的相关参数;创建索引并将索引插入至存储介质中,将索引与数据采集插件的相关参数进行同步,之后基于索引抓取存储介质的变量数据并将变量数据发送至kafka内;通过流式处理模块消费kafka内的变量数据,并将消费的变量数据写入至分布式文件系统内;将分布式文件系统内的变量数据映射至数据仓库中,并在数据仓库中添加对应的日期分区,完成存储介质变更数据的写入。入。入。

【技术实现步骤摘要】
一种采集存储介质变更数据入数据仓库的方法


[0001]本专利技术涉及大数据领域,具体而言,涉及一种采集存储介质变更数据入数据仓库的方法。

技术介绍

[0002]在大数据平台的数据仓库建设过程中,大数据平台需要从各种不同数据源采集数据进入到数据仓库的ods表内。在数据采集中,存在如何实现采集程序对业务系统无感,降低采集程序对业务数据源压力的问题。在上述问题的基础上,目前对于mysql的采集提供了基于Binlog的解析,但是针对于elasticsearch等文档类型的存储介质还没有成熟的采集方案,仍然通过分批轮训获取数据,这样存在以下问题:随着存储介质的数量越多,轮训给存储介质带来很大的性能影响,容易拖垮服务;并且轮训通常是固定一个时间间隔去分批获取数据,存在的时间间隔不方便确定,容易因为存在的时间间隔导致数据进入数据仓库存在较大的延迟,不能做到及时查询使用。基于此,针对上述问题,我们设计了一种采集存储介质变更数据入数据仓库的方法。

技术实现思路

[0003]本专利技术的目的在于提供一种采集存储介质变更数据入数据仓库的方法,其通过设计了自动采集elasticsearch数据的方法,能够有效抓取elasticsearch内的变量数据,不仅降低了采集elasticsearch等文档类型的存储介质的难度,而且提高了采集elasticsearch等文档类型的存储介质数据的实时性。
[0004]本专利技术的实施例通过以下技术方案实现:一种采集存储介质变更数据入数据仓库的方法,该方法的步骤包括:对存储介质集群进行扩容,并在存储介质集群的每一个服务器处安装数据采集插件,之后依次重启存储介质集群内的各个存储介质;调用存储介质的接口,并配置数据采集插件的相关参数;创建索引并将索引插入至存储介质中,将索引与数据采集插件的相关参数进行同步,之后基于索引抓取存储介质的变量数据并将变量数据发送至kafka内;通过流式处理模块消费kafka内的变量数据,并将消费的变量数据写入至分布式文件系统内;将分布式文件系统内的变量数据映射至数据仓库中,并在数据仓库中添加对应的日期分区,完成存储介质变更数据的写入。
[0005]可选的,所述存储介质具体为elasticsearch。
[0006]可选的,所述将消费的变量数据写入至分布式文件系统内,具体为将消费的变量数据按天分区写入至分布式文件系统内。
[0007]可选的,将分布式文件系统内的数据映射至数据仓库中,其具体过程为:在数据仓库中创建ods表,将分布式文件系统内的数据映射到ods表中,并在ods表
中添加对应的天数分区,完成存储介质变更数据的写入。
[0008]可选的,所述基于索引抓取存储介质的变量数据并将变量数据发送至kafka内,其中,变量数据包括新增数据或更新数据,以及删除数据。
[0009]可选的,基于索引抓取存储介质的变量数据中的新增数据或更新数据,其具体过程为:创建索引并将索引插入至存储介质中,将索引与数据采集插件的相关参数进行同步,完成同步后的索引构成存储介质的IN接口;IN接口对存储介质内的新增事件或更新事件进行监听,分析新增事件或更新事件的类型,并获取索引中对于该新增事件的新增数据或更新事件的更新数据;将新增数据或更新数据解析为字符串并标识,发送至kafka内。
[0010]可选的,基于索引抓取存储介质的变量数据中的删除数据,其具体过程为:创建索引并将索引插入至存储介质中,将索引与数据采集插件的相关参数进行同步,完成同步后的索引构成存储介质的IN接口;IN接口对存储介质内的删除事件进行监听,根据删除事件获取即将删除的数据,并将该数据保存至currentHashMap内;确定已经删除的数据,并根据已经删除数据的ID在currentHashMap内获取删除数据,将删除数据转化为解析为字符串并标识,发送至kafka内。
[0011]本专利技术实施例的技术方案至少具有如下优点和有益效果:本专利技术实施例通过设计了自动采集elasticsearch数据的方法,能够有效抓取elasticsearch内的变量数据,不仅降低了采集elasticsearch等文档类型的存储介质的难度,而且提高了采集elasticsearch等文档类型的存储介质数据的实时性。
附图说明
[0012]图1为本专利技术提供的一种采集存储介质变更数据入数据仓库的方法的整体流程示意图。
具体实施方式
[0013]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0014]参照图1所示,图1为本专利技术提供的一种采集存储介质变更数据入数据仓库的方法的整体流程示意图。
[0015]在一些实施方式中,一种采集存储介质变更数据入数据仓库的方法,该方法的步骤包括:对存储介质集群进行扩容,并在存储介质集群的每一个服务器处安装数据采集插件,之后依次重启存储介质集群内的各个存储介质;调用存储介质的接口,并配置数据采集插件的相关参数;创建索引并将索引插入至存储介质中,将索引与数据采集插件的相关参数进行同
步,之后基于索引抓取存储介质的变量数据并将变量数据发送至kafka内;通过流式处理模块消费kafka内的变量数据,并将消费的变量数据写入至分布式文件系统内;将分布式文件系统内的变量数据映射至数据仓库中,并在数据仓库中添加对应的日期分区,完成存储介质变更数据的写入。
[0016]更为具体的,所述存储介质具体为elasticsearch。
[0017]在上述实现过程中,第一步:在elasticsearch(存储介质)集群中的每一个服务器上安装自定义数据采集插件,然后依次重启elasticsearch。第二步:调用elasticsearch提供的_cluster/settings的api接口,配置全局的采集插件需要的参数,主要是配置kafka(模块)相关的配置,比如消息需要发送的kafka集群的地址、acks参数等。第三步:创建index(索引),并且在index的settings中设置,采集当前index的数据需要的一些参数,比如是否启用数据采集,当前index的数据发送到目标的topic等信息。第四步:通过编写flink流式处理程序,消费topic中的数据,将数据按天分区写入到hdfs(分布式文件系统)中。第五步:在hive(数据仓库)中创建ods外部表,将hdfs相应文件目录的文件映射到hive数据仓库的表中。并且在该数据表中添加对应的日期分区。至此elasticsearch中的变更数据就写入到了hive数据仓库中。
[0018]更为具体的,所述将消费的变量数据写入至分布式文件系统内,具体为将消费的变量数据按天分区写入至分布式文件系统内。
[0019]更为具体的,将分布式文件系统内的数据映射至数据仓库中,其具体过程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种采集存储介质变更数据入数据仓库的方法,其特征在于,该方法的步骤包括:对存储介质集群进行扩容,并在存储介质集群的每一个服务器处安装数据采集插件,之后依次重启存储介质集群内的各个存储介质;调用存储介质的接口,并配置数据采集插件的相关参数;创建索引并将索引插入至存储介质中,将索引与数据采集插件的相关参数进行同步,之后基于索引抓取存储介质的变量数据并将变量数据发送至kafka内;通过流式处理模块消费kafka内的变量数据,并将消费的变量数据写入至分布式文件系统内;将分布式文件系统内的变量数据映射至数据仓库中,并在数据仓库中添加对应的日期分区,完成存储介质变更数据的写入。2.根据权利要求1所述的采集存储介质变更数据入数据仓库的方法,其特征在于,所述存储介质具体为elasticsearch。3.根据权利要求2所述的采集存储介质变更数据入数据仓库的方法,其特征在于,所述将消费的变量数据写入至分布式文件系统内,具体为将消费的变量数据按天分区写入至分布式文件系统内。4.根据权利要求3所述的采集存储介质变更数据入数据仓库的方法,其特征在于,将分布式文件系统内的数据映射至数据仓库中,其具体过程为:在数据仓库中创建ods表,将分布式文件系统内的数据映射到ods表中,并在ods表中添加对应的天数分区,完成存储介质变更数据的写入。5.根据权利要求2所述...

【专利技术属性】
技术研发人员:韩雷陶赵文
申请(专利权)人:云筑信息科技成都有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1