一种采集存储介质变更数据入数据仓库的方法技术

技术编号：37545295 阅读：20 留言：0更新日期：2023-05-12 16:17

本发明专利技术涉及大数据领域，具体而言，涉及一种采集存储介质变更数据入数据仓库的方法，该方法的步骤包括：对存储介质集群进行扩容，并在存储介质集群的每一个服务器处安装数据采集插件，之后依次重启集群内的各个存储介质；调用存储介质的接口，并配置数据采集插件的相关参数；创建索引并将索引插入至存储介质中，将索引与数据采集插件的相关参数进行同步，之后基于索引抓取存储介质的变量数据并将变量数据发送至kafka内；通过流式处理模块消费kafka内的变量数据，并将消费的变量数据写入至分布式文件系统内；将分布式文件系统内的变量数据映射至数据仓库中，并在数据仓库中添加对应的日期分区，完成存储介质变更数据的写入。入。入。

全部详细技术资料下载

【技术实现步骤摘要】
一种采集存储介质变更数据入数据仓库的方法

[0001]本专利技术涉及大数据领域，具体而言，涉及一种采集存储介质变更数据入数据仓库的方法。

技术介绍

[0002]在大数据平台的数据仓库建设过程中，大数据平台需要从各种不同数据源采集数据进入到数据仓库的ods表内。在数据采集中，存在如何实现采集程序对业务系统无感，降低采集程序对业务数据源压力的问题。在上述问题的基础上，目前对于mysql的采集提供了基于Binlog的解析，但是针对于elasticsearch等文档类型的存储介质还没有成熟的采集方案，仍然通过分批轮训获取数据，这样存在以下问题：随着存储介质的数量越多，轮训给存储介质带来很大的性能影响，容易拖垮服务；并且轮训通常是固定一个时间间隔去分批获取数据，存在的时间间隔不方便确定，容易因为存在的时间间隔导致数据进入数据仓库存在较大的延迟，不能做到及时查询使用。基于此，针对上述问题，我们设计了一种采集存储介质变更数据入数据仓库的方法。

技术实现思路

[0003]本专利技术的目的在于提供一种采集存储介质变更数据入数据仓库的方法，其通过设计了自动采集elasticsearch数据的方法，能够有效抓取elasticsearch内的变量数据，不仅降低了采集elasticsearch等文档类型的存储介质的难度，而且提高了采集elasticsearch等文档类型的存储介质数据的实时性。
[0004]本专利技术的实施例通过以下技术方案实现：一种采集存储介质变更数据入数据仓库的方法，该方法的步骤包括：对存储介质集群...

【技术保护点】

【技术特征摘要】
1.一种采集存储介质变更数据入数据仓库的方法，其特征在于，该方法的步骤包括：对存储介质集群进行扩容，并在存储介质集群的每一个服务器处安装数据采集插件，之后依次重启存储介质集群内的各个存储介质；调用存储介质的接口，并配置数据采集插件的相关参数；创建索引并将索引插入至存储介质中，将索引与数据采集插件的相关参数进行同步，之后基于索引抓取存储介质的变量数据并将变量数据发送至kafka内；通过流式处理模块消费kafka内的变量数据，并将消费的变量数据写入至分布式文件系统内；将分布式文件系统内的变量数据映射至数据仓库中，并在数据仓库中添加对应的日期分区，完成存储介质变更数据的写入。2.根据权利要求1所述的采集存储介质变更数据入数据仓库的方法，其特征在于，所述存储介质具体为elasticsearch。3.根据权利要求2所述的采集存储介质变更数据入数据仓库的方法，其特征在于，所述将消费的变量数据写入至分布式文件系统内，具体为将消费的变量数据按天分区写入至分布式文件系统内。4.根据权利要求3所述的采集存储介质变更数据入数据仓库的方法，其特征在于，将分布式文件系统内的数据映射至数据仓库中，其具体过程为：在数据仓库中创建ods表，将分布式文件系统内的数据映射到ods表中，并在ods表中添加对应的天数分区，完成存储介质变更数据的写入。5.根据权利要求2所述...

【专利技术属性】
技术研发人员：韩雷，陶赵文，
申请(专利权)人：云筑信息科技成都有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人