【技术实现步骤摘要】
一种基于映射矩阵的数据抽取转换系统
[0001]本专利技术涉及大数据
,具体为一种基于映射矩阵的数据抽取转换系统。
技术介绍
[0002]随着互联网的普及,信息呈爆炸式增长,从海量的信息中抽取出真正的有价值的数据对现代计算机系统尤为重要,提取转换加载(Extract
‑
Transform
‑
Load,ETL)自90年代发展而来,已逐渐成为构建数据仓库的范式,也是云计算和机器学习等技术的基石。
[0003]通过ETL技术,将各种业务数据库与数据仓库DW进行连接,将数据提取,转换,加载,以一种管道状提取各种有价值的业务数据,让分析决策人员得以高效判断出业务的增长点。现代的近实时场景对ETL技术提出了新的要求,流式的ETL传输管道逐渐替代了过去按天进行数据转换的方式,流式的ETL传输管道速度更快,并且可以以近实时的将数据转发到各种下游,比如机器学习系统。
[0004]然而,随着微服务和分布式系统的发展,ETK技术也面临着新的挑战,在微服务的场景下,ETL管道需要从几十个甚至 ...
【技术保护点】
【技术特征摘要】
1.一种基于映射矩阵的数据抽取转换系统,其特征在于:包括提取融合模块、schema维护模块、矩阵转换模块、热数据存储模块、压缩传输模块和路由转发模块,其中:提取融合模块,用于从不同的微服务中对数据进行提取融合,构建Operation DataStore层,即ODS层,作为数据的原始底表;schema维护模块,用于维护下游业务的数据映射模板;矩阵转换模块,用于利用ODS层底表数据对数据进行转换,对于不同的映射schema做出不同的计算;热数据存储模块,用于根据schema中的字段血缘统计,对业务使用的不同频次的数据采用不同的存储介质存储;压缩传输模块,用于对热点数据或者不同业务的共用数据进行压缩;路由转发模块,用于将映射后的数据传输到不同的业务端。2.根据权利要求1所述的一种基于映射矩阵的数据抽取转换系统,其特征在于:所述提取融合模块包括数据粗筛子模块和元数据汇聚子模块,其中:所述数据粗筛子模块,用于对不同业务的数据进行整合,对数据中的异常值和异常格式进行过滤,将所有数据采用Spark写入到HDFS上进行整合,并排除难以避免的异常值;所述元数据汇聚子模块,用于对底表字段进行元数据维护,包括记录字段写入底表的时间和变更时间,采用类hivemetastore的方式进行维护记录。3.根据权利要求2所述的一种基于映射矩阵的数据抽取转换系统,其特征在于:所述数据粗筛子模块中处理的数据来自Mysqla、Kafka、JSON或Flink。4.根据权利要求1所述的一种基于映射矩阵的数据抽取转换系统,其特征在于:所述提取融合模块中底表的不同任务的实际粒度是天级,对于上层业务数据的产出,则通过底表数据实时生产。5.根据权利要求1所述的一种基于映射矩阵的数据抽取转换系统,其特征在于:所述schema维护模块所维护的数据映射模板根据不同的业务而有所差异,并且会根据业务的变化动态进行更新变化,在schema维护模块可维护同一个业务任务的多个schema版本。6.根据权利要求1所述的一种基于映射矩阵的数据抽取转换系统,其特征在于:所述矩阵转换模块用于对不同的业务schema...
【专利技术属性】
技术研发人员:陈国凯,张宇峰,杜忠田,郭建章,马涛,党咏欣,晏进,
申请(专利权)人:中电信数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。