客流数仓数据朔源的方法、装置、系统和存储介质制造方法及图纸

技术编号:37278033 阅读:10 留言:0更新日期:2023-04-20 23:45
本申请实施例提供一种客流数仓数据朔源的方法、装置、系统和存储介质,其中,方法包括:获取轨道交通客流日志数据;将客流日志数据进行格式化入库解析;将解析后的客流日志数据导入大数据平台,通过对于客流日志数据进行维度建模与分析生成客流数仓,构建ODS,DWD,DWS,ADS层;对每层的客流日志数据进行字段级血缘解析,得到客流数仓的血缘元数据信息;将获取的血缘元数据信息存入元数据管理平台数据库。本申请实施例提供的客流数仓数据朔源方法实现了客流数仓数据可朔源,提高了数仓数据质量可评估性,便于对客流数仓的数据价值进行进一步的挖掘,为数据安全提供了有力的保障。为数据安全提供了有力的保障。为数据安全提供了有力的保障。

【技术实现步骤摘要】
客流数仓数据朔源的方法、装置、系统和存储介质


[0001]本申请涉及表级别、字段级别的数仓血缘关系的解析
,尤其是涉及一种客流数仓数据朔源的方法、装置、系统和存储介质。

技术介绍

[0002]数字经济是以数据资源为关键要素,以现代信息网络为主要载体,以信息通信技术融合应用、全要素数字化转型为重要推动力,促进公平与效率更加统一的新经济形态,可见数字化时代已成必然趋势。
[0003]当前数据安全已成为事关国家安全与经济社会发展的重大问题,与此同时国家相继出台了《数据安全法(草案)》和《个人信息保护法》,旨在为落实数据安全保护责任。可见数据对于个人、企业乃至国家的重要性是不言而喻的。
[0004]现有公司数仓体系数据朔源难,一旦出现了数据问题,需要开发人员逐一去开发脚本里一个一个去找关联关系,使得数仓运维及数据追责变得极为困难。问题体现在如下方面:
[0005]1、客流系统的客流日志数据的采集和汇总、解析、注入大数据系统的问题;2、没有有效的利用客流的客流日志数据;
[0006]3、不方便客流数仓数据价值的挖掘及客流数仓数据质量的评估。

技术实现思路

[0007]为了解决上述技术缺陷之一,本申请实施例中提供了一种客流数仓数据朔源的方法、装置、系统和存储介质。
[0008]根据本申请实施例的第一个方面,提供了一种客流数仓数据朔源的方法,包括:
[0009]获取轨道交通客流日志数据;包括车站客流、换乘客流、途经客流、列车运力数据源的数据,实现不同数据源的数据采集;
[0010]将客流日志数据进行格式化入库解析;
[0011]将解析后的客流日志数据导入大数据平台,基于Hadoop大数据技术,实现存储实时和离线精细数据,在大数据存储之上建立ODS层、DWD层、DWS层、ADS层的设计和建模开发工作;
[0012]对每层的客流日志数据进行字段级血缘解析,得到客流数据仓库的血缘元数据信息,所述血缘元数据为用于解释所述血缘关系数据的数据;
[0013]将获取的血缘元数据信息存入元数据管理平台数据库。
[0014]根据本申请实施例的第二个方面,提供了一种客流数仓数据朔源的装置,包括;
[0015]获取单元,用于获取轨道交通客流日志数据;包括车站客流、换乘客流、途经客流、列车运力数据源的数据,实现不同数据源的数据采集;
[0016]格式化入库解析单元,用于将客流日志数据进行格式化入库解析;
[0017]导入单元,用于将解析后的客流日志数据导入大数据平台,基于Hadoop大数据技
术,实现存储实时和离线精细数据,在大数据存储之上建立ODS层、DWD层、DWS层、ADS层的设计和建模开发工作;
[0018]生成单元,用于通过对于客流日志数据进行维度建模与分析生成客流数仓;
[0019]构建单元,用于构建ODS,DWD,DWS,ADS层;
[0020]字段级血缘解析单元,用于对每层的客流日志数据进行字段级血缘解析,得到客流数仓的血缘元数据信息;
[0021]储存单元,用于将获取的血缘元数据信息存入元数据管理平台数据库。
[0022]根据本申请实施例的第三个方面,提供了一种系统,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上所述方法。
[0023]根据本申请实施例的第四个方面,提供了一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如上所述方法。
[0024]本申请的有益效果主要在于:
[0025]1、解决客流系统的客流日志数据的采集和汇总、解析、注入大数据系统的问题;
[0026]2、通过在多维度建模和大数据技术支持,实现客流日志数据的采集,建立相应的数据模型,以更加有效的利用客流的客流日志数据;
[0027]3、通过对建模的客流日志数据进行表级别、字段级的血缘解析,实现对于客流数仓数据的朔源及血缘关系的可视化展示。方便客流数仓数据价值的进一步挖掘及客流数仓数据质量的评估。
附图说明
[0028]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0029]图1为本申请实施例一提供的客流数仓数据朔源的方法流程图。
具体实施方式
[0030]为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0031]本申请提供一种客流数仓数据朔源的方法,能够对客流数仓数据进行挖掘和处理。实际应用中,该客流数仓数据朔源的方法可以通过计算机程序实现,例如,应用软件等;或者,该方法也可以实现为存储有相关计算机程序的介质,例如,U盘、云盘等;再或者,该方法还可以通过集成或安装有相关计算机程序的实体装置实现,例如,芯片、可移动智能设备等。
[0032]本实施例中的部分英文简称说明:
[0033]ETL:数据接口和数据仓库Extract

Transform

Load;
[0034]ODS:数据准备层Operation Data Store;
[0035]DWD:细节数据层Data Warehouse Details;
[0036]DWS:主题数据层Data Warehouse Topic;
[0037]ADS:应用数据服务Application Data Service;
[0038]DIM:维表层Dimension;
[0039]DWS:数据服务层Data WareHouse Servce;
[0040]DAG:无回路有向图Directed Acyclic Graph;
[0041]SemanticAnalyzer:语义分析器;
[0042]getTableSpec:java获取表元数据信息;
[0043]Schema:结构信息;
[0044]postExecHook:钩子函数;
[0045]LineageLogger:血缘关系日志;
[0046]Hive:数据仓库工具;
[0047]如图1所示,本申请的客流数仓数据朔源的方法包括以下步骤:
[0048]101、获取轨道交通客流日志数据。
[0049]在本实施例中,客流日志数据准备,通过ETL技术连接车站客流、换乘客流、途经客流、列车运力数据源的数据,实现不同数据源的数据采集。
[0050]102、将客流日志数据进行格式化入库解析。
[0051]在本实施例中,将客流日志数据进行格式化入库解析,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种客流数仓数据朔源的方法,其特征在于,包括:获取轨道交通客流日志数据;包括车站客流、换乘客流、途经客流、列车运力数据源的数据,实现不同数据源的数据采集;将客流日志数据进行格式化入库解析;将解析后的客流日志数据导入大数据平台,基于Hadoop大数据技术,实现存储实时和离线精细数据,在大数据存储之上建立ODS层、DWD层、DWS层、ADS层的设计和建模开发工作;对每层的客流日志数据进行字段级血缘解析,得到客流数据仓库的血缘元数据信息,所述血缘元数据为用于解释所述血缘关系数据的数据;将获取的血缘元数据信息存入元数据管理平台数据库。2.根据权利要求1所述的客流数仓数据朔源的方法,其特征在于:得到客流数仓的血缘元数据信息后,将血缘元数据信息存入Neo4j图数据库进行可视化展示;所述血缘元数据信息至少包括以下字段之一或组合:当前节点名称、父节点名称、子节点名称、表名称、输入对象列表、输出对象列表、表注释、数据源类型、数据库、数据位置、元数据sql文件位置、元数据修改时间。3.根据权利要求1所述的客流数仓数据朔源的方法,其特征在于:获取轨道交通客流日志数据包括:通过数据接口和ETL技术连接车站客流、换乘客流、途经客流、列车运力数据源的数据,实现不同数据源的数据采集。4.根据权利要求1所述的客流数仓数据朔源的方法,其特征在于:将解析后的客流日志数据导入大数据平台,通过对于客流日志数据进行维度建模与分析生成客流数仓,构建ODS,DWD,DWS,ADS层包括:将解析好的客流日志数据导入到大数据平台,基于大数据技术,实现存储实时和离线精细数据,在大数据存储之上建立ODS层、DWD层、DWS层、ADS层;ODS层属于客流原始数据层,直接从客流日志系统采集最原始的数据;DWD为明细数据层,按照客流业务不同的数据维度及粒度对原始数据ODS层进行粗粒度的聚合生成;供下游DWS层做进一步数据聚合使用;DWS为汇聚数据层,客流数据中按照相同维度进行进一步数据聚合的操作;为后续的ADS指标层进行指标计算时的数据调用;ADS为指标数据层,根据不同的业务指标,根据前期开发的DWD,DWS层数据及指标逻辑进行数据开发,生成指标数据供业务使用。5.根据权利要求1所述的客流数仓数据朔源的方法,其特征在于:对每层的客流日志数据进行字段级血缘解析,得到客流数仓的血缘元数据信息包括:(1)注册客流数据字段级血缘解析UDF自定义函数;(2)重构语义分析器SemanticAnalyzer,重写SQL解析主要逻辑;(3)客流数仓字段级血缘解析逻辑计划生成和逻辑计划优化;(4)客流数仓字段级血缘关系解析中,采用单独封装java获取表元数据信息getTableSpec方法实现元数据信息的切换,通过其方法获取相关客流数仓的hive表结构信息Schema,分区信息以及客流数仓表权限信息;(5)...

【专利技术属性】
技术研发人员:张诣元简锐锋
申请(专利权)人:交控科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1