【技术实现步骤摘要】
客流数仓数据朔源的方法、装置、系统和存储介质
[0001]本申请涉及表级别、字段级别的数仓血缘关系的解析
,尤其是涉及一种客流数仓数据朔源的方法、装置、系统和存储介质。
技术介绍
[0002]数字经济是以数据资源为关键要素,以现代信息网络为主要载体,以信息通信技术融合应用、全要素数字化转型为重要推动力,促进公平与效率更加统一的新经济形态,可见数字化时代已成必然趋势。
[0003]当前数据安全已成为事关国家安全与经济社会发展的重大问题,与此同时国家相继出台了《数据安全法(草案)》和《个人信息保护法》,旨在为落实数据安全保护责任。可见数据对于个人、企业乃至国家的重要性是不言而喻的。
[0004]现有公司数仓体系数据朔源难,一旦出现了数据问题,需要开发人员逐一去开发脚本里一个一个去找关联关系,使得数仓运维及数据追责变得极为困难。问题体现在如下方面:
[0005]1、客流系统的客流日志数据的采集和汇总、解析、注入大数据系统的问题;2、没有有效的利用客流的客流日志数据;
[0006]3、不方便客流数仓数据价值的挖掘及客流数仓数据质量的评估。
技术实现思路
[0007]为了解决上述技术缺陷之一,本申请实施例中提供了一种客流数仓数据朔源的方法、装置、系统和存储介质。
[0008]根据本申请实施例的第一个方面,提供了一种客流数仓数据朔源的方法,包括:
[0009]获取轨道交通客流日志数据;包括车站客流、换乘客流、途经客流、列车运力数据源的数据,实现不同数据源的数据 ...
【技术保护点】
【技术特征摘要】
1.一种客流数仓数据朔源的方法,其特征在于,包括:获取轨道交通客流日志数据;包括车站客流、换乘客流、途经客流、列车运力数据源的数据,实现不同数据源的数据采集;将客流日志数据进行格式化入库解析;将解析后的客流日志数据导入大数据平台,基于Hadoop大数据技术,实现存储实时和离线精细数据,在大数据存储之上建立ODS层、DWD层、DWS层、ADS层的设计和建模开发工作;对每层的客流日志数据进行字段级血缘解析,得到客流数据仓库的血缘元数据信息,所述血缘元数据为用于解释所述血缘关系数据的数据;将获取的血缘元数据信息存入元数据管理平台数据库。2.根据权利要求1所述的客流数仓数据朔源的方法,其特征在于:得到客流数仓的血缘元数据信息后,将血缘元数据信息存入Neo4j图数据库进行可视化展示;所述血缘元数据信息至少包括以下字段之一或组合:当前节点名称、父节点名称、子节点名称、表名称、输入对象列表、输出对象列表、表注释、数据源类型、数据库、数据位置、元数据sql文件位置、元数据修改时间。3.根据权利要求1所述的客流数仓数据朔源的方法,其特征在于:获取轨道交通客流日志数据包括:通过数据接口和ETL技术连接车站客流、换乘客流、途经客流、列车运力数据源的数据,实现不同数据源的数据采集。4.根据权利要求1所述的客流数仓数据朔源的方法,其特征在于:将解析后的客流日志数据导入大数据平台,通过对于客流日志数据进行维度建模与分析生成客流数仓,构建ODS,DWD,DWS,ADS层包括:将解析好的客流日志数据导入到大数据平台,基于大数据技术,实现存储实时和离线精细数据,在大数据存储之上建立ODS层、DWD层、DWS层、ADS层;ODS层属于客流原始数据层,直接从客流日志系统采集最原始的数据;DWD为明细数据层,按照客流业务不同的数据维度及粒度对原始数据ODS层进行粗粒度的聚合生成;供下游DWS层做进一步数据聚合使用;DWS为汇聚数据层,客流数据中按照相同维度进行进一步数据聚合的操作;为后续的ADS指标层进行指标计算时的数据调用;ADS为指标数据层,根据不同的业务指标,根据前期开发的DWD,DWS层数据及指标逻辑进行数据开发,生成指标数据供业务使用。5.根据权利要求1所述的客流数仓数据朔源的方法,其特征在于:对每层的客流日志数据进行字段级血缘解析,得到客流数仓的血缘元数据信息包括:(1)注册客流数据字段级血缘解析UDF自定义函数;(2)重构语义分析器SemanticAnalyzer,重写SQL解析主要逻辑;(3)客流数仓字段级血缘解析逻辑计划生成和逻辑计划优化;(4)客流数仓字段级血缘关系解析中,采用单独封装java获取表元数据信息getTableSpec方法实现元数据信息的切换,通过其方法获取相关客流数仓的hive表结构信息Schema,分区信息以及客流数仓表权限信息;(5)...
【专利技术属性】
技术研发人员:张诣元,简锐锋,
申请(专利权)人:交控科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。