【技术实现步骤摘要】
一种对ETL流转数据进行统计分析的方法
本专利技术公开一种方法,涉及数据分析
,具体地说是一种对ETL流转数据进行统计分析的方法。
技术介绍
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。而大数据时代ETL流转数据的量级非常大,在数据采集、同步过程中,存在各种问题。如由于数据量大,如何被分成多个批次进行采集和同步。每个批次同步结果如何,数据量有多少。而对于同一个批次数据,业务需要对数据进行进一步分块细分,同一个批次的不同分块数据是否能够全部同步成功等等。
技术实现思路
本专利技术针对现有技术的问题,提供一种对ETL流转数据进行统计分析的方法,面向大数据场景数据同步相关软件开发人员,特别是ETL相关软件使用和开发人员,涉及了数据采集、数据存储、数据统计分析等完整流程及分析。本专利技术提出的具体方案是:一种对ETL流转数据进行统计分析的方法,利用相关组件进行代 ...
【技术保护点】
1.一种对ETL流转数据进行统计分析的方法,其特征是利用相关组件进行代码埋点获取ETL流转过程数据和流转信息数据,并存储至ElasticSearch数据库;/n通过数据对账对比原始数据与获取的流转过程数据和流转信息数据中的目标数据的一致性:对比数据总数是否相同,单条数据各个字段是否相同;/n并利用数据追溯根据数据的唯一标识,通过查询ElasticSearch数据库,追溯数据完整路径。/n
【技术特征摘要】
1.一种对ETL流转数据进行统计分析的方法,其特征是利用相关组件进行代码埋点获取ETL流转过程数据和流转信息数据,并存储至ElasticSearch数据库;
通过数据对账对比原始数据与获取的流转过程数据和流转信息数据中的目标数据的一致性:对比数据总数是否相同,单条数据各个字段是否相同;
并利用数据追溯根据数据的唯一标识,通过查询ElasticSearch数据库,追溯数据完整路径。
2.根据权利要求1所述的一种对ETL流转数据进行统计分析的方法,其特征是利用NiFi工具的数据加载组件、数据处理组件及数据入库组件进行代码埋点,获取ETL流转过程数据和流转信息数据。
3.根据权利要求1或2所述的一种对ETL流转数据进行统计分析的方法,其特征是利用NiFi工具实现数据对账统计。
4.根据权利要求3所述的一种对ETL流转数据进行统计分析的方法,其特征是数据对账统计过程为:抽取一定数量数据,清洗一定数量数据,转换一定数量数据,入库一定数量数据,
根据统计结果判断,某一次的数据流转过程,原始数据和目标数据是否一致,通过单条数据对比判断,某一条数据是否有异常。
5.一种对ETL流转数据进行统计分析的系统,其特征是包括数据获取...
【专利技术属性】
技术研发人员:翟建峰,辛杰煊,胡清,孙思清,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。