This application provides a distributed data warehouse monitoring method. This method includes: monitoring the distributed data warehouse according to the monitored contents in the configured monitoring list when the monitoring cycle starts. When any monitoring content is abnormal, the data in the distributed data warehouse is different from the data in the source system. When all the monitoring contents are not abnormal, the data in the distributed data warehouse are consistent with the data in the source system. Based on the same invention concept, this application also proposes a distributed data warehouse monitoring device, electronic device and storage medium. Without affecting the normal operation of the source system, and saving the resources, the consistency of data in the distributed data warehouse and the source system is realized.
【技术实现步骤摘要】
分布式数据仓库监控方法、装置、电子设备和存储介质
本专利技术涉及数据库监控
,特别涉及一种分布式数据仓库监控方法、装置、电子设备和存储介质。
技术介绍
随着电子商务的发展,例如京东、淘宝、亚马逊等,日常运营中生成、累积的大量用户、商品、生产相关的数据,呈现爆发式增长,数据结构也开始多元化,数据含有的信息量越来越多,公司对数据化运营也越来越关注。数据仓库用于对数据进行分处理工作,发挥着巨大的作用。然而,大数据时代的降临,数据仓库慢慢转成分布式架构,以满足爆发式增长的计算及存储的要求。由于分布式数据一般都是使用列式存储,并以文件的形式保存,从而提高了大数据的存储及计算性能。分布式数据仓库建设的成功与否在很大程度上取决于是否有一个稳固、全面、一致的数据模型,数据模型集成了各种数据源系统的数据,是支撑各种应用分析、数据产品等的基础。所以,数据模型各层级间的数据一致性,显得尤其重要。使用数据抽取工具将原始数据系统数据抽取到Hadoop本地服务器上,并抓取源系统的数据量(行数),然后在分布式数据仓库中建立对应的表并根据仓库的数据模型,接着执行hive脚本将生产数据转换后装载到分布式数据仓库的目标表中,同时,比对目标表中的数据量与抓取到的源系统的数据量是否一致。上述数据一致性确定方法中,由于数据量巨大,抓取源系统的数据量,对源系统的正常运行会有影响,并且通过hive对每一层的数据进行count操作,会无谓的消耗集群的资源,带来资源巨大的浪费。
技术实现思路
有鉴于此,本申请提供一种分布式数据仓库监控方法、装置、电子设备和存储介质,在不影响源系统的正常运行,且节省资源的 ...
【技术保护点】
1.一种分布式数据仓库监控方法,其特征在于,该方法包括:配置监控列表,所述监控列表包含的监控内容为:数据量监控、数据库的数据源表结构监控,以及数据源的表字段取值监控;当监控周期开始时,按照配置的监控列表中的监控内容对分布式数据仓库进行监控;当任一监控内容出现异常时,确定分布式数据仓库中的数据与源系统中的数据不一致,并将出现的异常以告警方式显示;当所有监控内容均未出现异常时,确定分布式数据仓库中的数据与源系统中的数据一致。
【技术特征摘要】
1.一种分布式数据仓库监控方法,其特征在于,该方法包括:配置监控列表,所述监控列表包含的监控内容为:数据量监控、数据库的数据源表结构监控,以及数据源的表字段取值监控;当监控周期开始时,按照配置的监控列表中的监控内容对分布式数据仓库进行监控;当任一监控内容出现异常时,确定分布式数据仓库中的数据与源系统中的数据不一致,并将出现的异常以告警方式显示;当所有监控内容均未出现异常时,确定分布式数据仓库中的数据与源系统中的数据一致。2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:当监控到第一预设时间内数据量的增量为0,确定针对数据量监控时出现异常;当监控到第一预设时间内数据量的增量不为0,且确定当前数据量与同比数据量相比,数据量变化值大于预设阈值时,确定针对数据量监控时出现异常;当监控到数据源表的表结构发生变化时,确定针对数据库的数据源表结构监控时出现异常;当监控到配置的数据库源表的字段取值变化时,确定针对数据源的表字段取值监控时出现异常。3.根据权利要求2所述的方法,其特征在于,所述数据源表的表结构发生变化,包括下述任一字段,或任意组合发生变化:新增字段、删除字段、修改字段类型、修改字段长度。4.根据权利要求1所述的方法,其特征在于,针对数据量监控,配置监控的数据名称、表名、时间字段、时间字段类型、统计项目、统计条件、监控时间;针对数据库的数据源表结构监控,配置监控的数据库的类型、数据库连接方式、数据库表名、对应数据库名;针对数据源的表字段取值监控,配置监控的数据库名、字段名称、数据类型内容。5.根据权利要求1-4任意一项所述的方法,其特征在于,所述方法进一步包括:根据分布式数据仓库运行的时间,配置监控周期;若在配置的监控周期内,监控列表中的监控内容未执行完成,则等待第二预设时间,继续执行未完成的监控内容。6.一种分布式数据仓库监控装置,其特征在于,该装置包括:配置单元、监控单元和确定单元;所述配置单元,用于配置监控列表,所述监控列表包含的监控内容为:数据量监控、数据库的数据源表结构监控,以及数据源的表字段取值监控;所述监控单元,用于当监控周期开始时,按照所述配置单元配置的监控列表中的监控内容...
【专利技术属性】
技术研发人员:孙冬,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。