数据平衡验证方法及装置制造方法及图纸

技术编号:13965864 阅读:46 留言:0更新日期:2016-11-09 11:58
本发明专利技术公开了一种数据平衡验证方法及装置,包括:接收日志数据,并根据所述配置文件生成完整日志文件和短日志文件;所述配置文件中包括短日志文件生成信息,所述短日志文件中包含的日志信息少于所述完整日志文件中包含的日志信息;根据所述短日志文件,统计第一预设时间阈值内接收得到的短日志文件数量;将所述完整日志文件写入分布式文件系统并解析得到入库日志文件;根据所述入库日志文件,统计所述第一预设时间阈值内的入库日志文件数量;根据所述短日志文件数量和入库日志文件数量,验证所述第一预设时间阈值内的日志量是否平衡。本发明专利技术提出的数据平衡验证方法及装置,能够在数据平衡验证时减少对系统资源的占用。

【技术实现步骤摘要】

本专利技术涉及数据处理
,特别是指一种数据平衡验证方法及装置
技术介绍
Hadoop和Hive是目前业界广泛使用的数据存储以及查询的分布式解决方案。Hive,是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql(Structured Query Language,结构化查询语言)查询功能,可以将sql语句转换为MapReduce(映射化简)任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。HDFS,亦即,Hadoop分布式文件系统,其被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX(Portable Operating System Interface,可移植操作系统接口)标准的约束,来实现流式读取文件系统数据的目的。现有的技术进行数据日志量验平(即,数据日志量的平衡性验证,属于数据监控方式的一种)时,通常采用服务器(server)接收得到的日志文件(access_log)统计得到日志数量,与日志文件写入HDFS后经解析挂载到Hive得到的日志数量进行对比,通过对比两次统计得到的日志数量是否相等来进行验平。通常为了满足需要,配置文件中access_log会预先配置log_format(即access_log存储日志的信息),其中包含很多信息,比如remote_addr,time_local,request,http_content_type,status等等。这样一来,高峰期日志量很大时,形成的日志文件也会很大(可达到GB级别)。统计日志文件的记录数时会占用很多系统资源,所以频繁的统计操作有可能会影响服务器的性能,严重的时候有可能影响服务器的正常业务。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种数据平衡验证方法及装置,能够在数据平衡验证时减少对系统资源的占用。基于上述目的本专利技术实施例提供的数据平衡验证方法,包括:接收日志数据,并根据所述配置文件生成完整日志文件和短日志文件;所述配置文件中包括短日志文件生成信息,所述短日志文件中包含的日志信息少于所述完整日志文件中包含的日志信息;根据所述短日志文件,统计第一预设时间阈值内接收得到的短日志文件数量;将所述完整日志文件写入分布式文件系统并解析得到入库日志文件;根据所述入库日志文件,统计所述第一预设时间阈值内的入库日志文件数量;根据所述短日志文件数量和所述入库日志文件数量,验证所述第一预设时间阈值内的日志量是否平衡。在一些实施方式中,所述短日志文件包含的日志信息为日志数据产生时的本地时间或日志状态。在一些实施方式中,所述入库日志文件包括有效日志文件和无效日志文件;所述入库日志文件数量为所述有效日志文件的数量和无效日志文件的数量之和。在一些实施方式中,所述根据所述短日志文件数量和入库日志文件数量,验证所述第一预设时间阈值内的日志量是否平衡的步骤包括:计算所述第一预设时间阈值内的所述入库日志文件数量与所述短日志文件数量的比值;判断所述比值是否处于预设比值阈值范围内;若所述比值处于预设比值阈值范围内,则判定所述第一预设时间阈值内的日志量平衡;若所述比值不处于预设比值阈值范围内,则判定所述第一预设时间阈值内的日志量不平衡。在一些实施方式中,所述配置文件中还包括第二预设时间阈值,所述根据所述配置文件生成完整日志文件和短日志文件的步骤包括:按照所述第二预设时间阈值,加载所述配置文件,并将所述日志数据生成为完整日志文件和短日志文件。本专利技术实施例的另一方面,还提供了一种数据平衡验证装置,包括:日志文件生成模块,用于接收日志数据,并根据所述配置文件生成完整日志文件和短日志文件;所述配置文件中包括短日志文件生成信息,所述短日志文件中包含的日志信息少于所述完整日志文件中包含的日志信息;短日志计数模块,用于根据所述短日志文件,统计第一预设时间阈值内接收得到的短日志文件数量;入库文件获得模块,用于将所述完整日志文件写入分布式文件系统并解析得到入库日志文件;入库文件计数模块,用于根据所述入库日志文件,统计所述第一预设时间阈值内的入库日志文件数量;平衡验证模块,用于根据所述短日志文件数量和入库日志文件数量,验证所述第一预设时间阈值内的日志量是否平衡。在一些实施方式中,所述短日志文件包含的日志信息为日志数据产生时的本地时间或日志状态。在一些实施方式中,所述入库日志文件包括有效日志文件和无效日志文件;所述入库日志文件数量为所述有效日志文件的数量和无效日志文件的数量之和。在一些实施方式中,所述平衡验证模块,具体用于:计算所述第一预设时间阈值内的所述入库日志文件数量与所述短日志文件数量的比值;判断所述比值是否处于预设比值阈值范围内;若所述比值处于预设比值阈值范围内,则判定所述第一预设时间阈值内的日志量平衡;若所述比值不处于预设比值阈值范围内,则判定所述第一预设时间阈值内的日志量不平衡。在一些实施方式中,所述配置文件中还包括第二预设时间阈值,所述日志文件生成模块,具体用于:按照所述第二预设时间阈值,加载所述配置文件,并将所述日志数据生成为完整日志文件和短日志文件。从上面所述可以看出,本专利技术实施例提供的数据平衡验证方法及装置,通过统计短日志文件来对接收到的日志数据进行统计,在完整日志文件落盘入库后对入库日志文件进行统计,从而根据两个统计数据完成数据平衡验证;这样,在对接收到的日志数据进行统计时,因为只需要对数量进行统计,而不用对日志数据的实际内容进行分析,因此可以仅对短日志文件的数量进行统计,而无需对完整日志文件的数量进行统计,从而对接收到的日志数据的数量统计是采用统计短日志文件的数量来完成,使得在数据平衡验证时能够减少对系统资源的占用,从而能够节约大量的时间和资源。附图说明图1为本专利技术提供的数据平衡验证方法的一个实施例的流程示意图;图2为本专利技术提供的数据平衡验证方法的另一个实施例的流程示意图;图3为本专利技术提供的数据平衡验证装置实施例的模块结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本专利技术实施例的限定,后续实施例对此不再一一说明。本专利技术实施例的第一个方面,提出了一种能够在数据平衡验证时减少对系统资源的占用的数据平衡验证方法及装置的一个实施例。如图1所示,为本专利技术提供的数据平衡验证方法的一个实施例的流程示意图。所述数据平衡验证方法,包括以下步骤:步骤101:接收日志数据,并根据所述配置文件生成完整日志文件(其中包含有所有需要的日志信息)和短日志文件;所述配置文件中包括短日志文件生成信息,所述短日志文件中包含的日志信息本文档来自技高网
...

【技术保护点】
一种数据平衡验证方法,其特征在于,包括:接收日志数据,并根据所述配置文件生成完整日志文件和短日志文件;所述配置文件中包括短日志文件生成信息,所述短日志文件中包含的日志信息少于所述完整日志文件中包含的日志信息;根据所述短日志文件,统计第一预设时间阈值内接收得到的短日志文件数量;将所述完整日志文件写入分布式文件系统并解析得到入库日志文件;根据所述入库日志文件,统计所述第一预设时间阈值内的入库日志文件数量;根据所述短日志文件数量和所述入库日志文件数量,验证所述第一预设时间阈值内的日志量是否平衡。

【技术特征摘要】
1.一种数据平衡验证方法,其特征在于,包括:接收日志数据,并根据所述配置文件生成完整日志文件和短日志文件;所述配置文件中包括短日志文件生成信息,所述短日志文件中包含的日志信息少于所述完整日志文件中包含的日志信息;根据所述短日志文件,统计第一预设时间阈值内接收得到的短日志文件数量;将所述完整日志文件写入分布式文件系统并解析得到入库日志文件;根据所述入库日志文件,统计所述第一预设时间阈值内的入库日志文件数量;根据所述短日志文件数量和所述入库日志文件数量,验证所述第一预设时间阈值内的日志量是否平衡。2.根据权利要求1所述的方法,其特征在于,所述短日志文件包含的日志信息为日志数据产生时的本地时间或日志状态。3.根据权利要求1所述的方法,其特征在于,所述入库日志文件包括有效日志文件和无效日志文件;所述入库日志文件数量为所述有效日志文件的数量和无效日志文件的数量之和。4.根据权利要求1所述的方法,其特征在于,所述根据所述短日志文件数量和入库日志文件数量,验证所述第一预设时间阈值内的日志量是否平衡的步骤包括:计算所述第一预设时间阈值内的所述入库日志文件数量与所述短日志文件数量的比值;判断所述比值是否处于预设比值阈值范围内;若所述比值处于预设比值阈值范围内,则判定所述第一预设时间阈值内的日志量平衡;若所述比值不处于预设比值阈值范围内,则判定所述第一预设时间阈值内的日志量不平衡。5.根据权利要求1-4任意一项所述的方法,其特征在于,所述配置文件中还包括第二预设时间阈值,所述根据所述配置文件生成完整日志文件和短日志文件的步骤包括:按照所述第二预设时间阈值,加载所述配置文件,并将所述日志数据生成为完整日志文件和短日志文件。...

【专利技术属性】
技术研发人员:郑宇张甲超
申请(专利权)人:乐视控股北京有限公司乐视网信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1