Impala基于Hadoop集群日志分析方法和系统技术方案

技术编号:13836908 阅读:60 留言:0更新日期:2016-10-15 20:40
本发明专利技术公开了一种Impala基于Hadoop集群日志分析方法和系统,其中,Impala基于Hadoop集群日志分析方法,包括,设置web服务器每天产生一个新的目录,目录下面产生多个由Application业务系统产生的日志文件的步骤;设置系统定时器CRON,定时向Hadoop中的HDFS导入前一天产生的日志文件,并加载日志文件数据到hive中的步骤;hive数据加载完成后,再次设置系统定时器CRON,定时更新hive元数据,启动Impala查询程序,提取hive元数据并计算统计指标的步骤;完成上述计算统计后,再次设置系统定时器CRON,定时从HDFS导出统计指标数据到数据库,方便以后查询的步骤。实现提高数据处理效率的优点。

【技术实现步骤摘要】

本专利技术涉及互联网领域,具体地,涉及一种Impala 基于Hadoop集群日志分析方法和系统。
技术介绍
互联网的普及使得在当今高度信息化的社会里,web成为目前最大的信息系统。其中web日志中包含了大量的用户访问的信息,Web日志包含着网站最重要的信息,通过日志分析,可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。然而,Hadoop的Map/Reduce程序模型处于比较低的级别,开发者需要开发客户程序,而这些程序往往难于维护与重用,并且运行Map/ Reduce程序效率低下。
技术实现思路
本专利技术的目的在于,针对上述问题,提出一种Impala 基于Hadoop集群日志分析方法和系统,以实现提高数据处理效率的优点。为实现上述目的,本专利技术采用的技术方案是:一种Impala 基于Hadoop集群日志分析方法,包括,设置web服务器每天产生一个新的目录,目录下面产生多个由Application业务系统产生的日志文件的步骤;设置系统定时器CRON,定时向Hadoop中的HDFS导入前一天产生的日志文件,并加载日志文件数据到hive中的步骤;hive数据加载完成后,再次设置系统定时器CRON,定时更新hive元数据,启动Impala查询程序,提取hive元数据并计算统计指标的步骤;完成上述计算统计后,再次设置系统定时器CRON,定时从HDFS导出统计指标数据到数据库,方便以后查询的步骤。优选的,上述设置web服务器每天产生一个新的目录,目录下面产生多个由Application业务系统产生的日志文件的步骤中,每个日志文件的大小为64M。优选的,上述设置系统定时器CRON,定时向Hadoop中的HDFS导入前一天产生的日志文件中,系统定时器CRON设置为夜间0点以后。同时本专利技术技术方案还公开一种Impala 基于Hadoop集群日志分析系统,包括,日志采集模块、存储处理模块、查询分析模块和结果展示模块;所述日志采集模块:将各个前端web服务器中的日志传送到日志接收节点上,接收节点通过后台脚本将各个web服务器传送过来的日志导入到Hive;所述存储处理模块:存储日志文件数据,并将日志文件加载并映射成hive数据表;所述查询分析模块:接收用户发出的Impala查询请求,从而提供查询分析功能,并向结果展示模块返回查询结果;所述结果展示模块:负责向Impala提交用户的查询请求,并且将Impala返回的查询结果表现出来,供用户查看。优选的,所述日志采集模块中日志的传送方式采用rsync的定时传送方式。优选的,所述结果展示模块表现查询结果的形式包括,图表或表格。优选的,所述存储处理模块中, Hadoop的HDFS用来存储数据。本专利技术的技术方案具有以下有益效果:本专利技术技术方案实时在线分析存储在Hdfs上的海量日志数据,得到网站的的PV值(PageView,页面访问量)、独立IP数,可以计算得出用户所检索的关键词排行榜、用户停留时间最高的页面等并通过使用Impala类SQL语句的方式查询获取对应的分析结果。达到提高数据处理效率的目的。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为本专利技术实施例所述的Impala 基于Hadoop集群日志分析方法的原理框图;图2为本专利技术实施例所述的Impala 基于Hadoop集群日志分析系统的原理框图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。一种Impala 基于Hadoop集群日志分析方法,包括,设置web服务器每天产生一个新的目录,目录下面产生多个由Application业务系统产生的日志文件的步骤;设置系统定时器CRON,定时向Hadoop中的HDFS导入前一天产生的日志文件,并加载日志文件数据到hive中的步骤;hive数据加载完成后,再次设置系统定时器CRON,定时更新hive元数据,启动Impala查询程序,提取hive元数据并计算统计指标的步骤;完成上述计算统计后,再次设置系统定时器CRON,定时从HDFS导出统计指标数据到数据库,方便以后查询的步骤。如图1所示,左边是Application业务系统,右边是Hadoop的HDFS, YARN, Hive和Impala。1、日志是由业务系统产生的,可以设置web服务器每天产生一个新的目录,目录下面会产生多个日志文件,每个日志文件64M。2、设置系统定时器CRON,夜间在0点后,向HDFS导入昨天的日志文件,加载数据到hive中。3、完成加载后,设置系统定时器,更新hive元数据,启动Impala查询程序,提取并计算统计指标。4、完成计算后,设置系统定时器,从HDFS导出统计指标数据到数据库,方便以后的即使查询。如图2所示,一种Impala 基于Hadoop集群日志分析系统,包括,日志采集模块、存储处理模块、查询分析模块和结果展示模块;日志采集模块:将各个前端web服务器中的日志传送到日志接收节点上,接收节点通过后台脚本将各个web服务器传送过来的日志导入到Hive;存储处理模块:存储日志文件数据,并将日志文件加载并映射成hive数据表;查询分析模块:接收用户发出的Impala查询请求,从而提供查询分析功能,并向结果展示模块返回查询结果;结果展示模块:负责向Impala提交用户的查询请求,并且将Impala返回的查询结果表现出来,供用户查看。具体的:日志采集模块:负责将各个前端web服务器中的日志传送到日志接收节点上。日志的传送方式采用rsync的定时传送方式,每天定时的将各个服务器中的日志传送到接收节点。接收节点通过后台脚本将各个服务器传送过来的日志导入到Hive。存储处理模块:Hadoop的HDFS用来存储实际的数据,并且具体执行由Hive提交的map-reduce任务,将hdfs上的日志文件加载到并映射成hive数据表。查询分析模块:查询分析模块和的存储处理模块在一个集群系统中部署完成。在实际的架构中,Hive部署在Hadoop集群中的NameNode,也即master节点上,在功能上将它们分成两个模块来分别描述。查询模块主要完成两方面的功能:首先,将日志采集模块中的日志数据结构化到的数据库中去,将每个网站的日志数据映射成Hive数据库表;其次,接收用户发出的Impala查询请求来提供大规模的查询分析功能,并向结果输出模块返回查询结果。Impala的查询处理过程:接收客户端连接的Impalad即作为这次查询的Coordinator,Coordinator对用户的查询SQL进行分析生成执行计划树,不同的操作对应不同的PlanNode,如:SelectNode、ScanNode、SortNode等,执行计划树的每个原子操作由一个Plan Fragment 表示,通常一条查询语句由多个Plan Fragment组成,Plan Fragment 0表示执行树的根,汇聚结果返回给用户,执行树的叶子节点一般是scan操作,分布式执行。结果展示模块:负责向Impala提交用户的查询本文档来自技高网...

【技术保护点】
一种Impala 基于Hadoop集群日志分析方法,其特征在于,包括,设置web服务器每天产生一个新的目录,目录下面产生多个由Application业务系统产生的日志文件的步骤;设置系统定时器CRON,定时向Hadoop中的HDFS导入前一天产生的日志文件,并加载日志文件数据到hive中的步骤;hive数据加载完成后,再次设置系统定时器CRON,定时更新hive元数据,启动Impala查询程序,提取hive元数据并计算统计指标的步骤;完成上述计算统计后,再次设置系统定时器CRON,定时从HDFS导出统计指标数据到数据库,方便以后查询的步骤。

【技术特征摘要】
1.一种Impala 基于Hadoop集群日志分析方法,其特征在于,包括,设置web服务器每天产生一个新的目录,目录下面产生多个由Application业务系统产生的日志文件的步骤;设置系统定时器CRON,定时向Hadoop中的HDFS导入前一天产生的日志文件,并加载日志文件数据到hive中的步骤;hive数据加载完成后,再次设置系统定时器CRON,定时更新hive元数据,启动Impala查询程序,提取hive元数据并计算统计指标的步骤;完成上述计算统计后,再次设置系统定时器CRON,定时从HDFS导出统计指标数据到数据库,方便以后查询的步骤。2.根据权利要求1所述的Impala 基于Hadoop集群日志分析方法,其特征在于,上述设置web服务器每天产生一个新的目录,目录下面产生多个由Application业务系统产生的日志文件的步骤中,每个日志文件的大小为64M。3.根据权利要求1或2所述的Impala 基于Hadoop集群日志分析方法,其特征在于,上述设置系统定时器CRON,定时向Hadoop中的HDFS导入前一天产生的日志文件中,系统定时器CRON设置为夜间0点以后。4...

【专利技术属性】
技术研发人员:肖松林
申请(专利权)人:用友网络科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1