Impala基于Hadoop集群日志分析方法和系统技术方案

技术编号：13836908 阅读：60 留言：0更新日期：2016-10-15 20:40

本发明专利技术公开了一种Impala基于Hadoop集群日志分析方法和系统，其中，Impala基于Hadoop集群日志分析方法，包括，设置web服务器每天产生一个新的目录，目录下面产生多个由Application业务系统产生的日志文件的步骤；设置系统定时器CRON，定时向Hadoop中的HDFS导入前一天产生的日志文件,并加载日志文件数据到hive中的步骤；hive数据加载完成后，再次设置系统定时器CRON，定时更新hive元数据，启动Impala查询程序，提取hive元数据并计算统计指标的步骤；完成上述计算统计后，再次设置系统定时器CRON，定时从HDFS导出统计指标数据到数据库，方便以后查询的步骤。实现提高数据处理效率的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网领域，具体地，涉及一种Impala 基于Hadoop集群日志分析方法和系统。
技术介绍
互联网的普及使得在当今高度信息化的社会里，web成为目前最大的信息系统。其中web日志中包含了大量的用户访问的信息，Web日志包含着网站最重要的信息，通过日志分析，可以知道网站的访问量，哪个网页访问人数最多，哪个网页最有价值等。一般中型的网站(10W的PV以上)，每天会产生1G以上Web日志文件。大型或超大型的网站，可能每小时就会产生10G的数据量。然而，Hadoop的Map／Reduce程序模型处于比较低的级别，开发者需要开发客户程序，而这些程序往往难于维护与重用，并且运行Map/ Reduce程序效率低下。
技术实现思路
本专利技术的目的在于，针对上述问题，提出一种Impala 基于Hadoop集群日志分析方法和系统，以实现提高数据处理效率的优点。为实现上述目的，本专利技术采用的技术方案是：一种Impala 基于Hadoop集群日志分析方法，包括，设置web服务器每天产生一个新的目录，目录下面产生多个由Application业务系统产生的日志文件的步骤；设置系统定时器CRON，定时向Hadoop中的HDFS导入前一天产生的日志文件,并加载日志文件数据到hive中的步骤；hive数据加载完成后，再次设置系统定时器CRON，定时更新hive元数据，启动Impala查询程序，提取hive元数据并计算统计指标的步骤；完成上述计算统计后，再次设置系统定时器CRON，定时从HDFS导出统计指标数据到数据库，方便以后查询的步骤。优选的，上述设置web服务器每天产...

【技术保护点】
一种Impala 基于Hadoop集群日志分析方法，其特征在于，包括，设置web服务器每天产生一个新的目录，目录下面产生多个由Application业务系统产生的日志文件的步骤；设置系统定时器CRON，定时向Hadoop中的HDFS导入前一天产生的日志文件,并加载日志文件数据到hive中的步骤；hive数据加载完成后，再次设置系统定时器CRON，定时更新hive元数据，启动Impala查询程序，提取hive元数据并计算统计指标的步骤；完成上述计算统计后，再次设置系统定时器CRON，定时从HDFS导出统计指标数据到数据库，方便以后查询的步骤。

【技术特征摘要】
1.一种Impala 基于Hadoop集群日志分析方法，其特征在于，包括，设置web服务器每天产生一个新的目录，目录下面产生多个由Application业务系统产生的日志文件的步骤；设置系统定时器CRON，定时向Hadoop中的HDFS导入前一天产生的日志文件,并加载日志文件数据到hive中的步骤；hive数据加载完成后，再次设置系统定时器CRON，定时更新hive元数据，启动Impala查询程序，提取hive元数据并计算统计指标的步骤；完成上述计算统计后，再次设置系统定时器CRON，定时从HDFS导出统计指标数据到数据库，方便以后查询的步骤。2.根据权利要求1所述的Impala 基于Hadoop集群日志分析方法，其特征在于，上述设置web服务器每天产生一个新的目录，目录下面产生多个由Application业务系统产生的日志文件的步骤中，每个日志文件的大小为64M。3.根据权利要求1或2所述的Impala 基于Hadoop集群日志分析方法，其特征在于，上述设置系统定时器CRON，定时向Hadoop中的HDFS导入前一天产生的日志文件中，系统定时器CRON设置为夜间0点以后。4...

【专利技术属性】
技术研发人员：肖松林，
申请(专利权)人：用友网络科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人