一种用户定义函数UDF运行情况的处理方法及系统技术方案

技术编号:14901966 阅读:129 留言:0更新日期:2017-03-29 17:22
一种用户定义函数UDF运行情况的处理方法,其能够以在线的方式自动收集UDF运行状态,定时输出数据报表,量化了UDF调用情况。该方法包括:(1)在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;(2)对处理数据量以及调用次数、成功次数以及失败次数做计数;(3)在TASK执行结束之前,在CLOSE方法中把步骤(1)和(2)收集到的信息持久化,存储到mysql数据库;(4)根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。还有一种用户定义函数UDF运行情况的处理系统。

Method and system for processing user defined function UDF running condition

A user-defined function UDF operation of the processing method, which can automatically collect UDF running state in an online manner, the timing of the output data statements, quantified the UDF call. The method comprises the following steps: (1) in the HIVE computing operations, each calculation operation JOB contains N task TASK, JOBID TASKID, collect and calculate the operation, implementation of the start time, executives, IP address, the name of the job, the end of time; (2) do count the amount of data processing and the number of calls and success the number and the number of failures; (3) TASK before the end of the execution, the CLOSE method in the step (1) and (2) the persistence information collected, stored in the MySQL database; (4) according to the stored data in the MySQL database, the statistical analysis of timing of each UDF execution state and output data report. There is also a user-defined function UDF operating system.

【技术实现步骤摘要】

本专利技术涉及大数据处理的
,尤其涉及一种用户定义函数UDF运行情况的处理方法,以及用户定义函数UDF运行情况的处理系统。
技术介绍
HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。在HIVE平台上做大数据计算时通用会使用到UDF(User-DefinedFunctions,用户定义函数),主要是由于UDF非常灵活易用,用户可以在UDF中实现非常复杂的逻辑运算,在某些情况下UDF具有不可替代的作用。然而在UDF发布之后,其运行情况非常难以掌握,完全不知道其是否运行正常,成功率如何、被哪些用户所使用等等问题都无从得知,所以要想持续提升UDF的稳定性和正确性,必须有一种手段把UDF的用户状况反馈出来,包括每一个UDF的调用频率、调用次数,以及成功率、失败率等的统计分析,拿到这些数据之后,才能够有针对性地去实施提升UDF的稳定性等一系列的优化方案。目前对于UDF的处理相对简单,大部分情况下等待用户的直接反馈,有问题通过人员线下沟通,或者离线测试来保证UDF的质量,还没有在线的技术手段来反馈UDF的执行状态,无法掌握真实的UDF运行数据,所以导致UDF发布之后基本不可控,也无法有针对性地实施优化方案。
技术实现思路
为克服现有技术的缺陷,本专利技术要解决的技术问题是提供了一种用户定义函数UDF运行情况的处理方法,其能够以在线的方式自动收集UDF运行状态,定时输出数据报表,量化了UDF调用情况。本专利技术的技术方案是:这种用户定义函数UDF运行情况的处理方法,该方法包括以下步骤:(1)在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;(2)对处理数据量以及调用次数、成功次数以及失败次数做计数;(3)在TASK执行结束之前,在CLOSE方法中把步骤(1)和(2)收集到的信息持久化,存储到mysql数据库;(4)根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。本专利技术通过建立一套完善的存储结构,把UDF运行过程中的信息全部收集回来,通过JOBID把分布式计算中的各TASK关联起来,进而做相关统计分析,推出UDF相关运行报表明细,所以能够以在线的方式自动收集UDF运行状态,定时输出数据报表,量化了UDF调用情况。还提供了一种用户定义函数UDF运行情况的处理系统,该系统包括:静态信息收集模块,其配置来在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;动态信息收集模块,其配置来对处理数据量以及调用次数、成功次数以及失败次数做计数;存储模块,其配置来在TASK执行结束之前,在CLOSE方法中把静态信息收集模块和动态信息收集模块收集到的信息持久化,存储到mysql数据库;处理输出模块,其配置来根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。附图说明图1所示为根据本专利技术的用户定义函数UDF运行情况的处理方法的流程图。具体实施方式如图1所示,这种用户定义函数UDF运行情况的处理方法,该方法包括以下步骤:(1)在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;(2)对处理数据量以及调用次数、成功次数以及失败次数做计数;(3)在TASK执行结束之前,在CLOSE方法中把步骤(1)和(2)收集到的信息持久化,存储到mysql数据库;(4)根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。本专利技术通过建立一套完善的存储结构,把UDF运行过程中的信息全部收集回来,通过JOBID把分布式计算中的各TASK关联起来,进而做相关统计分析,推出UDF相关运行报表明细,所以能够以在线的方式自动收集UDF运行状态,定时输出数据报表,量化了UDF调用情况。另外,在HIVE平台下执行SQL的过程中使用该方法。本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本专利技术的方法相对应的,本专利技术还同时包括一种用户定义函数UDF运行情况的处理系统,该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统包括:静态信息收集模块,其配置来在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;动态信息收集模块,其配置来对处理数据量以及调用次数、成功次数以及失败次数做计数;存储模块,其配置来在TASK执行结束之前,在CLOSE方法中把静态信息收集模块和动态信息收集模块收集到的信息持久化,存储到mysql数据库;处理输出模块,其配置来根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。另外,在HIVE平台下执行SQL的过程中使用该系统。本专利技术的有益效果如下:1.以在线的方式自动收集UDF运行状态;2.定时输出数据报表,量化了UDF调用情况。以上所述,仅是本专利技术的较佳实施例,并非对本专利技术作任何形式上的限制,凡是依据本专利技术的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本专利技术技术方案的保护范围。本文档来自技高网...
一种用户定义函数UDF运行情况的处理方法及系统

【技术保护点】
一种用户定义函数UDF运行情况的处理方法,其特征在于:该方法包括以下步骤:(1)在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;(2)对处理数据量以及调用次数、成功次数以及失败次数做计数;(3)在TASK执行结束之前,在CLOSE方法中把步骤(1)和(2)收集到的信息持久化,存储到mysql数据库;(4)根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。

【技术特征摘要】
1.一种用户定义函数UDF运行情况的处理方法,其特征在于:该方法包括以下步骤:(1)在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;(2)对处理数据量以及调用次数、成功次数以及失败次数做计数;(3)在TASK执行结束之前,在CLOSE方法中把步骤(1)和(2)收集到的信息持久化,存储到mysql数据库;(4)根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。2.根据权利要求1所述的用户定义函数UDF运行情况的处理方法,其特征在于:在HIVE平台下执行SQL的过程中使用该方法。3.一种用户定义函数UDF运行情况的处...

【专利技术属性】
技术研发人员:温宗臣张翼何良均范卫卫冯森林李冰曾攀严亮张书凡张飞翔
申请(专利权)人:北京集奥聚合科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1