A user-defined function UDF operation of the processing method, which can automatically collect UDF running state in an online manner, the timing of the output data statements, quantified the UDF call. The method comprises the following steps: (1) in the HIVE computing operations, each calculation operation JOB contains N task TASK, JOBID TASKID, collect and calculate the operation, implementation of the start time, executives, IP address, the name of the job, the end of time; (2) do count the amount of data processing and the number of calls and success the number and the number of failures; (3) TASK before the end of the execution, the CLOSE method in the step (1) and (2) the persistence information collected, stored in the MySQL database; (4) according to the stored data in the MySQL database, the statistical analysis of timing of each UDF execution state and output data report. There is also a user-defined function UDF operating system.
【技术实现步骤摘要】
本专利技术涉及大数据处理的
,尤其涉及一种用户定义函数UDF运行情况的处理方法,以及用户定义函数UDF运行情况的处理系统。
技术介绍
HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。在HIVE平台上做大数据计算时通用会使用到UDF(User-DefinedFunctions,用户定义函数),主要是由于UDF非常灵活易用,用户可以在UDF中实现非常复杂的逻辑运算,在某些情况下UDF具有不可替代的作用。然而在UDF发布之后,其运行情况非常难以掌握,完全不知道其是否运行正常,成功率如何、被哪些用户所使用等等问题都无从得知,所以要想持续提升UDF的稳定性和正确性,必须有一种手段把UDF的用户状况反馈出来,包括每一个UDF的调用频率、调用次数,以及成功率、失败率等的统计分析,拿到这些数据之后,才能够有针对性地去实施提升UDF的稳定性等一系列的优化方案。目前对于UDF的处理相对简单,大部分情况下等待用户的直接反馈,有问题通过人员线下沟通,或者离线测试来保证UDF的质量,还没有在线的技术手段来反馈UDF的执行状态,无法掌握真实的UDF运行数据,所以导致UDF发布之后基本不可控,也无法有针对性地实施优化方案。
技术实现思路
为克服现有技术的缺陷,本专利技术要解决的技术问题是提供了一种用户定义函数UDF运行情 ...
【技术保护点】
一种用户定义函数UDF运行情况的处理方法,其特征在于:该方法包括以下步骤:(1)在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;(2)对处理数据量以及调用次数、成功次数以及失败次数做计数;(3)在TASK执行结束之前,在CLOSE方法中把步骤(1)和(2)收集到的信息持久化,存储到mysql数据库;(4)根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。
【技术特征摘要】
1.一种用户定义函数UDF运行情况的处理方法,其特征在于:该方法包括以下步骤:(1)在HIVE执行计算作业时,每一个计算作业JOB包含N个任务TASK,收集计算作业的JOBID、TASKID、执行开始时间、执行人员、IP地址、作业名称、结束时间;(2)对处理数据量以及调用次数、成功次数以及失败次数做计数;(3)在TASK执行结束之前,在CLOSE方法中把步骤(1)和(2)收集到的信息持久化,存储到mysql数据库;(4)根据mysql数据库中存储的数据,定时统计分析出每一个UDF的执行状态,并输出数据报表。2.根据权利要求1所述的用户定义函数UDF运行情况的处理方法,其特征在于:在HIVE平台下执行SQL的过程中使用该方法。3.一种用户定义函数UDF运行情况的处...
【专利技术属性】
技术研发人员:温宗臣,张翼,何良均,范卫卫,冯森林,李冰,曾攀,严亮,张书凡,张飞翔,
申请(专利权)人:北京集奥聚合科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。