【技术实现步骤摘要】
本专利技术涉及数据处理的
,具体说是一种基于HBase的Map任务进度计算方法。
技术介绍
HBase是基于Hadoop大数据平台的一种开源分布式列数据库,主要用来存储数据和随机查询,同时也支持MapReduce的计算模式。MapReduce提供了一个Job(作业)进度计算的基本功能,但其实现方式只是用已经完成的MapTask的任务总数除以该总的MapTask数,但每个MapTask也会处理一定数据量的记录,这些进度并没有反应出来,而只有0%和100%两个进度状态。因而,外部使用者通过进度状态无法了解MapTask的精确进度,也无法准确预估任务的完成时间,所以对于任务执行中的效率高低情况,也不能快速了解,从而对程序的进一步优化造成障碍。
技术实现思路
本专利技术要解决的技术问题是提供一种基于HBase的Map任务进度计算方法。本专利技术为解决公知技术中存在的技术问题所采取的技术方案是:本专利技术的基于HBase的Map任务进度计算方法,在存储中构造rowkey时,对应每个Map任务给定一段连续递增的rowkey范围;将一个Map任务的rowkey范围记为[r0,r1],而执行Map任务过程中,将当前读取到数据的rowkey记为rx;通过以下公式计算即可得到该Map任务的进度:。本专利技术还可以采用以下技术措施:Map任务执行过程中,每一时刻都具有唯一的rowkey。构造rowkey时,使用一个l ...
【技术保护点】
一种基于HBase的Map任务进度计算方法,其特征在于:在存储中构造rowkey时,对应每个Map任务给定一段连续递增的rowkey范围;将一个Map任务的rowkey范围记为[r0,r1],而执行Map任务过程中,将当前读取到数据的rowkey记为rx;通过以下公式计算即可得到该Map任务的进度:。
【技术特征摘要】
1.一种基于HBase的Map任务进度计算方法,其特征在于:在存储中构造rowkey时,对应
每个Map任务给定一段连续递增的rowkey范围;将一个Map任务的rowkey范围记为[r0,r1],
而执行Map任务过程中,将当前读取到数据的rowkey记为rx;通过以下公式计算即可得到该
Map任务的进度:。
...
【专利技术属性】
技术研发人员:庞晓曦,杨伟锋,
申请(专利权)人:天津海量信息技术有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。