The present invention provides a method and system for real-time computation of the cardinality estimation based on probability and statistics theory, can efficiently based on the cardinality estimation calculation, so as to meet the real-time data base scene computing needs. The method comprises the following steps in the Storm system: real-time access to log messages; the log message to obtain the index information, the index index information includes the name of each index and the corresponding value; estimation algorithm for cardinality estimation of each index by using the HLL base; output of each index base.
【技术实现步骤摘要】
基于实时计算的基数估计的方法和系统
本专利技术涉及计算机技术及软件领域,尤其涉及一种基于实时计算的基数估计的方法和系统。
技术介绍
基数计数是对一个可重复集合中不重复元素个数的计算。例如计算整个网站或店铺的独立访客等。在大数据的背景下,传统的基数计算方法遇到一些困难,主要表现在随着数据量和分析维度的增加,所需的计算资源和存储资源迅速膨胀。因此需要一种高效的基数估计机制。基数估计算法是一类概率算法,可以在误差可控的前提下以远低于精确计算的时间和空间消耗对基数进行估计。算法特点:1.误差可控2.时间和空间复度仅与估计值标准差及基数上限有关3.可合并。现有的基数估计计算通常采用Redis的HyperLogLogCounting功能,完成对基数的估计计数。其中,但是利用Redis的HyperLogLogCounting进行基数估计计算仍然存在如下缺点:Redis并没有实现基数算法的可合并特性,导致大数据量下处理能力不可扩展;由于将整个计算环节交给Redis进行处理,系统和Redis形成强依赖关系;此外,搭建Redis集群也产生较大的运营成本。
技术实现思路
有鉴于此,本专利技术提供一种基于实时计算的基数估计的方法和系统,能够基于概率和统计理论进行高效的基数估计计算,从而满足大数据场景的实时基数计算需求。为实现上述目的,根据本专利技术的一个方面,提供了一种基于实时计算的基数估计的方法。本专利技术的基于实时计算的基数估计的方法包括在Storm系统中的执行下列步骤:实时获取日志消息;解析所述日志消息以获取指标信息,所述指标信息包括各指标的名称及对应的指标值;利用HLL基数估 ...
【技术保护点】
一种基于实时计算的基数估计的方法,其特征在于,包括,在Storm系统中的执行下列步骤:实时获取日志消息;解析所述日志消息以获取指标信息,所述指标信息包括各指标的名称及对应的指标值;利用HLL基数估计算法对各指标进行基数估计;输出各指标的基数。
【技术特征摘要】
1.一种基于实时计算的基数估计的方法,其特征在于,包括,在Storm系统中的执行下列步骤:实时获取日志消息;解析所述日志消息以获取指标信息,所述指标信息包括各指标的名称及对应的指标值;利用HLL基数估计算法对各指标进行基数估计;输出各指标的基数。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:解析所述日志消息之后,对获取的指标信息进行校验,以删除异常指标信息。3.根据权利要求1所述的方法,其特征在于,利用HLL基数估计算法对各指标进行基数估计还包括:将所述指标信息随机分配至基数估计计算层的多个线程,各线程根据分配到的指标信息,为各指标创建HLL对象,利用HLL基数估计算法中的Offer方法将各指标的指标值加入到对应的HLL对象中,然后定时将HLL对象发送到基数集合合并层;以及所述基数集合合并层接收HLL对象,并按各HLL对象的指标名称创建各指标的总HLL对象,然后利用HLL算法中的Merge方法将HLL对象按照指标名称合并到各自对应的总HLL对象中,以及定时利用HLL算法中的Cardinality方法对各指标的总HLL对象进行计数,以获得各指标的基数。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:所述HLL对象及所述总HLL对象均保存在位于其所在服务器内存中的LRUmap中。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:定时将总HLL对象保存至外部的数据库。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:定时...
【专利技术属性】
技术研发人员:王向长,邵先凯,李威,张鹏,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。