The present invention provides a method and device for constructing histogram variance optimization, the method of setting the number of sample K and the number of histogram buckets according to the memory size and query accuracy of B, a new element appears, the number of samples in K, memory space data optimization method to on-line data sampling according to the memory space; data optimization, dynamic optimization of variance histogram construction; the device comprises the optimization unit and construction unit. The technical scheme provided by the invention reduces the influence of the data scale and the distribution characteristic, and can effectively reduce the interval retrieval error caused by the uneven data or the uneven distribution of the data.
【技术实现步骤摘要】
一种方差优化直方图的构建方法和装置
本专利技术涉及大数据计算领域,具体讲涉及一种方差优化直方图的构建方法和装置。
技术介绍
大数据时代以海量、高速为特点的流数据成为热门研究方向,同时实时处理和分析流数据的应用需求也呈爆炸式增长。例如,2015年天猫“双十一”峰值交易值达到了8.59万笔/秒,是2014年“双十一”峰值3.85万笔/秒的2.23倍,蚂蚁花呗在开售1分钟成功交易的订单总量达到了52万笔,飞行状态下的波音737的引擎每小时产生近20TB的数据,又如网络监测、网络流量分析、事务日志分析和股票行情、交易等,越来越多的应用需要对高速海量的流式数据进行高精度的实时分析。作为大规模流数据计算的常用模型之一的数据概要结构,其可以通过单遍扫描数据,在远小于数据规模的内存空间里不断更新压缩数据,利用概要技术提取所有数据的概要信息,并快速获得数据的分布特征。典型的概要技术包括直方图法、小波法和抽样法等。采用直方图表示的概要技术方法既可直观、简洁的描述大数据集的分布特征,又可以快速返回近似聚合计算结果,同时还可以极大的减少网络传输的数据量。按照直方图桶边界划分方法将直方图分为等宽直方图、等深直方图、压缩直方图、方差优化直方图等。在大规模数据的聚合计算中,方差优化直方图在构造过程中各桶的方差和最小,相较于其他直方图而言,聚合查询的结果更加精准。传统方差优化直方图是采用动态规划算法对离线数据构建的直方图,需要O(B·n2)时间复杂度,其中n为当前数据的总数,B为直方图桶的总数。现有技术中,在流数据环境下构建方差优化直方图时,需要的时间复杂度为O(n·(B/∈)2logn ...
【技术保护点】
一种方差优化直方图的构建方法,其特征在于,所述方法包括:按内存大小和查询精度设定样本数目K和直方图桶的个数B,有新元素出现时,对新出现的元素进行预处理,同时为使样本数目保持在K,以在线数据采样方法优化内存空间的数据样本;根据优化的内存空间数据样本,动态构建方差优化直方图。
【技术特征摘要】
1.一种方差优化直方图的构建方法,其特征在于,所述方法包括:按内存大小和查询精度设定样本数目K和直方图桶的个数B,有新元素出现时,对新出现的元素进行预处理,同时为使样本数目保持在K,以在线数据采样方法优化内存空间的数据样本;根据优化的内存空间数据样本,动态构建方差优化直方图。2.如权利要求1所述的方法,其特征在于,所述新元素为K+1个元素,对所述K+1个新元素进行方差优化处理时,按下式计算最小采样代价Cost:式中,wi和wj:分别表示样本i、j的值,且wi+wj<τ且i<j;wm:表示样本m的值;若wi<wj,则将wi累加到wj上,同时删除样本i;若wi>wj,则将wj累加到wi上,同时删除样本j。3.如权利要求1所述的方法,其特征在于,所述新元素为K+1个元素,对所述K+1个元素进行方差优化处理时,按下述方法选取满足min(wi+wj)的两个相邻样本i,j:若wi<wj,则将wi累加到wj上,同时删除样本i;若wi>wj,则将wj累加到wi上,同时删除样本j。4.如权利要求1所述的方法,其特征在于,还包括小顶堆H,当前抽样阈值τ,累计值Lsum,数据样本个数Lcount;所述小顶堆H的最大值为K,所述抽样阈值τ、累计值Lsum,数据样本个数Lcount的初始数据都为0;对所述新出现的元素进行预处理包括:1)若该新元素的值小于当前抽样阈值τ,则将该元素的值累加到Lsum,同时将Lcount的值加1;2)当新元素大于当前抽样阈值τ时,将该新元素存储到小顶堆H中:若小顶堆H中元素数目达到限定的最大数据样本数目K,或小顶堆H中的最小元素小于当前抽样阈值τ,则将小顶堆H中最小元素的值累加到Lsum中,同时将Lcount的值加1,并删除小顶堆H中的最小元素,调整小顶堆H结构;将抽样阈值τ更新为τ=Lsum′/Lcount′,其中,Lsum′:添加元素值后的样本;Lcount′:添加新元素后的样本数据个数。5.如权利要求1所述的方法,其特征在于,所述动态构建方差优化直方图包括:按序平均将K...
【专利技术属性】
技术研发人员:史亮,王勇,张鸿,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。