【技术实现步骤摘要】
一种实时判断大数据或流数据分布密度集中程度的方法
大数据或流数据分析。
技术介绍
互联网,移动通讯,导航,网游,感应技术和大规模计算基础设施每天产生海量数据。大数据就是由于其巨大规模,快速变化及增长速度而超出了传统数据库系统的处理能力及传统分析方法的分析能力的数据。流数据是不断被发送器发送和接收器接收的数据。流数据可以是感应器采集并且不断给计算设备或电子设备传送的实时数据。通常包括陆续接收有时间间隔,具有相似格式的数据元素。流数据也可以是从存储器不停被读出的数据,例如存在多个计算设备存储器的大数据集。如何高效实时并节省资源地处理和分析大数据或流数据是一个挑战。处理大数据或流数据可包括在多个数据元素上做计算。所以,一个接收流数据元素的计算设备通常含有一个缓冲区来存储一些数据元素。处理流数据元素可包括访问保存在缓冲区的数据元素。当做流数据元素的统计计算时,缓冲区可以很大。例如,当计算峰度时,一些(可能很多)数据元素需要被访问。此外,流数据处理算法可以延伸到大数据处理上,因为大数据集随着时间积累并且可以被认为是不规律时间段的数据流。对于大数据集或流数据处理,有些统计计算会重新被计算当大数据集有变化或新的流数据元素被接收。因此,一些(可能很多)数据元素会被重复访问。例如,有可能峰度在含有最新的n个数据元素的计算子集上被计算。当一个新的数据元素被接收时,把那个新的数据元素加到计算子集里。然后访问所有计算子集里的n+1个数据元素去重新计算峰度。当在所有n+1个数据元素上重新计算峰度 ...
【技术保护点】
1.一种,由基于一台或多台计算设备构成的计算系统实现的,实时地判断大数据或流数据分布密度集中程度的方法,其特征在于:/n由基于计算设备的一个计算系统,为存储于该计算系统上一个或多个存储设备上的一个数据集的或一个数据流的一个调整前计算子集,初始化一个计算子集规模计数器n(n≥1),为该调整前计算子集初始化一个和或一个平均值或一个和及一个平均值,以及峰度的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数;/n由基于计算设备的该计算系统,访问或接收一个要加入该调整前计算子集的数据元素;/n由基于计算设备的该计算系统,调整该调整前计算子集,通过:/n向该调整前计算子集加入要加入的数据元素及更新该计算子集规模计数器;/n由基于计算设备的该计算系统,为调整后计算子集增量计算一个和或一个平均值或一个和及一个平均值;/n由基于计算设备的该计算系统,至少基于调整前计算子集的峰度的那一个或多个除了和及平均值之外的其它组件,为调整后计算子集直接增量计算峰度的一个或多个组件,这里的增量计算一个或多个组件包括:/n访问加入的数据元素从而避免访问调整后计算子集中 ...
【技术特征摘要】
1.一种,由基于一台或多台计算设备构成的计算系统实现的,实时地判断大数据或流数据分布密度集中程度的方法,其特征在于:
由基于计算设备的一个计算系统,为存储于该计算系统上一个或多个存储设备上的一个数据集的或一个数据流的一个调整前计算子集,初始化一个计算子集规模计数器n(n≥1),为该调整前计算子集初始化一个和或一个平均值或一个和及一个平均值,以及峰度的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数;
由基于计算设备的该计算系统,访问或接收一个要加入该调整前计算子集的数据元素;
由基于计算设备的该计算系统,调整该调整前计算子集,通过:
向该调整前计算子集加入要加入的数据元素及更新该计算子集规模计数器;
由基于计算设备的该计算系统,为调整后计算子集增量计算一个和或一个平均值或一个和及一个平均值;
由基于计算设备的该计算系统,至少基于调整前计算子集的峰度的那一个或多个除了和及平均值之外的其它组件,为调整后计算子集直接增量计算峰度的一个或多个组件,这里的增量计算一个或多个组件包括:
访问加入的数据元素从而避免访问调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;
访问调整前计算子集的峰度的那一个或多个除了和及平均值之外的其它组件;以及
基于被加入的数据元素,数学地加入被加入的数据元素对该组件的任何贡献从而避免调整后计算子集中的所有数据元素都被用来直接增量计算峰度的一个或多个组件来提高计算效率;以及
由基于计算设备的该计算系统,基于一个或多个为调整后计算子集增量计算的组件,为调整后计算子集生成峰度。
2.按照权利要求1所述的由计算系统实现的方法,其特征在于:所述访问或接收一个要加入该调整前计算子集的数据元素包括访问或接收多个要加入该调整前计算子集的数据元素,该方法也进一步包括对于多个要加入的数据元素中的每一个数据元素进行调整计算子集,为调整后计算子集增量计算和或平均值或和及平均值,以及直接增量计算峰度的一个或多个除了和及平均值之外的其它组件。
3.按照权利要求1所述的由计算系统实现的方法,其特征在于:所述访问或接收一个要加入该调整前计算子集的数据元素包括访问或接收多个要加入该调整前计算子集的数据元素,该方法也进一步包括对于多个要加入的数据元素中的每一个数据元素进行调整计算子集,为调整后计算子集增量计算和或平均值或和及平均值,直接增量计算峰度的一个或多个除了和及平均值之外的其它组件,以及为调整后计算子集生成峰度。
4.按照权利要求3所述的由计算系统实现的方法,其特征在于:所述为调整后计算子集生成峰度进一步包括由基于计算设备的该计算系统为调整后计算子集间接增量计算峰度的一个或多个组件,间接增量计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
5.一个计算系统,其特征在于:
一个或多个处理器;
一个或多个存储媒体;以及
一个或多个计算模块,当该一个或多个计算模块被该一个或多个处理器中的至少一个处理器执行时,实时地判断大数据或流数据分布密度集中程度,其步骤包括:
a.为存储于该一个或多个存储设备上的一个数据集的或一个数据流的一个调整前计算子集,初始化一个计算子集规模计数器n(n≥1),该调整前计算子集初始化一个和或一个平均值或一个和及一个平均值,以及峰度的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数;
b.访问或接收一个要加入到该调整前计算子集的数据元素...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。