【技术实现步骤摘要】
一种实时判断大数据或流数据变化同向性及其程度的方法
大数据或流数据分析。
技术介绍
互联网,移动通讯,导航,网游,感应技术和大规模计算基础设施每天产生海量数据。大数据就是由于其巨大规模,快速变化及增长速度而超出了传统数据库系统的处理能力及传统分析方法的分析能力的数据。流数据是不断被发送器发送和接收器接收的数据。流数据可以是感应器采集并且不断给计算设备或电子设备传送的实时数据。通常包括陆续接收有时间间隔,具有相似格式的数据元素。流数据也可以是从存储器不停被读出的数据,例如存在多个计算设备存储器的大数据集。如何高效实时并节省资源地处理和分析大数据或流数据是一个挑战。协方差是一个随机变量随另一个随机变量变化的数值度量。当两个随机变量的协方差大于零时,说明随机变量偏离其期望值的方向相同;当协方差小于零时,随机变量偏离其期望值的方向相反;协方差等于零,则随机变量偏离期望值的方向没有关系。协方差绝对值大小可反映同向性程度。因此基于协方差实时判断流数据变化同向性及其程度显而易见,而困难和挑战在于如何实时地在流数据上计算协方差。处理大数据或流数据可包括在多个数据元素上做计算。所以,一个接收流数据元素的计算设备通常含有一个缓冲区来存储一些数据元素。处理流数据元素可包括访问保存在缓冲区的数据元素。当做流数据元素的统计计算时,缓冲区可以很大。例如,当计算协方差时,一些(可能很多)数据元素需要被访问。此外,流数据处理算法可以延伸到大数据处理上,因为大数据集随着时间积累并且可以被认为是不规律时间段的数据
【技术保护点】
1.一种,由基于一台或多台计算设备构成的计算系统实现的,实时地判断大数据或流数据协方差程度的方法,其特征在于:/n由基于计算设备的一个计算系统,为存储于该计算系统上一个或多个存储设备上的至少一个数据集的或至少一个数据流的一个调整前计算子集,初始化一个计算子集规模计数器n(n>1),为该调整前计算子集中的每个变量初始化一个和或一个平均值或一个和及一个平均值,以及协方差的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数;/n由基于计算设备的该计算系统,访问或接收一个要加入该调整前计算子集的数据元素对;/n由基于计算设备的该计算系统,调整该调整前计算子集,通过:/n向该调整前计算子集加入要加入的数据元素对及更新该计算子集规模计数器;/n由基于计算设备的该计算系统,为调整后计算子集中的每个变量增量计算一个和或一个平均值或一个和及一个平均值;/n由基于计算设备的该计算系统,至少基于调整前计算子集的协方差的那一个或多个除了和及平均值之外的其它组件,为调整后计算子集直接增量计算协方差的一个或多个组件,这里的增量计算一个或多个组件包括:/n访问 ...
【技术特征摘要】
1.一种,由基于一台或多台计算设备构成的计算系统实现的,实时地判断大数据或流数据协方差程度的方法,其特征在于:
由基于计算设备的一个计算系统,为存储于该计算系统上一个或多个存储设备上的至少一个数据集的或至少一个数据流的一个调整前计算子集,初始化一个计算子集规模计数器n(n>1),为该调整前计算子集中的每个变量初始化一个和或一个平均值或一个和及一个平均值,以及协方差的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数;
由基于计算设备的该计算系统,访问或接收一个要加入该调整前计算子集的数据元素对;
由基于计算设备的该计算系统,调整该调整前计算子集,通过:
向该调整前计算子集加入要加入的数据元素对及更新该计算子集规模计数器;
由基于计算设备的该计算系统,为调整后计算子集中的每个变量增量计算一个和或一个平均值或一个和及一个平均值;
由基于计算设备的该计算系统,至少基于调整前计算子集的协方差的那一个或多个除了和及平均值之外的其它组件,为调整后计算子集直接增量计算协方差的一个或多个组件,这里的增量计算一个或多个组件包括:
访问加入的数据元素对从而避免访问调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;
访问调整前计算子集的协方差的那一个或多个除了和及平均值之外的其它组件;以及
基于被加入的数据元素对,数学地加入被加入的数据元素对对该组件的任何贡献从而避免调整后计算子集中的所有数据元素都被用来直接增量计算协方差的一个或多个组件来提高计算效率;以及
由基于计算设备的该计算系统,基于一个或多个为调整后计算子集增量计算的组件,为调整后计算子集生成至少两个变量的协方差。
2.按照权利要求1所述的由计算系统实现的方法,其特征在于:所述访问或接收一个要加入该调整前计算子集的数据元素对包括访问或接收多个要加入该调整前计算子集的数据元素对,该方法也进一步包括对于多个要加入的数据元素对中的每一个数据元素对进行调整计算子集,为调整后计算子集中的每个变量增量计算和或平均值或和及平均值,以及直接增量计算协方差的一个或多个除了和及平均值之外的其它组件。
3.按照权利要求1所述的由计算系统实现的方法,其特征在于:所述访问或接收一个要加入该调整前计算子集的数据元素对包括访问或接收多个要加入该调整前计算子集的数据元素对,该方法也进一步包括对于多个要加入的数据元素对中的每一个数据元素对进行调整计算子集,为调整后计算子集中的每个变量增量计算和或平均值或和及平均值,直接增量计算协方差的一个或多个除了和及平均值之外的其它组件,以及为调整后计算子集生成协方差。
4.按照权利要求3所述的由计算系统实现的方法,其特征在于:所述为调整后计算子集生成协方差进一步包括由基于计算设备的该计算系统为调整后计算子集间接增量计算协方差的一个或多个组件,间接增量计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。
5.一个计算系统,其特征在于:
一个或多个处理器;
一个或多个存储媒体;以及
一个或多个计算模块,当该一个或多个计算模块被该一个或多个处理器中的至少一个处理器执行时,实时地判断大数据或流数据的协方差程度,其步骤包括:
a.为存储于该一个或多个存储设备上的至少一个数据集的或至少一个数据流的一个调整前计算子集,初始化一个计算子集规模计数器n(n>1),该调整前计算子集中的每个变量初始化一个和或一个平均值或一个和及一个平均值,以及协方差的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数;
b.访问或接收一个要加入到该调整前计算子集的数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。