当前位置: 首页 > 专利查询>吕纪竹专利>正文

一种实时判断大数据或流数据变化同向性及其程度的方法技术

技术编号:26170911 阅读:37 留言:0更新日期:2020-10-31 13:40
协方差可用于判断大数据或流数据变化同向性及其程度。本发明专利技术公开了一种通过增量计算计算集的协方差从而可以实时地判断大数据或流数据协方差程度的方法,系统和计算设备程序产品。本发明专利技术的实施方案包括基于调整前计算集的协方差的二个以上组件增量计算调整后计算集的协方差的二个以上组件,然后根据需要基于增量计算的二个以上组件生成调整后计算集的协方差。增量计算协方差可以基于最新数据实时更新计算结果并避免访问调整后计算集中的所有数据元素对和执行重复计算从而提高计算效率,节省计算资源和降低计算系统能耗,使得实时判断大数据或流数据协方差程度高效低耗及一些场景下实时判断大数据或流数据协方差程度从不可能变为可能。

【技术实现步骤摘要】
一种实时判断大数据或流数据变化同向性及其程度的方法
大数据或流数据分析。
技术介绍
互联网,移动通讯,导航,网游,感应技术和大规模计算基础设施每天产生海量数据。大数据就是由于其巨大规模,快速变化及增长速度而超出了传统数据库系统的处理能力及传统分析方法的分析能力的数据。流数据是不断被发送器发送和接收器接收的数据。流数据可以是感应器采集并且不断给计算设备或电子设备传送的实时数据。通常包括陆续接收有时间间隔,具有相似格式的数据元素。流数据也可以是从存储器不停被读出的数据,例如存在多个计算设备存储器的大数据集。如何高效实时并节省资源地处理和分析大数据或流数据是一个挑战。协方差是一个随机变量随另一个随机变量变化的数值度量。当两个随机变量的协方差大于零时,说明随机变量偏离其期望值的方向相同;当协方差小于零时,随机变量偏离其期望值的方向相反;协方差等于零,则随机变量偏离期望值的方向没有关系。协方差绝对值大小可反映同向性程度。因此基于协方差实时判断流数据变化同向性及其程度显而易见,而困难和挑战在于如何实时地在流数据上计算协方差。处理大数据或流数据可包括在多个数据元素上做计算。所以,一个接收流数据元素的计算设备通常含有一个缓冲区来存储一些数据元素。处理流数据元素可包括访问保存在缓冲区的数据元素。当做流数据元素的统计计算时,缓冲区可以很大。例如,当计算协方差时,一些(可能很多)数据元素需要被访问。此外,流数据处理算法可以延伸到大数据处理上,因为大数据集随着时间积累并且可以被认为是不规律时间段的数据流。对于大数据集或流数据处理,有些统计计算会重新被计算当大数据集有变化或新的流数据元素被接收。因此,一些(可能很多)数据元素会被重复访问。例如,有可能协方差在含有最新的n对数据元素的计算子集上被计算。当一对新的数据元素(一个独立数据元素和一个因变量数据元素)被接收时,把那对新的数据元素加到计算子集里。然后访问所有计算子集里的2n+2个数据元素去重新计算协方差。当在所有2n+2个数据元素上重新计算协方差时,计算子集里所有的2n+2个数据元素会被访问和使用,计算协方差的时间复杂度通常是O(n)。这样,每当计算子集有变化时,计算子集里的每对数据元素都会为计算协方差被访问。根据需要,计算子集规模n可能非常大,因此数据元素可以分配到含有成百上千个计算设备的云上。数据有改变后,在大数据或流数据上重新计算协方差耗时并浪费资源。
技术实现思路
本专利技术拓展到方法,系统和计算设备程序产品以增量方式计算协方差从而可以在调整计算子集规模后实时地判断大数据或流数据变化同向性及其程度。为一个调整后计算子集增量计算协方差包括增量计算大数据或流数据的协方差的三个以上组件,然后根据需要基于一个或多个增量计算的组件计算协方差。增量计算协方差只需要接收/访问和使用新增加的数据元素对,这不仅避免在计算子集中访问所有数据而且也避免像传统方法那样保留整个计算子集,因此时间复杂度以及空间复杂度都被降低从而使得实时判断大数据或流数据变化同向性及其程度能够高效低耗地完成。初始化一个计算子集规模计数器以及协方差的三个以上组件。计算系统可根据需要基于初始化的组件来生成调整前计算子集的协方差。计算系统访问一对新的大数据元素或接收一对新的流数据元素。计算系统根据需要把接收的数据元素对存储到一或两个数据缓冲区里。计算系统通过把访问或接收的新数据元素对加入调整前计算子集里并且把计算子集规模加1来调整调整前计算子集。计算系统增量计算调整后计算子集的协方差的三个以上组件。计算系统根据需要基于一个以上增量计算过的组件来生成调整后计算子集的协方差,即,协方差可以在接收多对数据元素而不仅是一对数据元素后被生成。计算系统可以持续地访问或接收新数据元素对,调整调整前计算子集,调整计算子集规模的计数器,增量计算一个以上组件,根据需要基于增量计算过的一个或多个组件生成协方差,并根据需要重复以上这个过程。本简述是以简化的方式介绍一些选择的概念,它们将在下面被进一步详细描述。本简述即不是为了鉴定权利要求的主题的关键特点或必要特点,也不是为了用于帮助确认权利要求的主题所包括的范围。本专利技术的其它特征和优点将在下面的描述中体现出来,会部分地从描述中明显体现,或从本专利技术的实践中学到。本专利技术的特征和优点可从附加的权利要求书中特别指出的方法设备及其组合中实现和得到。本专利技术的这些和其它特征将在下面的描述和附加的权利要求书或本专利技术的实践中变得更加全面清晰。附图说明为描述能够获得本专利技术的上述的和其它的优点和特点的方式,上面简述的本专利技术的一个更具体的描述将通过参照附加的图表中所显示的特定的实施方案来展现出来。本专利技术将通过下列的图表更加详细和具体地来描述和解释,请理解这些图表只是描述了本专利技术的典型实施方案,因此它们不应被理解为对本专利技术的范围的限制:图1图示了一个支持增量计算协方差的例子计算系统的高层概括。图1-1图示了一个为流数据增量计算协方差的支持两个输入数据流并且所有组件都是直接增量计算的计算系统架构的例子。图1-2图示了一个为流数据增量计算协方差,支持两个输入数据流并且部分组件直接增量计算,部分组件间接增量计算的计算系统架构的例子。图1-3图示了一个流数据增量计算协方差,支持由两个数据流中的数据元素交叉组成的单输入数据流并且所有组件都是直接增量计算的计算系统架构的例子。图1-4图示了一个为流数据增量计算协方差,支持由两个数据流中的数据元素交叉组成的单输入数据流,并且部分组件直接增量计算,部分组件间接增量计算的计算系统架构的例子。图1-5图示了一个为大数据增量计算协方差的支持两个数据集并且所有组件都是直接增量计算的计算系统架构的例子。图1-6图示了一个为大数据增量计算协方差,支持两个数据集并且部分组件直接增量计算,部分组件间接增量计算的计算系统架构的例子。图1-7图示了一个大数据增量计算协方差,支持由两个数据集的数据元素交叉组成的单输入数据集并且所有组件都是直接增量计算的计算系统架构的例子。图1-8图示了一个为大数据增量计算协方差,支持由两个数据集中的数据元素交叉组成的单输入数据集,并且部分组件直接增量计算,部分组件间接增量计算的计算系统架构的例子。图2图示了一个为大数据或流数据增量计算协方差的方法流程图的例子。图3-1图示了在流数据上为增量计算协方差计算窗口中被访问的数据元素。图3-2图示了在大数据上为增量计算协方差计算子集中被访问的数据元素。图4-1图示了协方差的定义以及计算子集上计算协方差的传统方程。图4-2显示了第一个协方差增量计算算法(增量算法1)。图4-3显示了第二个协方差增量计算算法(增量算法2)。图4-4显示了第三个协方差增量计算算法(增量算法3)。图5-1显示了用于一个计算实例的第一个计算子集。图5-2显示了用于一个计算实例的第二个计算子集。...

【技术保护点】
1.一种,由基于一台或多台计算设备构成的计算系统实现的,实时地判断大数据或流数据协方差程度的方法,其特征在于:/n由基于计算设备的一个计算系统,为存储于该计算系统上一个或多个存储设备上的至少一个数据集的或至少一个数据流的一个调整前计算子集,初始化一个计算子集规模计数器n(n>1),为该调整前计算子集中的每个变量初始化一个和或一个平均值或一个和及一个平均值,以及协方差的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数;/n由基于计算设备的该计算系统,访问或接收一个要加入该调整前计算子集的数据元素对;/n由基于计算设备的该计算系统,调整该调整前计算子集,通过:/n向该调整前计算子集加入要加入的数据元素对及更新该计算子集规模计数器;/n由基于计算设备的该计算系统,为调整后计算子集中的每个变量增量计算一个和或一个平均值或一个和及一个平均值;/n由基于计算设备的该计算系统,至少基于调整前计算子集的协方差的那一个或多个除了和及平均值之外的其它组件,为调整后计算子集直接增量计算协方差的一个或多个组件,这里的增量计算一个或多个组件包括:/n访问加入的数据元素对从而避免访问调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;/n访问调整前计算子集的协方差的那一个或多个除了和及平均值之外的其它组件;以及/n基于被加入的数据元素对,数学地加入被加入的数据元素对对该组件的任何贡献从而避免调整后计算子集中的所有数据元素都被用来直接增量计算协方差的一个或多个组件来提高计算效率;以及/n由基于计算设备的该计算系统,基于一个或多个为调整后计算子集增量计算的组件,为调整后计算子集生成至少两个变量的协方差。/n...

【技术特征摘要】
1.一种,由基于一台或多台计算设备构成的计算系统实现的,实时地判断大数据或流数据协方差程度的方法,其特征在于:
由基于计算设备的一个计算系统,为存储于该计算系统上一个或多个存储设备上的至少一个数据集的或至少一个数据流的一个调整前计算子集,初始化一个计算子集规模计数器n(n>1),为该调整前计算子集中的每个变量初始化一个和或一个平均值或一个和及一个平均值,以及协方差的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数;
由基于计算设备的该计算系统,访问或接收一个要加入该调整前计算子集的数据元素对;
由基于计算设备的该计算系统,调整该调整前计算子集,通过:
向该调整前计算子集加入要加入的数据元素对及更新该计算子集规模计数器;
由基于计算设备的该计算系统,为调整后计算子集中的每个变量增量计算一个和或一个平均值或一个和及一个平均值;
由基于计算设备的该计算系统,至少基于调整前计算子集的协方差的那一个或多个除了和及平均值之外的其它组件,为调整后计算子集直接增量计算协方差的一个或多个组件,这里的增量计算一个或多个组件包括:
访问加入的数据元素对从而避免访问调整后计算子集中的所有数据元素来降低数据访问延迟,节省计算资源和降低能耗;
访问调整前计算子集的协方差的那一个或多个除了和及平均值之外的其它组件;以及
基于被加入的数据元素对,数学地加入被加入的数据元素对对该组件的任何贡献从而避免调整后计算子集中的所有数据元素都被用来直接增量计算协方差的一个或多个组件来提高计算效率;以及
由基于计算设备的该计算系统,基于一个或多个为调整后计算子集增量计算的组件,为调整后计算子集生成至少两个变量的协方差。


2.按照权利要求1所述的由计算系统实现的方法,其特征在于:所述访问或接收一个要加入该调整前计算子集的数据元素对包括访问或接收多个要加入该调整前计算子集的数据元素对,该方法也进一步包括对于多个要加入的数据元素对中的每一个数据元素对进行调整计算子集,为调整后计算子集中的每个变量增量计算和或平均值或和及平均值,以及直接增量计算协方差的一个或多个除了和及平均值之外的其它组件。


3.按照权利要求1所述的由计算系统实现的方法,其特征在于:所述访问或接收一个要加入该调整前计算子集的数据元素对包括访问或接收多个要加入该调整前计算子集的数据元素对,该方法也进一步包括对于多个要加入的数据元素对中的每一个数据元素对进行调整计算子集,为调整后计算子集中的每个变量增量计算和或平均值或和及平均值,直接增量计算协方差的一个或多个除了和及平均值之外的其它组件,以及为调整后计算子集生成协方差。


4.按照权利要求3所述的由计算系统实现的方法,其特征在于:所述为调整后计算子集生成协方差进一步包括由基于计算设备的该计算系统为调整后计算子集间接增量计算协方差的一个或多个组件,间接增量计算该一个或多个组件包括基于要计算的组件之外的一个或多个组件来逐个分别计算该一个或多个组件。


5.一个计算系统,其特征在于:
一个或多个处理器;
一个或多个存储媒体;以及
一个或多个计算模块,当该一个或多个计算模块被该一个或多个处理器中的至少一个处理器执行时,实时地判断大数据或流数据的协方差程度,其步骤包括:
a.为存储于该一个或多个存储设备上的至少一个数据集的或至少一个数据流的一个调整前计算子集,初始化一个计算子集规模计数器n(n>1),该调整前计算子集中的每个变量初始化一个和或一个平均值或一个和及一个平均值,以及协方差的除了和及平均值之外的一个或多个其它组件,该计算子集规模计数器指定了该调整前计算子集包含的数据元素个数;
b.访问或接收一个要加入到该调整前计算子集的数...

【专利技术属性】
技术研发人员:吕纪竹
申请(专利权)人:吕纪竹
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1