一种时序数据的数据周期测定方法及系统技术方案

技术编号:34488912 阅读:13 留言:0更新日期:2022-08-10 09:07
一种时序数据的数据周期测定方法及系统,其包括采用滑动窗口信息熵的周期测定方法,获得数据序列周期的候选值;采用质因数分解的方法,对所述候选值进行筛选以得到数据序列的最小周期,其解决了现有的周期测定方法存在着易受噪音点异常点的影响、处理稀疏型周期数据效果不理想、依赖于人工先验周期知识、无法处理具有多周期的时序数据等方面的缺陷,且本发明专利技术具有较强的泛化能力,可广泛应用于大数据处理领域。领域。领域。

【技术实现步骤摘要】
一种时序数据的数据周期测定方法及系统


[0001]本专利技术涉及大数据处理领域,尤其是涉及一种时序数据的数据周期测定方法及系统。

技术介绍

[0002]在大数据时代的当下,各行各业需要进行挖掘和监测的数据规模越来越庞大,数据种类越来越复杂,在这些数据中时序数据占据相当大的比重,而实际生产生活中的时序数据经常会重复出现一些相同或相似的模式,即周期性,这些数据的周期性往往蕴含着巨大的价值,由此便进一步催生出对数据周期测定方法的需要。然而目前大多数周期测定方法比如基于自相关函数的方法以及基于周期图的方法已经不适应于当下的环境,不同的业务场景下数据采集模式数据采集粒度各不相同导致难以人为设置一些先验周期知识,噪声点异常点的干扰,无法处理多周期数据等等一系列现实因素的限制使得人们迫切需要一套新的周期测定方法。
[0003]虽然对于信息熵用作周期测定已有一定应用先例,但通过对现有信息熵测定周期方法调研,现有方法是通过已采集好的数据序列直接计算其信息熵从而反映出在某一时间段内数据序列的信息变化强度,并由此进行频域测算从而推断数据序列周期值大小。这样的方法隐藏三种缺陷,第一,易受数据采集过程中噪声点的干扰从而造成在对原本周期的误判,第二,这种误判在对具有多种周期的序列数据进行周期测定时,会更易造成较大的误差,并且由于预测误差的增大导致无法测算准确的最小周期,导致在测算出多倍数周期时误差进一步被放大,第三,这种方法只能作用于静态数据,而对于动态数据的周期测算却是无能为力的,尤其是在对于含噪动态时序数据的周期测算方面展现出较大的误差。

技术实现思路

[0004]为解决上述技术问题,本专利技术提供一种时序数据的数据周期测定方法及系统。
[0005]本申请实施例的第一方面提供了一种时序数据的数据周期测定方法,其包括:
[0006]采用滑动窗口信息熵的周期测定方法,获得数据序列周期的候选值;
[0007]采用质因数分解的方法,对所述候选值进行筛选以得到数据序列的最小周期。
[0008]优选的,所述滑动窗口信息熵的周期测定方法,具体通过以下方式实现:
[0009]通过在时序数据的数据序列上进行窗口滑动从而获得各窗口内数据的信息熵;
[0010]根据信息熵判断各窗口内所包含数据序列的信息熵的波动情况,得到二维图像;
[0011]根据所述二维图像确定数据序列周期的候选值。
[0012]优选的,所述二维图像的获取,具体通过以下方式实现:
[0013]通过计算对应窗口大小下所得信息熵的方差从而反映出在该窗口大小下窗口滑动时窗口内所包含数据序列的信息熵的波动情况,以画出信息熵方差与其对应窗口大小的二维图像;
[0014]优选的,所述信息熵的波动情况,具体通过以下方式判断:
[0015]当窗口大小等于数据序列周期大小时,窗口内所包含的数据序列的信息熵波动趋于稳定,从而在方差的值上表现为较小的方差,反之窗口内所包含的数据序列的信息熵波动较为剧烈,从而在方差的值上表现为较大的方差。
[0016]优选的,对所述候选值进行筛选,具体通过以下方式实现:
[0017]判断所述候选值是否为质数,若所述候选值为质数,则为数据序列的最小周期,若所述候选值非质数,则对所述候选值进行质因数分解。
[0018]优选的,所述质因数分解方法,具体通过以下方式实现:
[0019]将所述候选值除以其最小质因数所得结果作为窗口大小,在此值领域内继续应用滑动窗口信息熵的周期测定方法,若所得信息熵方差在周期窗口大小下信息熵阈值领域内,则继续进行质因数分解,否则将其最后一次质因数分解前的窗口大小作为数据序列的最小周期。
[0020]本申请的第二方面提供了一种时序数据的数据周期测定系统,包括:
[0021]周期测定模块:用于采用滑动窗口信息熵的周期测定方法,获得数据序列周期的候选值;
[0022]周期筛选模块:用于采用质因数分解的方法,对所述候选值进行筛选以得到数据序列的最小周期。
[0023]本专利技术通过利用周期性时序数据序列在周期与滑动窗口大小相等时窗口内数据序列信息熵基本相同的特性,利用信息熵的方差来反映窗口滑动时信息熵波动情况,并通过基于质因数分解的最小周期测定方法进一步从候选周期值中确定数据序列的最小周期值,具有较强的泛化能力,可用于各种现实场景中的对于数据周期测定需要,不依赖于特定数据模式、数据种类,与现有传统周期测定方法,比如基于自相关函数的时域方法、基于周期图的频域方法,克服了它们在易受噪音点异常点的影响、处理稀疏型周期数据效果不理想、依赖于人工先验周期知识、无法处理具有多周期的时序数据等方面的缺陷。
附图说明
[0024]图1为本申请一实施例提供的一种时序数据的数据周期测定方法的流程示意图;
[0025]图2为本申请一实施例提供的周期测定方法的流程示意图;
[0026]图3为图2所示实施例提供的周期测定方法的具体流程示意图;
[0027]图4为本申请一实施例提供的质因数分解方法的流程示意图。
具体实施方式
[0028]为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0029]请参阅图1,为本申请一实施例提供的一种时序数据的数据周期测定方法的流程示意图,为了便于说明,仅示出了与本实施例相关的部分,详述如下:
[0030]在其中一实施例中,一种时序数据的数据周期测定方法,其包括:
[0031]S101:采用滑动窗口信息熵的周期测定方法,获得数据序列周期的候选值。
[0032]其中,如图2所示,基于滑动窗口信息熵的周期测定方法采用以下步骤实现:
[0033]S1011:通过在时序数据的数据序列上进行窗口滑动从而获得各窗口内数据的信息熵。
[0034]具体地,如图3所示,通过对所截取时序数据的数据序列进行观察,得到一个必然大于数据周期的值T
max
和一个必然小于数据周期的值T
min
从而得到数据周期的范围[T
min
,T
max
],然后初始化窗口大小W0=T
min
,并针对所要测定的数据特征选取合适的滑动步长S,窗口大小增量

W,测定当前窗口下的数据的信息熵,并通过滑动窗口测定整个数据序列下每一个窗口内的数据的信息熵。
[0035]S1012:根据信息熵判断各窗口内所包含数据序列的信息熵的波动情况,得到二维图像。
[0036]具体地,通过计算对应窗口大小下所得信息熵的方差,从而反映出在该窗口大小下窗口滑动时窗口内所包含数据序列的信息熵的波动情况,给当前窗口大小加上窗口大小增量

W改变窗口大小后再次计算整个时序数据序列的信息熵的方差,利用窗口大小和对应的信息熵方差绘制直角坐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时序数据的数据周期测定方法,其特征在于,包括:采用滑动窗口信息熵的周期测定方法,获得数据序列周期的候选值;采用质因数分解的方法,对所述候选值进行筛选以得到数据序列的最小周期。2.根据权利要求1所述的一种时序数据的数据周期测定方法,其特征在于,所述滑动窗口信息熵的周期测定方法,具体通过以下方式实现:通过在时序数据的数据序列上进行窗口滑动从而获得各窗口内数据的信息熵;根据信息熵判断各窗口内所包含数据序列的信息熵的波动情况,得到二维图像;根据所述二维图像确定数据序列周期的候选值。3.根据权利要求2所述的一种时序数据的数据周期测定方法,其特征在于,所述二维图像的获取,具体通过以下方式实现:通过计算对应窗口大小下所得信息熵的方差从而反映出在该窗口大小下窗口滑动时窗口内所包含数据序列的信息熵的波动情况,以画出信息熵方差与其对应窗口大小的二维图像。4.根据权利要求3所述的一种时序数据的数据周期测定方法,其特征在于,所述信息熵的波动情况,具体通过以下方式判断:当窗口大小等于数据序列周期大小时,窗口内所包含的数据序列的信息...

【专利技术属性】
技术研发人员:王佰玲张力仁王凯刘扬刘红日
申请(专利权)人:威海天之卫网络空间安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1