一种基于符号转移熵数据统计分析方法技术

技术编号:22055670 阅读:40 留言:0更新日期:2019-09-07 15:23
本发明专利技术公开了一种基于符号转移熵数据统计分析方法,本发明专利技术所采用的技术方案是转移熵对参数有着较高的协调性要求,对噪声也较为敏感,于是又有了基于符号化技术的新办法,即符号转移熵STE,STE是一个量化两个时间序列相关程度或混沌程度的参数,它反映了两个时间序列的相关程度或混乱程度,STE值越大,不确定性较大,表示序列混乱程度大,相反,STE值越小,不确定性较小,表示序列相关程度好,STE算法相对于TE来说,降低了参数之间的协调性要求,计算方便快速,适合实时处理,还降低了对噪声的敏感度,具有一定的抗干扰能力。

A Statistical Analysis Method of Data Based on Symbol Transfer Entropy

【技术实现步骤摘要】
一种基于符号转移熵数据统计分析方法
本专利技术属于海洋学
,涉及一种基于符号转移熵数据统计分析方法。
技术介绍
经典的统计分析方法一般把场要素作为一定条件下的随机变量用“静态”的相关方法来研究。但是,海洋是有规律的不停地运动着的,表征海洋运动的各种要素是动态的变量,必然存在自身的演变规律。时间序列分析正是研究随机变量的“动态”的统计特征和规律的有效方法。用这种方法可以从海洋演变的全过程中来寻找其规律性。这种在演变过程中随时间变化的随机变量,称为随机过程(或随机函数)。时间序列分析就是建立在随机过程理论上的分析方法,多用于对时间序列作自回归模型及其预报方面。
技术实现思路
本专利技术的目的在于提供一种基于符号转移熵数据统计分析方法,本专利技术所采用的技术方案是相对熵库尔巴克散度:是两个随机分布之间距离的度量。对于单个状态j,有:将j求和,就有:对于有联合概率分布pIJ(i,j)的两个过程I和J,若两个系统相互独立,便有:用互信息来量化两个过程独立性的偏差情况,是一种很自然的方式,但是,当交换I和J时,MIJ是对称的,不包含任何方向的信息,若在其中一个变量的计算上引入时间延迟,那么互信息就可以在某种程度上获得一定的方向信息,如:信源的熵率:其中,想要研究多个过程之间的动力学信息,可以将熵率的应用推广到多个系统,因为过程的动力学信息是包含在转移概率里的,最直接的方式是通过将hI推广到两个过程(I,J)来构造互信息率,相应的库尔巴克熵在交换I和J时仍然是对称的,这就有当I和J相互独立时,便有:因此,可以得到转移熵TE:但是,转移熵对参数有着较高的协调性要求,对噪声也较为敏感,于是又有了基于符号化技术的新办法,即符号转移熵STE,STE是一个量化两个时间序列相关程度或混沌程度的参数,它反映了两个时间序列的相关程度或混乱程度,STE值越大,不确定性较大,表示序列混乱程度大,相反,STE值越小,不确定性较小,表示序列相关程度好,STE算法相对于TE来说,降低了参数之间的协调性要求,计算方便快速,适合实时处理,还降低了对噪声的敏感度,具有一定的抗干扰能力。进一步:1)序列符号化分析将原始的时间序列数据划分成一系列区间,根据原始数据落在那个区间,就将原始数据符号化为对应的符号,从而将一个连续的模拟的序列转化为符号化的序列,时间序列一般在时域研究或者相空间中研究,混沌时间序列研究是在相空间中进行的,所以对涡旋及叶绿素浓度时间序列的处理要首先进行相空间重构,相空间重构有两种方法:导数重构法、延迟时间重构法。把原始信号经符号化、编码后得到的一维离散时间序列拓展到m维空间的过程就是相空间重构,这对非线性动力学应用是至关重要的步骤,相空间重构的过程也就是动力系统重建的过程,采取坐标延迟相空间重构法,假设两个参数间无关联,分别计算延迟时间和嵌入维数的值;2)延迟时间在相空间重构的过程中,延迟时间的选取通常采用互信息法,互信息法是一种有效方法,互信息法是自相关函数法求延迟时间的优化方法,延迟时间确定的办法是:不断变化延迟时间求互信息,当互信息第一次达到最小时,将该延迟时间作为相空间重构的延迟时间;3)嵌入维数一般来说,重构相空间的嵌入维数是越大越好的,越大能够确保几何结构完全被打开,当嵌入维数增大到一定程度的时候,几何结构已经完全打开,这时再继续增大嵌入维数除了增加计算量之外,几何变量没有变化,所以考虑到计算量的问题,通常选取最小嵌入维数即可,证明m≥2d+1,d是吸引子的分形维数,在实际计算时,通常是计算关联维数D,李氏指数等几何不变量,选好延迟时间后,不断增加嵌入维数直至吸引子的几何不变量停止变化为止,在实际计算中,嵌入维数的值选取在3-7之间;4)相空间重构Takens定理说明:由一维的原始序列及其延时序列构成的维数合适的相空间中,系统的动力学特征可由此空间中点的演化轨迹表达出来,这个空间就成为重构的相空间,采取目前非常成熟的计算延迟时间的互信息函数法,延迟时间取10,选择好延迟时间后,增加嵌入维数,不断计算直到几何不变量停止变化为止,维数的值在3-7之间。具体实施方式下面结合具体实施方式对本专利技术进行详细说明。熵(entropy)通常用来衡量系统的混乱程度,在通信领域中表示不确定性。相对熵库尔巴克散度:是两个随机分布之间距离的度量。对于单个状态j,有:将j求和,就有:对于有联合概率分布pIJ(i,j)的两个过程I和J,若两个系统相互独立,便有:这时相应的库尔巴克熵就变成了著名的互信息公式。可见,用互信息来量化两个过程独立性的偏差情况,是一种很自然的方式。但是,当交换I和J时,MIJ是对称的,不包含任何方向的信息。若在其中一个变量的计算上引入时间延迟,那么互信息就可以在某种程度上获得一定的方向信息,如:信源的熵率:其中,想要研究多个过程之间的动力学信息,可以将熵率的应用推广到多个系统,因为过程的动力学信息是包含在转移概率里的,最直接的方式是通过将hI推广到两个过程(I,J)来构造互信息率。相应的库尔巴克熵在交换I和J时仍然是对称的。这就有当I和J相互独立时,便有:因此,可以得到转移熵TE(TransferEntropy):但是,转移熵对参数有着较高的协调性要求,对噪声也较为敏感,于是又有了基于符号化技术的新办法,即符号转移熵STE(SymbolicTransferEntropy)。STE是一个量化两个时间序列相关程度或混沌程度的参数,它反映了两个时间序列的相关程度或混乱程度,STE值越大,不确定性较大,表示序列混乱程度大。相反,STE值越小,不确定性较小,表示序列相关程度好。STE算法相对于TE来说,降低了参数之间的协调性要求,计算方便快速,适合实时处理,还降低了对噪声的敏感度,具有一定的抗干扰能力。这些特点极大的促进了STE在时间序列分析中的应用。随着非线性动力学理论的发展,STE利用符号化技术降低了参数协调性要求,利用相空间重构技术近似模拟了高维非线性动力学系统,算法简单,运算量小。该方法的关键集中在如下几个方面:1)序列符号化分析符号动力学是上个世纪20年代逐渐发展起来的数学理论。随着混沌现象研究的深入,符号动力学研究逐渐成为了分析混沌现象和各种复杂序列的重要方法。时间序列符号化分析是从符号动力学理论、混沌时间序列分析理论和信息理论发展起来的一种分析方法。为信号分析提供了一种既快速又简便高效的处理方法。符号化实质是把连续信号根据某种规则划分成几个区间,这样把许多连续的可能值变换为仅有几个互不相同的离散值的符号序列。虽然这个过程原始序列丢失了一些细节信息,但是动力学特征并没有丢失,能捕获大尺度信息,降低动力学噪声和测量噪声的影响。这个过程也叫做“粗粒化”。将原始的时间序列数据划分成一系列区间,根据原始数据落在那个区间,就将原始数据符号化为对应的符号,从而将一个连续的模拟的序列转化为符号化的序列。时间序列一般在时域研究或者相空间中研究,混沌时间序列研究是在相空间中进行的,所以对涡旋及叶绿素浓度时间序列的处理要首先进行相空间重构。相空间重构有两种方法:导数重构法、延迟时间重构法。把原始信号经符号化、编码后得到的一维离散时间序列拓展到m维空间的过程就是相空间重构,这对非线性动力学应用是至关重要的步骤。相空间重构的过程也就是动力本文档来自技高网...

【技术保护点】
1.一种基于符号转移熵数据统计分析方法,其特征在于:相对熵库尔巴克散度:

【技术特征摘要】
1.一种基于符号转移熵数据统计分析方法,其特征在于:相对熵库尔巴克散度:是两个随机分布之间距离的度量。对于单个状态j,有:将j求和,就有:对于有联合概率分布pIJ(i,j)的两个过程I和J,若两个系统相互独立,便有:用互信息来量化两个过程独立性的偏差情况,是一种很自然的方式,但是,当交换I和J时,MIJ是对称的,不包含任何方向的信息,若在其中一个变量的计算上引入时间延迟,那么互信息就可以在某种程度上获得一定的方向信息,如:信源的熵率:其中,想要研究多个过程之间的动力学信息,可以将熵率的应用推广到多个系统,因为过程的动力学信息是包含在转移概率里的,最直接的方式是通过将hI推广到两个过程(I,J)来构造互信息率,相应的库尔巴克熵在交换I和J时仍然是对称的,这就有当I和J相互独立时,便有:因此,可以得到转移熵TE:但是,转移熵对参数有着较高的协调性要求,对噪声也较为敏感,于是又有了基于符号化技术的新办法,即符号转移熵STE,STE是一个量化两个时间序列相关程度或混沌程度的参数,它反映了两个时间序列的相关程度或混乱程度,STE值越大,不确定性较大,表示序列混乱程度大,相反,STE值越小,不确定性较小,表示序列相关程度好,STE算法相对于TE来说,降低了参数之间的协调性要求,计算方便快速,适合实时处理,还降低了对噪声的敏感度,具有一定的抗干扰能力。2.按照权利要求1所述一种基于符号转移熵数据统计分析方法,其特征在于:1)序列符号化分析将原始的时间序列数据划分成一系列区间,根据原始数据落在那个区间,就将原始数据符号化为对应的符号,从而将一个连续的模拟的序列转化为符号化的序列,时间序列一般在时域研究或者相空间中...

【专利技术属性】
技术研发人员:张祥光汪嘉宁王凡李志乾姜海龙
申请(专利权)人:中国科学院海洋研究所青岛码云信息技术有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1