一种健康体检生理时间序列数据的可视化表示方法、存储介质技术

技术编号:18497158 阅读:32 留言:0更新日期:2018-07-21 20:12
本发明专利技术提供一种健康体检生理时间序列数据的可视化表示方法,包括(1)SAX离散化:将长度为L的原始时间序列T进行标准化后划分为L/n个子区间,对每个子区间计算均值,然后使用SAX方法中的对应等概率高斯分布区间映射为相应的a个字符,即对应离散的a个区间;(2)构建马尔科夫转移矩阵:计算所述a个区间上的转移概率,得到a×a马尔科夫转移矩阵;(3)可视化:将所述a×a马尔科夫转移矩阵作为a×a带权重的邻接矩阵,得到a个节点的有向图复杂网络,采用可视化工具对所述有向图复杂网络进行图形化表示。本发明专利技术首次提出了将基于SAX的离散化方法用于时间序列的马尔科夫矩阵转化;首次将复杂网络与时间序列挖掘结合起来。

A visual representation method and storage medium for physical examination time series data

The present invention provides a visual representation method for physical time series data of physical examination, including (1) SAX discretization: the original time sequence T of L is normalized into a L/n sub interval, the mean of each sub interval is calculated, and then the corresponding Gauss distribution interval in the SAX method is mapped into phase. The corresponding a character, that is the corresponding discrete a interval; (2) constructing the Markoff transfer matrix: calculating the transfer probability on the a interval, obtaining the a x a Markoff transfer matrix; (3) visualization: the a * a Markoff transfer matrix is used as the adjacency matrix of a * a band weight, and the directed graph of a nodes is complicated. The visualization tool is used to represent the complex network of digraph. The invention is the first time to use the discretization method based on SAX to transform the Markoff matrix of time series; for the first time, the complex network is combined with the time series mining.

【技术实现步骤摘要】
一种健康体检生理时间序列数据的可视化表示方法、存储介质
本专利技术涉及一种健康体检生理时间序列数据的可视化表示方法。
技术介绍
时间序列数据广泛存在于科学研究、生产过程与金融服务等领域中,尤其是近年来随着信息技术的应用与发展,时间序列数据也呈现出爆发性增长的趋势,海量的数据处理与应用工作日益增多。对于健康体检领域来讲,ECG等时间序列是非常常见的生理数据。时间序列数据通常具有高维的特征,而且由于在产生过程中环境因素的影响,极易存在一定的噪声。因此,对于此类复杂数据进行研究,从而有效地挖掘和获取信息与知识,无论对于科学理论研究还是社会生产实践都具有重要的价值与意义。在大量的与时间序列数据有关的问题中,人们试图研究物理现象随时间动态变化的过程,并期望对时间序列数据进行分类、模式发现等任务处理。在对时间序列数据进行处理分析的过程中,时间序列数据的可视化是较为有效的方法之一,该方法将时间序列数据映射为可视图像或直观图形符号,这种映射大大方便了对原始数据的分析和解释过程,有利于揭示隐藏在数据中不易被直观发现的复杂物理现象。然而,数据测量、收集或求解过程所得到的数据量往往是海量的,由于时间序列具有高维特性,而且数据中往往存在大量的噪声信息,因此在数据挖掘和知识获取过程中,为了减少计算代价、提高数据挖掘与信息获取效率,往往需要对原始数据采用某种特征表示方法进行特征提取,以便于将原始时间序列数据映射到新的低维特征空间中,从而在保持和反映基本形态和信息的前提下,达到数据降维、去除噪声的目的。特征是隐含在数据集合中的任何有助于解释相应物理现象的信息。基于特征的表示方法是一种更简洁、更清晰、更具含义的代替原始数据的高级表示方法,所抽取的特征用于进一步分析及可视化过程。以可视化的方式来展现时间序列的预测结果可为终端用户带来极大的便利,为此,时间序列数据预测的可视化研究也成为热点之一。通过使用恰当的可视化方式可以对各种数据进行可视化处理,可视化后的数据,将使用户可以直观地发现数据特征与数据隐含的依赖关系,为数据分析人员提供很好的帮助。作为时间序列数据挖掘与分析处理任务的基础,时间序列的特征表示和相似性度量是热点问题之一。Pazzani和Agrawal研究小组较早开展相关的研究,UCR的Keogh小组做出了一系列创造性的研究工作。目前在该领域的研究过程中,已产生较多种特征提取及表示方法,如基于域变换的表示方法、符号化表示方法以及分段线性表示方法等。在已有的时间序列数据可视化研究方法中,AndrianaS.L.O.Campanharo,M.IrmakSirer,R.DeanMalmgren,FernandoM.Ramos,Lu1′sA.NunesAmaral于2011年所提出并发表在PLoSONE上的方法较为新颖简洁直观,该方法基于分位数算法将时间序列进行离散化特征表示,然后将其与网络图及马尔科夫转移矩阵相结合,在原始序列、离散化特征表示、网路图、转移概率矩阵之间建立联系,在时间序列与网络图之间建立关联,从而可以对时间序列进行网络化表示,进而以图的方式进行可视化展示。该方法的基本原理与过程如图1所示。图1所示的方法中分位数离散化的过程是,首先将根据时间序列的值域划分为a个区间,然后计算时间序列在这a个区间上的转移概率,随后将每个区间作为一个节点,转移概率作为权值,然后采用一定的算法将其转换为网络图,从而得到可视化的图形表示。时间序列本身固有的特征(复杂性、随机性、噪声、非线性等等)使得对其进行精确预测以及可视化变得相当困难。时间序列数据往往是高维的,可以通过特征压缩的方式将高维的数据压缩为低维的数据,从而达到可视化的目的。然而,很多特征压缩算法会导致分类信息的丢失,导致降维后数据分类能力的下降。采用分位数方法进行时间序列的离散化,进而进行可视化表示,思想简单直观,但存在的问题一方面是信息损失较大,另一方面是KL距离相对较大,即在反映原始时间序列方面精度存在偏差。
技术实现思路
本专利技术要解决的技术问题在于提供一种基于符号化特征表示的时间序列数据可视化表示方法,对于ECG等生理特征数据,在满足数据降维、去除噪声的前提下,尽可能降低信息损失,逼近精度更接近于原始数据分布,从而取得更好的可视化效果,并有利于分类与预测。为解决上述技术问题,本专利技术采用以下技术方案:一种健康体检生理时间序列数据的可视化表示方法,包括以下步骤:(1)SAX离散化:将长度为L的原始时间序列T进行标准化后划分为L/n个子区间,对每个子区间计算均值,然后使用SAX方法中的对应等概率高斯分布区间映射为相应的a个字符,即对应离散的a个区间;(2)构建马尔科夫转移矩阵:计算所述a个区间上的转移概率,得到a×a马尔科夫转移矩阵;(3)可视化:将所述a×a马尔科夫转移矩阵作为a×a带权重的邻接矩阵,得到a个节点的有向图复杂网络,采用可视化工具对所述有向图复杂网络进行图形化表示。所述步骤(1)中将原始时间序列转换为SAX表示的具体步骤为:a)原始时间序列规格化:将原始时间序列C={c1,c2,...,cn}转换为标准序列C′={c1′,c2′,...,cL′},标准序列C'的均值为0、标准差为1;其中,CL表示第L个时间序列的子序列;b)数据降维:利用公式对C'进行PAA表示,其中w为时间序列PAA表示的分段数,得到其中,其中ci′和cj′为标准序列的第i个和第j个子序列;c)离散化字符表示:依据选定大小的字母集,利用高斯分布表来查找区间分裂点,将PAA映射转换为相应字符,得到离散化目标字符串。所述步骤(3)中可视化工具采用Gephi复杂网络分析软件进行图形化表示。一种存储介质,所述存储器上存储有能够被处理器执行的指令,所述指令用于执行上述的方法。本专利技术的有益效果:1、首次提出了将基于SAX的离散化方法用于时间序列的马尔科夫矩阵转化;2、采用时间序列的马尔科夫矩阵转化方法定量研究ECG等生理数据时间序列的分类问题,架起时间序列数据挖掘与可视化分析之间的桥梁;3、首次将复杂网络与时间序列挖掘结合起来,为时间序列数据的挖掘与分析提供了新的工具与方向。附图说明图1为基于SAX离散化与马尔科夫转移矩阵的时间序列可视化方法的示意图。图2为本专利技术所采用的SAX表示方法对ECG数据处理的SAX离散化特征表示示意图。图3为本专利技术所采用的ECG数据集SAX离散化复杂网络图(1)。图4为本专利技术所采用的ECG数据集SAX离散化复杂网络图(2)。具体实施方式下面结合附图和具体实施方式对本专利技术作进一步详细说明。在时间序列数据的表示方法中,符号化表示是一种有效的离散化时间序列降维方法。由于字符型数据可以很好地描述一些难以使用具体定量数据来表示的问题,同时,由于字符串具有特定的数据结构以及众多较为成熟的算法,近年来研究者开始对时间序列的符号化表示方法进行研究和关注。其中,由Lin等人提出的SAX(SymbolicAggregateapproXimation,符号化聚合近似)方法被认为是一种最为典型的符号化表示方法。该方法基于PAA(PiecewiseAggregateApproximation,分段聚合近似)方法,将时间序列进行分段均值,之后将这些均值转化为离散化的字符表示,从而达到了降维降噪的目的,而本文档来自技高网
...

【技术保护点】
1.一种健康体检生理时间序列数据的可视化表示方法,其特征在于包括以下步骤:(1)SAX离散化:将长度为L的原始时间序列T进行标准化后划分为L/n个子区间,对每个子区间计算均值,然后使用SAX方法中的对应等概率高斯分布区间映射为相应的a个字符,即对应离散的a个区间;(2)构建马尔科夫转移矩阵:计算所述a个区间上的转移概率,得到a×a马尔科夫转移矩阵;(3)可视化:将所述a×a马尔科夫转移矩阵作为a×a带权重的邻接矩阵,得到a个节点的有向图复杂网络,采用可视化工具对所述有向图复杂网络进行图形化表示。

【技术特征摘要】
1.一种健康体检生理时间序列数据的可视化表示方法,其特征在于包括以下步骤:(1)SAX离散化:将长度为L的原始时间序列T进行标准化后划分为L/n个子区间,对每个子区间计算均值,然后使用SAX方法中的对应等概率高斯分布区间映射为相应的a个字符,即对应离散的a个区间;(2)构建马尔科夫转移矩阵:计算所述a个区间上的转移概率,得到a×a马尔科夫转移矩阵;(3)可视化:将所述a×a马尔科夫转移矩阵作为a×a带权重的邻接矩阵,得到a个节点的有向图复杂网络,采用可视化工具对所述有向图复杂网络进行图形化表示。2.根据权利要求1所述的时间序列数据的可视化表示方法,其特征在于:所述步骤(1)中将原始时间序列转换为SAX表示的具体步骤为:a)原始时间序列规格化:将原始时间序列C={c1,...

【专利技术属性】
技术研发人员:潘国栋霍晓军吴栋周琳戚伟孟纪元赵磊王建安李永孙朝阳张延莉马卫
申请(专利权)人:河南电力医院
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1