一种对时序序列进行降维处理的方法和装置制造方法及图纸

技术编号:10483402 阅读:111 留言:0更新日期:2014-10-03 14:25
本发明专利技术公开了一种对时序序列进行降维处理的方法和装置,属于计算机技术领域。所述方法包括:获取待处理的时序序列;对所述时序序列进行PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍。采用本发明专利技术,可以减少存储时序序列时所占用的存储空间。

【技术实现步骤摘要】
一种对时序序列进行降维处理的方法和装置
本专利技术涉及计算机
,特别涉及一种对时序序列进行降维处理的方法和装置。
技术介绍
随着数据库技术的飞速发展,人们开始关注如何从大规模数据中获取有价值的信息,这个过程可称作大数据分析。大数据分析在实际应用中,很多情况都是针对时序数据进行分析。时序数据是指时间序列数据,是统一指标下按时间顺序记录的数据列,例如,股票市场的交易数据,传感器网络收集到的状态数据,商店的消费统计数据,电话通信量统计数据坐坐 J/Π寸寸O 时序数据的数据量是非常庞大的,为了方便时序数据的存储和检索,会对时序数据采取降维处理,即将较多时间点的数据压缩为较少时间点的数据。PLA (PiecewiseLinear Approximat1n,分段线性近似法)是一种常用的降维处理方法。PLA是将时序数据切分成小的时间片段,在每个时间片段中,用一个具有一定斜率的线段来近似该时间片段的数据,这样,在存储处理后的时序序列时,只需要存储各时间片段对应的线段的起始和终止的时间点以及相应的线性参数(线段所属直线方程的系数),可以有效的节省存储空间。 时序数据相似性检索是大数据分析中常用的一种分析手段。其做法是,将庞大的时序数据分成大量时长相等的时序序列进行存储,根据检索的目标时序序列(目标时序序列与存储的各时序序列时长相同),在存储的各时序序列中查询与其相匹配的时序序列。例如,在心电图中,某种特征波形的出现频率可以用于判定某种疾病,可以在记录的心电图中对该特征波形进行检索,并根据检索结果进行疾病分析。为了便于检索,一般对存储的时序序列和目标时序序列都进行定长PLA处理。定长PLA即,在PLA处理的过程中,将时序序列切分成多个时长相等的时间片段。 在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题: 现有技术中,对时序序列存储时,进行定长PLA处理,对于定长PLA,需要通过缩短时间片段的时长来保证数据的精度,这将会增大需要存储的数据量,对存储空间的占用较大。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种对时序序列进行降维处理的方法和装置,以减少存储时序序列时所占用的存储空间。所述技术方案如下: 一方面,提供了一种对时序序列进行降维处理的方法,所述方法包括: 犾取待处理的时序序列; 对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍。 另一方面,提供了一种对时序序列进行检索的方法,预先存储有采用如上述的对时序序列进行降维处理的方法处理的时序序列,所述方法包括: 接收携带目标时序序列的查询请求; 采用对存储的时序序列进行降维处理的相同方式对所述目标时序序列进行降维处理; 在存储的时序序列中,查询与处理后的目标时序序列相匹配的时序序列。 另一方面,提供了一种对时序序列进行降维处理的装置,所述装置包括: 获取模块,用于获取待处理的时序序列; 处理模块,用于对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍。 另一方面,提供了一种对时序序列进行检索的装置,所述装置包括: 存储模块,用于预先存储采用如上述的对时序序列进行降维处理的装置处理的时序序列; 接收模块,用于接收携带目标时序序列的查询请求; 处理模块,用于采用对存储的时序序列进行降维处理的相同方式对所述目标时序序列进行降维处理; 查询模块,用于在存储的时序序列中,查询与处理后的目标时序序列相匹配的时序序列。 本专利技术实施例提供的技术方案带来的有益效果是: 本专利技术实施例中,采用时间片段的时长不固定且为预设的单位时长的整数倍的PLA处理方式,对时序序列进行降维处理,这样,相对于定长PLA,可以用一个时间片段替代定长PLA中的多个时间片段,从而,可以减少存储时序序列时所占用的存储空间。 【附图说明】 为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图1是本专利技术实施例提供的对时序序列进行降维处理的方法流程图; 图2是本专利技术实施例提供的对时序序列进行检索的方法流程图; 图3是本专利技术实施例提供的对时序序列进行降维处理的装置结构示意图; 图4是本专利技术实施例提供的对时序序列进行检索的装置结构示意图。 【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。 本专利技术实施例提供了一种对时序序列进行降维处理的方法,该方法是对时序序列进行降维处理并存储的方法,可以应用于需要对大量的时序序列进行存储的数据库中。如图1所示,该方法的处理流程可以包括如下的步骤: 步骤101,获取待处理的时序序列。 以数据库对实时产生的时序数据进行存储为例,随着时间的推移,会不断的产生新的时序数据,每经过一定的时长(预先设置的时序序列的时长),可以获取这段时长内产生的时序数据,作为待处理的时序序列,进而可以进行后续的降维处理的操作。另外,该步骤中也可以获取数据库中已经存储的时序序列,进行后续的降维处理,或者,该步骤中也可以获取进行时序序列检索的目标时序序列,进行后续的降维处理。 步骤102,对获取的时序序列进行PLA处理,该PLA处理的时间片段的时长不固定且时间片段的时长为预设的单位时长的整数倍。 其中,在进行单位时长的设置时,可以设置其为时序序列的时长的N分之一(N可以为任意正整数,N的取值可以根据精确度和处理速度的要求进行设置)。各时间片段的时长可以是单位时长的任意整数倍(不超过N),各时间片段的时长可以不同,这样,在PLA处理的过程中,时间片段的时长选择自由度较大,这使得此PLA处理可以尽可能的遵循PLA的根据数据变化趋势进行时间片段划分的原则,即尽可能在数据随时间的变化趋势发生改变(如由增大趋势变为减小趋势)的时间点附近进行时间片段划分(这是PLA的设计之初的原贝U,定长PLA实际在一定程度上破坏了这个原则)。 在步骤102之后,还可以包括对处理后的时序序列进行存储的步骤。 其中,处理后的时序序列即为经过上述PLA处理的降维的时序序列。该处理后的时序序列的内容可以包括按时序顺序排列的每个时间片段的起始时间点和线性参数。时间片段结束时间点是其后一个时间片段的起始时间点,所以可以不记录时间片段的结束时间点。时间片段的线性参数,可以是时间片段对应的线段所属直线的函数式中的系数,即f(x)=ax+b中的a和b,其中X为时间变量,f(x)为时间点对应的数据。 本专利技术实施例中,对于上述步骤102的处理过程,可以有多种不同的具体执行方法,下面给出了其中的几种执行方法。 方法一,可以包括如下的处理步骤: 步骤一,对获取的时序序列进行时间片段的时长为预设的单位时长的PLA处理。其中,时序序列的时长是所述单位时长的整数倍。 该方法中先对时序序列进行时间片段的时长为单位时长的定长PLA处理,再本文档来自技高网
...
一种对时序序列进行降维处理的方法和装置

【技术保护点】
一种对时序序列进行降维处理的方法,其特征在于,所述方法包括:获取待处理的时序序列;对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍。

【技术特征摘要】
1.一种对时序序列进行降维处理的方法,其特征在于,所述方法包括: 获取待处理的时序序列; 对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍。2.根据权利要求1所述的方法,其特征在于,所述对所述时序序列进行PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍,包括: 对所述时序序列进行时间片段的时长为预设的单位时长的PLA处理,所述时序序列的时长是所述单位时长的整数倍; 在时长为所述单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段之间满足预设的近似条件,则对所述顺序连接的多个时间片段进行合并处理。3.根据权利要求2所述的方法,其特征在于,所述在时长为所述单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段之间满足预设的近似条件,则对所述顺序连接的多个时间片段进行合并处理,包括: 在时长为所述单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段相互之间的斜率差的绝对值小于预设的第一阈值,则对所述顺序连接的多个时间片段进行合并处理。4.根据权利要求1所述的方法,其特征在于,所述对所述时序序列进行PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍,包括: 在所述时序序列的时长对应的时间范围内确定时间点,所述时间点距离所述时序序列的起始时间点或终止时间点的时长为预设的单位时长的整数倍,所述时序序列的时长是所述单位时长的整数倍; 根据所述时序序列的波形包括的波峰和波谷的时间点,在确定出的时间点中选取时间片段的分界时间点; 根据选取的时间片段的分界时间点,对所述时序序列进行PLA处理。5.根据权利要求4所述的方法,其特征在于,所述根据所述时序序列的波形包括的波峰和波谷的时间点,在确定出的时间点中选取时间片段的分界时间点,包括: 在所述确定出的时间点中,选取与各波峰的时间点的距离小于所述单位时长的时间点,以及与各波谷的时间点的距离小于所述单位时长的时间点,并将选取的时间点作为时间片段的分界时间点。6.根据权利要求4所述的方法,其特征在于,所述根据所述时序序列的波形包括的波峰和波谷的时间点,在确定出的时间点中选取时间片段的分界时间点,包括: 在所述确定出的时间点中,选取与各波峰的时间点的距离最小的时间点,以及与各波谷的时间点的距离最小的时间点,并将选取的时间点作为时间片段的分界时间点。7.根据权利要求1-6任一项所述的方法,其特征在于,所述对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍之后,还包括: 对处理后的时序序列进行存储。8.—种对时序序列进行检索的方法,其特征在于,预先存储有采用如权利要求1-7所述的对时序序列进行降维处理的方法处理的时序序列,所述方法包括: 接收携带目标时序序列的查询请求; 采用对存储的时序序列进行降维处理的相同方式对所述目标时序序列进行降维处理; 在存储的时序序列中,查询与处理后的目标时序序列相匹配的时序序列。9.根据权利要求8所述的方法,其特征在于,还包括: 记录存储的各时序序列对应的第一距离,其中,所述第一距离是所述存储的时序序列与预设的基准时序序列之间的距离; 所述在存储的时序序列中,查询与处理后的目标时序序列相匹配的时序序列,包括:获取第二距离,所述第二距离为所述处理后的目标时序序列与所述基准时序序列之间的距离; 在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列。10.根据权利要求9所述的方法,其特征在于,还包括: 对存储的时序序列建立R-树;记录所述R-树中的每个最小边界矩形MBR对应的最小边界距离,其中,所述最小边界距离是所述MBR中的各时序序列的第一距离的最小值; 所述在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列,包括: 根据记录的所述R-树中的MBR对应的最小边界距离以及时序序列对应的第一距离,在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列。11.根据权利要求10所述的方法,其特征在于,根据记录的所述R-树中的MBR对应...

【专利技术属性】
技术研发人员:李建强刘博刘春辰
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1