【技术实现步骤摘要】
一种对时序序列进行降维处理的方法和装置
本专利技术涉及计算机
,特别涉及一种对时序序列进行降维处理的方法和装置。
技术介绍
随着数据库技术的飞速发展,人们开始关注如何从大规模数据中获取有价值的信息,这个过程可称作大数据分析。大数据分析在实际应用中,很多情况都是针对时序数据进行分析。时序数据是指时间序列数据,是统一指标下按时间顺序记录的数据列,例如,股票市场的交易数据,传感器网络收集到的状态数据,商店的消费统计数据,电话通信量统计数据坐坐 J/Π寸寸O 时序数据的数据量是非常庞大的,为了方便时序数据的存储和检索,会对时序数据采取降维处理,即将较多时间点的数据压缩为较少时间点的数据。PLA (PiecewiseLinear Approximat1n,分段线性近似法)是一种常用的降维处理方法。PLA是将时序数据切分成小的时间片段,在每个时间片段中,用一个具有一定斜率的线段来近似该时间片段的数据,这样,在存储处理后的时序序列时,只需要存储各时间片段对应的线段的起始和终止的时间点以及相应的线性参数(线段所属直线方程的系数),可以有效的节省存储空间。 时序数据相似性检索是大数据分析中常用的一种分析手段。其做法是,将庞大的时序数据分成大量时长相等的时序序列进行存储,根据检索的目标时序序列(目标时序序列与存储的各时序序列时长相同),在存储的各时序序列中查询与其相匹配的时序序列。例如,在心电图中,某种特征波形的出现频率可以用于判定某种疾病,可以在记录的心电图中对该特征波形进行检索,并根据检索结果进行疾病分析。为了便于检索,一般对存储的 ...
【技术保护点】
一种对时序序列进行降维处理的方法,其特征在于,所述方法包括:获取待处理的时序序列;对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍。
【技术特征摘要】
1.一种对时序序列进行降维处理的方法,其特征在于,所述方法包括: 获取待处理的时序序列; 对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍。2.根据权利要求1所述的方法,其特征在于,所述对所述时序序列进行PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍,包括: 对所述时序序列进行时间片段的时长为预设的单位时长的PLA处理,所述时序序列的时长是所述单位时长的整数倍; 在时长为所述单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段之间满足预设的近似条件,则对所述顺序连接的多个时间片段进行合并处理。3.根据权利要求2所述的方法,其特征在于,所述在时长为所述单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段之间满足预设的近似条件,则对所述顺序连接的多个时间片段进行合并处理,包括: 在时长为所述单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段相互之间的斜率差的绝对值小于预设的第一阈值,则对所述顺序连接的多个时间片段进行合并处理。4.根据权利要求1所述的方法,其特征在于,所述对所述时序序列进行PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍,包括: 在所述时序序列的时长对应的时间范围内确定时间点,所述时间点距离所述时序序列的起始时间点或终止时间点的时长为预设的单位时长的整数倍,所述时序序列的时长是所述单位时长的整数倍; 根据所述时序序列的波形包括的波峰和波谷的时间点,在确定出的时间点中选取时间片段的分界时间点; 根据选取的时间片段的分界时间点,对所述时序序列进行PLA处理。5.根据权利要求4所述的方法,其特征在于,所述根据所述时序序列的波形包括的波峰和波谷的时间点,在确定出的时间点中选取时间片段的分界时间点,包括: 在所述确定出的时间点中,选取与各波峰的时间点的距离小于所述单位时长的时间点,以及与各波谷的时间点的距离小于所述单位时长的时间点,并将选取的时间点作为时间片段的分界时间点。6.根据权利要求4所述的方法,其特征在于,所述根据所述时序序列的波形包括的波峰和波谷的时间点,在确定出的时间点中选取时间片段的分界时间点,包括: 在所述确定出的时间点中,选取与各波峰的时间点的距离最小的时间点,以及与各波谷的时间点的距离最小的时间点,并将选取的时间点作为时间片段的分界时间点。7.根据权利要求1-6任一项所述的方法,其特征在于,所述对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍之后,还包括: 对处理后的时序序列进行存储。8.—种对时序序列进行检索的方法,其特征在于,预先存储有采用如权利要求1-7所述的对时序序列进行降维处理的方法处理的时序序列,所述方法包括: 接收携带目标时序序列的查询请求; 采用对存储的时序序列进行降维处理的相同方式对所述目标时序序列进行降维处理; 在存储的时序序列中,查询与处理后的目标时序序列相匹配的时序序列。9.根据权利要求8所述的方法,其特征在于,还包括: 记录存储的各时序序列对应的第一距离,其中,所述第一距离是所述存储的时序序列与预设的基准时序序列之间的距离; 所述在存储的时序序列中,查询与处理后的目标时序序列相匹配的时序序列,包括:获取第二距离,所述第二距离为所述处理后的目标时序序列与所述基准时序序列之间的距离; 在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列。10.根据权利要求9所述的方法,其特征在于,还包括: 对存储的时序序列建立R-树;记录所述R-树中的每个最小边界矩形MBR对应的最小边界距离,其中,所述最小边界距离是所述MBR中的各时序序列的第一距离的最小值; 所述在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列,包括: 根据记录的所述R-树中的MBR对应的最小边界距离以及时序序列对应的第一距离,在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列。11.根据权利要求10所述的方法,其特征在于,根据记录的所述R-树中的MBR对应...
【专利技术属性】
技术研发人员:李建强,刘博,刘春辰,
申请(专利权)人:日电中国有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。