一种时间序列相似度值获取方法及系统技术方案

技术编号:9143404 阅读:279 留言:0更新日期:2013-09-12 04:58
本发明专利技术中公开了一种时间序列相似度值获取方法及系统,方法和系统均应用于时间序列集中,时间序列集包括至少两个时间序列,任意选择其中一个时间序列作为目标时间序列,将目标时间序列进行分割,得到至少两个时间子序列,将每个时间子序列分别分布在不同的服务器集群中的不同节点上,而其余的时间序列不分割,并且可分别分布在不同的服务器集群中的不同节点上,分别获取每个时间子序列与时间序列集中的其余每个时间序列的弯曲路径,依据弯曲路径,确定目标时间序列与时间序列集中的其余每个时间序列的相似度值,这样就可以同时并行的获取时间序列的相似度值,因此提高了运算效率,特别适用超长时间序列的相似度值获取。

【技术实现步骤摘要】
一种时间序列相似度值获取方法及系统
本专利技术涉及信息处理领域,特别是一种时间序列相似度值获取方法及系统。
技术介绍
时间序列是重要的时序数据,广泛存在于日常生活、金融和科学应用中,挖掘有用的时间序列模式是十分重要的,数值性和连续性是时间序列数据的重要特点,这使得相似性的研究成为时间序列的一个最基本的问题。随着互联网的迅猛发展,每天由网络产生的互联网数据量越来越庞大,如何进行海量数据的分析和挖掘一直是互联网分析领域一个非常重要的研究课题,而面对海量数据,相似度值的获取变得更加复杂、耗时。由于需要对海量数据进行分析,那么时间序列的长度可能达到上千万个观测值,因此使用传统的时间序列相似度表方法,如动态时间弯曲(DTW),在比较两个时间序列的相似度时,其距离矩阵将达到千万行×千万列,对于任何一台单独的服务器,都是很难处理这种超大型矩阵阵列,因此会存在运算效率低下的问题。
技术实现思路
本专利技术提供一种时间序列相似度值获取方法及系统,以解决使用现有技术中单独的服务器很难处理超大型矩阵阵列,而出现的运算效率低下的问题。具体技术方案如下:一种时间序列相似度值获取方法,所述方法应用于时间序列集,其中,所述时间序列集包括至少两条时间序列,包括:任意选择所述时间序列集中的一条时间序列作为目标时间序列;将所述目标时间序列进行分割,得到至少两个时间子序列;分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径;依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值。优选地,还包括:将所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值按照相似度值的大小进行排序,得到排序后的相似度值;判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列。优选地,所述将所述目标时间序列进行分割,得到至少两个时间子序列的过程包括:依据预设的滑动窗口将所述目标时间序列进行分割,得到至少两个时间子序列。优选地,所述判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列包括:确定所述排序后的相似度值中最小的相似度值,得到与所述最小相似度值对应的所述时间序列相似于所述目标时间序列。一种时间序列相似度值获取系统,所述系统应用于时间序列集,其中,所述时间序列集包括至少两条时间序列,所述系统包括:选择模块、分割模块、获取模块和确定模块;其中,所述选择模块用于,任意选择所述时间序列集中的一条时间序列作为目标时间序列;所述分割模块用于,将所述目标时间序列进行分割,得到至少两个时间子序列;所述获取模块用于,分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径;所述确定模块用于,依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值。优选地,还包括:排序模块和判断模块;所述排序模块用于,将所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值按照相似度值的大小进行排序,得到排序后的相似度值;所述判断模块用于,判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列。从以上技术方案可以看出,本专利技术中提供的一种时间序列相似度值获取方法及系统,所述方法和所述系统均应用于时间序列集中,其中,所述时间序列集包括至少两个时间序列,包括:任意选择所述时间序列集中的一条时间序列作为目标时间序列,将所述目标时间序列进行分割,得到至少两个时间子序列,分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径,依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值,所述方法中将所述任意选择的一条时间序列作为目标时间序列,对所述目标时间序列进行分割,得到至少两个时间子序列,将所述每个时间子序列分别分布在服务器集中的不同节点上,并将所述时间序列集中的其余每个时间序列也分别分布在所述服务器集中的不同节点上,由此可以分别获取到每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径,这样就可以同时并行的获取所述时间序列的相似度值,因此提高了运算效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对专利技术或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一公开的一种时间序列相似度值获取方法流程示意图;图2为本专利技术实施例二公开的一种时间序列相似度值获取方法流程示意图;图3为本专利技术实施例三公开的一种时间序列相似度值获取系统结构示意图;图4为本专利技术实施例四公开的一种时间序列相似度值获取系统流程示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例一公开一种时间序列相似度值获取方法,参见图1所示,所述方法应用于时间序列集,其中,所述时间序列集包括至少两条时间序列,具体步骤包括:步骤S101:任意选择所述时间序列集中的一条时间序列作为目标时间序列;步骤S102:将所述目标时间序列进行分割,得到至少两个时间子序列;步骤S103:分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径;需要说明的是,在得到至少两个时间子序列后,分别将每个时间子序列分布在服务器集群中的不同节点上,同时将所述时间序列集中的其余每个时间序列也分别分布在所述服务器集群的不同节点上,由此,可以在所述不同节点上获取所述弯曲路径;下面举个实例,给定两个长度分别为n和m的时间序列Q和C:Q=q1,q2,...,qi,...,qnC=c1,c2,...,cj,...,cm预先创建一个n×m的相异矩阵D:矩阵中的元素存储两个时间序列数据点qi和cj的距离值d(qi,cj)。这里d(qi,cj)可以看做数据本文档来自技高网...
一种时间序列相似度值获取方法及系统

【技术保护点】
一种时间序列相似度值获取方法,其特征在于,所述方法应用于时间序列集,其中,所述时间序列集包括至少两条时间序列,包括:任意选择所述时间序列集中的一条时间序列作为目标时间序列;将所述目标时间序列进行分割,得到至少两个时间子序列;分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径;依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值。

【技术特征摘要】
1.一种时间序列相似度值获取方法,其特征在于,所述方法应用于时间序列集,其中,所述时间序列集包括至少两条时间序列,包括:任意选择所述时间序列集中的一条时间序列作为目标时间序列;将所述目标时间序列进行分割,得到至少两个时间子序列;分别将所述每个时间子序列分布在服务器集群中的不同节点上,同时将所述时间序列集中的其余每个时间序列也分别分布在所述服务器集群的不同节点上,在所述不同节点上分别获取所述每个时间子序列与所述时间序列集中的其余每个时间序列的弯曲路径;依据所述弯曲路径,确定所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值。2.根据权利要求1所述的方法,其特征在于,还包括:将所述目标时间序列与所述时间序列集中的其余每个时间序列的相似度值按照相似度值的大小进行排序,得到排序后的相似度值;判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于所述目标时间序列。3.根据权利要求1所述的方法,其特征在于,所述将所述目标时间序列进行分割,得到至少两个时间子序列的过程包括:依据预设的滑动窗口将所述目标时间序列进行分割,得到至少两个时间子序列。4.根据权利要求2所述的方法,其特征在于,所述判断所述排序后的相似度值是否符合预设条件,如果是,则符合预设条件的所述时间序列相似于...

【专利技术属性】
技术研发人员:杨树强尹洪赵辉陈志坤贾焰金松昌周斌韩伟红韩毅舒琦
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1