时序数据的模体识别方法和装置制造方法及图纸

技术编号:11625297 阅读:57 留言:0更新日期:2015-06-18 04:14
本发明专利技术公开了一种时序数据的模体识别方法和装置,属于时序数据分析领域。包括:将需要分析的时序数据分割成至少两个数据子序列,将每个数据子序列转化为符号子序列;对符号子序列进行随机投影,记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数;将记录的次数中超过阈值的次数所对应的两个数据子序列间的距离小于第一预设距离的两个数据子序列作为识别出的标准模体;对每个预设范围内的标准模体进行聚类得到一个中心数据子序列,根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差;缩小阈值,计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离,将距离小于所在预设范围的方差的数据子序列作为识别出的模体。本发明专利技术在保证模体识别速度的情况下,可提高模体识别的准确性。

【技术实现步骤摘要】

本专利技术涉及时序数据分析领域,特别涉及一种时序数据的模体识别方法和装置
技术介绍
随着统计学的发展,越来越多的数据呈时序数据的形式。其中,时序数据是指按照 时间顺序记录的数据。例如,股票市场的每日波动数据、每年的降雨量数据、每年的交通状 况数据等。在这些时序数据中,存在着一些重复出现的相似子序列,这些重复出现的相似子 序列被称为模体。由于时序数据中的模体对科学研究有十分重要的意义,因此,如何在大规 模的时序数据中识别出模体,是研究时序数据问题的关键。 在现有的时序数据的模体识别方法中,常见的识别方法有两种:精确识别方法和 概率识别方法。对于精确识别方法 SIAMInternationalConferenceonDataMining_SDM,pp. 473-484, 2009提出扫描时序数 据中所有的子序列,并计算扫描到的每两个子序列之间的欧氏距离,进而将欧氏距离满足 条件的每两个子序列作为从该时序数据中识别出的模体。对于概率识别方法,文章Probabilisticdiscoveryoftimeseries motifs,ChiuB,KeoghE,LonardiS,ProceedingsoftheACMIGKDDinternational conferenceonKnowledgediscoveryanddatamining.ACM, 2003:493-498提出将时间序 列划分为一系列的数据子序列后,采用SAX(SymbolicAggregateapproximation,符号集 近似)方法将划分后的数据子序列转化为符号子序列,再对每个符号子序列进行随机投影, 记录每个符号子序列与其他符号子序列在投影位置上具有相同符号的次数,将记录的次数 中达到一定阈值的次数所对应的数据子序列作为识别出的模体。 在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题: 由于上述精确识别方法需要计算扫描到的每两个数据子序列之间的欧氏距离,当 扫描到的数据子序列的数量很大时,计算扫描到的每两个数据子序列之间的欧氏距离的计 算量很大,致使识别模体的速度较慢。 而上述概率识别方法通过符号化及随机投影将时序数据进行了离散化和降维处 理,导致一些可能成为模体的时序数据信息的丢失,并使得存在较大位移差且原本在需要 分析的时序数据中重复出现的概率不高的数据子序列可能被识别为模体,因此,概率识别 方法所识别出的模体的准确性不高;另外,当一个符号子序列与其他符号子序列在投影位 置上具有相同符号的次数达到一定阈值时,对应的数据子序列才被识别为模体,导致与其 他符号子序列在投影位置上具有相同符号的次数未达到阈值的有些模体无法被识别出来, 因而通过概率识别方法识别出的模体数量有限,进一步降低了模体识别的准确性。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种时序数据的模体识别方法和 装置。所述技术方案如下: 第一方面,提供了一种时序数据的模体识别方法,所述方法包括: 获取需要分析的时序数据,将所述需要分析的时序数据分割成至少两个数据子序 列,并对每个数据子序列进行符号化处理,得到至少两个符号子序列; 对所述符号子序列进行预设次数的随机投影,并记录投影的每个符号子序列与投 影的其他符号子序列在投影位置上具有相同符号的次数; 计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离,将距离 小于第一预设距离的两个数据子序列作为识别出的标准模体; 对每个预设范围内的标准模体进行聚类,得到每个预设范围内的一个中心数据子 序列,并根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差; 缩小所述阈值,并计算记录的次数中超过缩小后的阈值的次数所对应的两个数据 子序列与其所在预设范围内的中心数据子序列之间的距离,将距离小于所在预设范围的方 差的数据子序列作为识别出的模体。 结合第一方面,在第一方面的第一种可能的实现方式中,所述得到至少两个符号 子序列之后,还包括: 将所述符号子序列中至少两个连续的符号相同的符号子序列进行压缩,得到压缩 符号子序列; 所述对所述符号子序列进行预设次数的随机投影,包括: 对所述符号子序列中未压缩的符号子序列进行预设次数的随机投影。 结合第一方面,在第一方面的第二种可能的实现方式中,所述根据每个预设范围 内的标准模体与中心数据子序列计算每个预设范围的方差,包括: 计算每个预设范围内的标准模体与中心数据子序列之间的距离平方的平均值,并 将计算得到的距离平方的平均值作为每个预设范围的方差。 优选地,所述缩小所述阈值,并计算记录的次数中超过缩小后的阈值的次数所对 应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离,包括: 由大到小依次缩小所述阈值,直至识别出的模体数量大于预设数量为止; 计算记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列与其 所在预设范围内的中心数据子序列之间的距离。 结合第一方面,在第一方面的第三种可能的实现方式中,所述得到压缩符号子序 列之后,还包括: 计算相邻两个压缩符号子序列对应的数据子序列之间的距离,将距离小于所述第 一预设距离的相邻两个压缩符号子序列对应的数据子序列作为识别出的模体。 结合第一方面的第一种可能的实现方式,在第一方面的第四种可能的实现方式 中,所述将距离小于第一预设距离的两个数据子序列作为识别出的标准模体之后,还包 括: 将相邻且距离小于第二预设距离的至少两个标准模体构成组合模体; 所述对每个预设范围内的标准模体进行聚类,包括: 对每个预设范围内的组合模体及未构成组合模体的标准模体进行聚类; 所述根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方 差,包括: 计算每个预设范围内的组合模体及未构成组合模体的标准模体分别与中心数据 子序列之间的距离平方的平均值,并将计算得到的距离平方的平均值作为每个预设范围的 方差。 结合第一方面或第一方面的第一种可能的实现方式至第五种可能的实现方式,在 第一方面的第六种可能的实现方式中,,所述将距离小于所在预设范围的方差的数据子序 列作为识别出的模体之后,还包括: 将相邻且距离小于第二预设距离的至少两个识别出的模体构成大模体。 第二方面,提供了一种时序数据的模体识别装置,所述装置包括: 获取模块,用于获取需要分析的时序数据; 分割模块,用于将所述需要分析的时序数据分割成至少两个数据子序列; 处理模块,用于对每个数据子序列进行符号化处理,得到至少两个符号子序列; 投影模块,用于对所述符号子序列进行预设次数的随机投影; 记录模块,用于记录投影的每个符号子序列与投影的其他符号子序列在投影位置 上具有相同符号的次数; 第一识别模块,用于计算记录的次数中超过阈值的次数所对应的两个数据子序列 之间的距离,将距离小于第一预设距离的两个数据子序列作为识别出的标准模体; 聚类模块,用于对每个预设范围内的标准模体进行聚类,得到每个预设范围内的 一个中心数据子序列; 计算模块,用于根据每个预设范围内的标准模体与中心数据子序列计算每个预设 范围的方差; 第二识别模块,用于缩小所述阈值,并计算记录的次数中超过缩小后的阈值的次 数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之本文档来自技高网
...

【技术保护点】
一种时序数据的模体识别方法,其特征在于,所述方法包括:获取需要分析的时序数据,将所述需要分析的时序数据分割成至少两个数据子序列,并对每个数据子序列进行符号化处理,得到至少两个符号子序列;对所述符号子序列进行预设次数的随机投影,并记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数;计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离,将距离小于第一预设距离的两个数据子序列作为识别出的标准模体;对每个预设范围内的标准模体进行聚类,得到每个预设范围内的一个中心数据子序列,并根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差;缩小所述阈值,并计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离,将距离小于所在预设范围的方差的数据子序列作为识别出的模体。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘博陈成李建强
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1