一种时间序列的检索方法、装置及系统制造方法及图纸

技术编号:17047994 阅读:26 留言:0更新日期:2018-01-17 17:47
本发明专利技术实施例公开了一种时间序列的检索方法、装置及系统,应用本发明专利技术实施例,在海量数据中检索目标时间序列的相似时间序列时,先对海量数据进行过滤处理,滤除很大一部分时间序列,再针对未被滤除的剩余时间序列,计算剩余时间序列中的节点数据与其对应的目标时间序列中节点数据的距离,并判断该距离是否满足预设规则,如果是,则将该剩余时间序列确定为检索结果。由此可见,相比于针对海量数据进行相似性运算的方案,减少了时间成本,提高了检索效率。

A retrieval method, device and system for time series

The embodiment of the invention discloses a method, device and system for retrieval of a time series, the embodiment of the invention, the target similarity search in time series time series in the data when the first of the massive data filtering, filter out a large part of the time series, the residual time series is not filtered, node time series data target computing nodes remaining data in time series corresponding to the distance, and determine whether the distance satisfies the predetermined rules, and if it is, then the residual time series to determine the search results. Thus, it can reduce the time cost and improve the retrieval efficiency compared to the scheme of similarity calculation for mass data.

【技术实现步骤摘要】
一种时间序列的检索方法、装置及系统
本专利技术涉及数据分析
,特别涉及一种时间序列的检索方法、装置及系统。
技术介绍
时间序列是指将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列,其中各个数值即为时间序列的各个节点数据。时间序列分析(Timeseriesanalysis)是一种动态数据处理的统计方法,研究随机时间序列所遵从的统计规律,在统计学中作为一种常用的预测手段被广泛应用。时间序列为典型的高维海量数据,如何从高维海量的时间序列数据流中,检索到目标时间序列的相似时间序列,是目前被广泛研究的问题。通常的检索方法是,将目标时间序列与所有的时间序列逐一进行相似性运算,将最相似的一个或多个时间序列作为检索的结果。然而,由于时间序列是高维海量数据,针对海量数据进行相似性运算,必然需要占用大量的时间,导致检索效率不高。
技术实现思路
本专利技术实施例的目的在于提供一种时间序列的检索方法、装置及系统,以提高检索效率。为达到上述目的,本专利技术实施例公开了一种时间序列的检索方法,包括:获取待检索的目标时间序列;获取用于检索的数据段中的候选时间序列;按照预设过滤算法,计算每个候选时间序列与所述目标时间序列之间的边界距离;滤除所述与所述目标时间序列之间的边界距离不满足第一预设规则的候选时间序列,获得剩余候选时间序列;计算所述目标时间序列中的节点数据与每个所述剩余候选时间序列中节点数据的节点距离,并判断所述节点距离是否满足第二预设规则;将节点距离满足第二预设规则的剩余候选时间序列确定为检索到的相似时间序列。可选的,所述获取用于检索的数据段中所有的候选时间序列,可以包括:对用于检索的数据流进行分段,得到多个数据段;从所述多个数据段中,获取候选时间序列。可选的,所述目标时间序列中包括第一数量个节点数据;所述从所述多个数据段中,获取候选时间序列,可以包括:针对每个数据段,从所述数据段中获取预设第二数量个节点数据,将所述第二数量个节点数据组合为循环队列,其中,所述第二数量大于所述第一数量;按照第一预设顺序,在所述循环队列中获取所述第一数量个节点数据,将所获取的节点数据按照所述第一预设顺序组合为候选时间序列;将所述循环队列队头位置的预设第三数量个节点数据删除;从所述数据段中获取所述第三数量个节点数据补充到所述队头位置,形成新的循环队列,并继续执行所述按照第一预设顺序,在所述循环队列中获取所述第一数量个节点数据,将所获取的节点数据按照所述第一预设顺序组合为候选时间序列的步骤。可选的,在所述获取用于检索的数据段中的候选时间序列之后,还可以包括:利用预设标准化算法,对所述目标时间序列及所述候选时间序列进行标准化处理;所述按照预设过滤算法,计算每个候选时间序列与所述目标时间序列之间的边界距离;滤除所述与所述目标时间序列之间的边界距离不满足第一预设规则的候选时间序列,获得剩余候选时间序列,为:按照预设过滤算法,计算每个标准化后的候选时间序列与标准化后的目标时间序列之间的边界距离;滤除所述与标准化后的目标时间序列之间的边界距离不满足第一预设规则的标准化后的候选时间序列,获得剩余候选时间序列。可选的,所述预设过滤算法可以包括:第一级过滤算法和第二级过滤算法;所述第一预设规则包括:与所述第一级过滤算法对应的第一预设子规则和与所述第二级过滤算法对应的第二预设子规则;所述按照预设过滤算法,计算每个候选时间序列与所述目标时间序列之间的边界距离;滤除所述与所述目标时间序列之间的边界距离不满足第一预设规则的候选时间序列,可以包括:针对每个候选时间序列,利用所述第一级过滤算法,对所述候选时间序列进行过滤处理:提取所述候选时间序列的第一特征值及所述目标时间序列的第二特征值;根据所述第一特征值与所述第二特征值之间的特征值距离,计算所述候选时间序列与所述目标时间序列的之间的边界距离;判断所述边界距离是否满足所述第一预设子规则,如果否,将所述候选时间序列滤除;在所述边界距离满足所述第一预设子规则的情况下,利用所述第二级过滤算法对所述候选时间序列进行过滤处理:计算所述目标时间序列的第一上边界值及第一下边界值,将所述第一上边界值与所述第一下边界值中较小的数值确定为第一目标边界值;计算所述候选时间序列与所述第一目标边界值的欧式距离,判断所述欧式距离是否满足所述第二预设子规则,如果否,将所述候选时间序列滤除;所述获得剩余候选时间序列,为:将满足所述第二预设子规则的所述候选时间序列确定为未被滤除的剩余候选时间序列。可选的,所述第一预设规则还包括与所述第二级过滤算法对应的第三预设子规则;在判断所述欧式距离满足第二预设子规则的情况下,还可以包括:计算所述候选时间序列的第二上边界值及第二下边界值,将所述第二上边界值与所述第二下边界值中较小的数值确定为第二目标边界值;计算所述目标时间序列与所述第二目标边界值的欧式距离,判断所述欧式距离是否满足所述第三预设子规则,如果否,将所述候选时间序列滤除;所述获得剩余候选时间序列,为:将满足所述第三预设子规则的所述候选时间序列确定为未被滤除的剩余时间序列。可选的,所述计算所述目标时间序列中的节点数据与每个所述剩余候选时间序列中节点数据的节点距离,并判断所述节点距离是否满足第二预设规则,可以包括:针对每个剩余候选时间序列,计算所述剩余候选时间序列中的每个节点数据与其对应的所述目标时间序列中节点数据的节点距离之和,并判断所述节点距离之和是否小于第一预设阈值。可选的,所述计算所述目标时间序列中的节点数据与每个所述剩余候选时间序列中节点数据的节点距离,并判断所述节点距离是否满足第二预设规则,可以包括:针对每个所述剩余候选时间序列,按照第二预设顺序,在所述剩余候选时间序列中确定目标节点数据;计算所述目标节点数据与其对应的所述目标时间序列中节点数据的节点距离,并更新所述剩余候选时间序列对应的节点距离之和;判断所述节点距离之和是否小于当前阈值;如果否,则表示不满足所述第二预设规则,并停止后续步骤;如果是,返回执行所述按照第二预设顺序,在所述剩余候选时间序列中确定目标节点数据的步骤;直至按照第二预设顺序,在所述剩余候选时间序列中确定最后一个目标节点数据,计算所述最后一个目标节点数据与其对应的所述目标时间序列中节点数据的节点距离,并更新所述剩余候选时间序列对应的节点距离之和,得到最终节点距离之和;判断所述最终节点距离之和是否小于所述当前阈值,如果是,表示满足所述第二预设规则,将所述最终节点距离之和确定为当前阈值。可选的,所述更新所述剩余候选时间序列对应的节点距离之和,可以包括:当所述目标节点数据为所述第二预设顺序下所述剩余候选时间序列中的第一个节点数据时,将所述第一个节点数据与其对应的所述目标时间序列中节点数据的节点距离记录为所述标准时间序列对应的节点距离之和;当所述目标节点数据不为所述第二预设顺序下所述剩余候选时间序列中的第一个节点数据时,将所述目标节点数据与其对应的所述目标时间序列中节点数据的节点距离与记录的所述剩余候选时间序列对应的节点距离之和相加,得到最新的所述剩余候选时间序列对应的节点距离之和。可选的,在所述按照第二预设顺序,在所述剩余候选时间序列中确定目标节点数据之前,还可以包括:判断所述剩余候选时间序列是否为第一条剩本文档来自技高网...
一种时间序列的检索方法、装置及系统

【技术保护点】
一种时间序列的检索方法,其特征在于,包括:获取待检索的目标时间序列;获取用于检索的数据段中的候选时间序列;按照预设过滤算法,计算每个候选时间序列与所述目标时间序列之间的边界距离;滤除所述与所述目标时间序列之间的边界距离不满足第一预设规则的候选时间序列,获得剩余候选时间序列;计算所述目标时间序列中的节点数据与每个所述剩余候选时间序列中节点数据的节点距离,并判断所述节点距离是否满足第二预设规则;将节点距离满足第二预设规则的剩余候选时间序列确定为检索到的相似时间序列。

【技术特征摘要】
1.一种时间序列的检索方法,其特征在于,包括:获取待检索的目标时间序列;获取用于检索的数据段中的候选时间序列;按照预设过滤算法,计算每个候选时间序列与所述目标时间序列之间的边界距离;滤除所述与所述目标时间序列之间的边界距离不满足第一预设规则的候选时间序列,获得剩余候选时间序列;计算所述目标时间序列中的节点数据与每个所述剩余候选时间序列中节点数据的节点距离,并判断所述节点距离是否满足第二预设规则;将节点距离满足第二预设规则的剩余候选时间序列确定为检索到的相似时间序列。2.根据权利要求1所述的方法,其特征在于,所述获取用于检索的数据段中所有的候选时间序列,包括:对用于检索的数据流进行分段,得到多个数据段;从所述多个数据段中,获取候选时间序列。3.根据权利要求2所述的方法,其特征在于,所述目标时间序列中包括第一数量个节点数据;所述从所述多个数据段中,获取候选时间序列,包括:针对每个数据段,从所述数据段中获取预设第二数量个节点数据,将所述第二数量个节点数据组合为循环队列,其中,所述第二数量大于所述第一数量;按照第一预设顺序,在所述循环队列中获取所述第一数量个节点数据,将所获取的节点数据按照所述第一预设顺序组合为候选时间序列;将所述循环队列队头位置的预设第三数量个节点数据删除;从所述数据段中获取所述第三数量个节点数据补充到所述队头位置,形成新的循环队列,并继续执行所述按照第一预设顺序,在所述循环队列中获取所述第一数量个节点数据,将所获取的节点数据按照所述第一预设顺序组合为候选时间序列的步骤。4.根据权利要求1所述的方法,其特征在于,在所述获取用于检索的数据段中的候选时间序列之后,还包括:利用预设标准化算法,对所述目标时间序列及所述候选时间序列进行标准化处理;所述按照预设过滤算法,计算每个候选时间序列与所述目标时间序列之间的边界距离;滤除所述与所述目标时间序列之间的边界距离不满足第一预设规则的候选时间序列,获得剩余候选时间序列,为:按照预设过滤算法,计算每个标准化后的候选时间序列与标准化后的目标时间序列之间的边界距离;滤除所述与标准化后的目标时间序列之间的边界距离不满足第一预设规则的标准化后的候选时间序列,获得剩余候选时间序列。5.根据权利要求1所述的方法,其特征在于,所述预设过滤算法包括:第一级过滤算法和第二级过滤算法;所述第一预设规则包括:与所述第一级过滤算法对应的第一预设子规则和与所述第二级过滤算法对应的第二预设子规则;所述按照预设过滤算法,计算每个候选时间序列与所述目标时间序列之间的边界距离;滤除所述与所述目标时间序列之间的边界距离不满足第一预设规则的候选时间序列,包括:针对每个候选时间序列,利用所述第一级过滤算法,对所述候选时间序列进行过滤处理:提取所述候选时间序列的第一特征值及所述目标时间序列的第二特征值;根据所述第一特征值与所述第二特征值之间的特征值距离,计算所述候选时间序列与所述目标时间序列的之间的边界距离;判断所述边界距离是否满足所述第一预设子规则,如果否,将所述候选时间序列滤除;在所述边界距离满足所述第一预设子规则的情况下,利用所述第二级过滤算法对所述候选时间序列进行过滤处理:计算所述目标时间序列的第一上边界值及第一下边界值,将所述第一上边界值与所述第一下边界值中较小的数值确定为第一目标边界值;计算所述候选时间序列与所述第一目标边界值的欧式距离,判断所述欧式距离是否满足所述第二预设子规则,如果否,将所述候选时间序列滤除;所述获得剩余候选时间序列,为:将满足所述第二预设子规则的所述候选时间序列确定为未被滤除的剩余候选时间序列。6.根据权利要求5所述的方法,其特征在于,所述第一预设规则还包括与所述第二级过滤算法对应的第三预设子规则;在判断所述欧式距离满足第二预设子规则的情况下,还包括:计算所述候选时间序列的第二上边界值及第二下边界值,将所述第二上边界值与所述第二下边界值中较小的数值确定为第二目标边界值;计算所述目标时间序列与所述第二目标边界值的欧式距离,判断所述欧式距离是否满足所述第三预设子规则,如果否,将所述候选时间序列滤除;所述获得剩余候选时间序列,为:将满足所述第三预设子规则的所述候选时间序列确定为未被滤除的剩余时间序列。7.根据权利要求1所述的方法,其特征在于,所述计算所述目标时间序列中的节点数据与每个所述剩余候选时间序列中节点数据的节点距离,并判断所述节点距离是否满足第二预设规则,包括:针对每个剩余候选时间序列,计算所述剩余候选时间序列中的每个节点数据与其对应的所述目标时间序列中节点数据的节点距离之和,并判断所述节点距离之和是否小于第一预设阈值。8.根据权利要求1所述的方法,其特征在于,所述计算所述目标时间序列中的节点数据与每个所述剩余候选时间序列中节点数据的节点距离,并判断所述节点距离是否满足第二预设规则,包括:针对每个所述剩余候选时间序列,按照第二预设顺序,在所述剩余候选时间序列中确定目标节点数据;计算所述目标节点数据与其对应的所述目标时间序列中节点数据的节点距离,并更新所述剩余候选时间序列对应的节点距离之和;判断所述节点距离之和是否小于当前阈值;如果否,则表示不满足所述第二预设规则,并停止后续步骤;如果是,返回执行所述按照第二预设顺序,在所述剩余候选时间序列中确定目标节点数据的步骤;直至按照第二预设顺序,在所述剩余候选时间序列中确定最后一个目标节点数据,计算所述最后一个目标节点数据与其对应的所述目标时间序列中节点数据的节点距离,并更新所述剩余候选时间序列对应的节点距离之和,得到最终节点距离之和;判断所述最终节点距离之和是否小于所述当前阈值,如果是,表示满足所述第二预设规则,将所述最终节点距离之和确定为当前阈值。9.根据权利要求8所述的方法,其特征在于,所述更新所述剩余候选时间序列对应的节点距离之和,包括:当所述目标节点数据为所述第二预设顺序下所述剩余候选时间序列中的第一个节点数据时,将所述第一个节点数据与其对应的所述目标时间序列中节点数据的节点距离记录为所述标准时间序列对应的节点距离之和;当所述目标节点数据不为所述第二预设顺序下所述剩余候选时间序列中的第一个节点数据时,将所述目标节点数据与其对应的所述目标时间序列中节点数据的节点距离与记录的所述剩余候选时间序列对应的节点距离之和相加,得到最新的所述剩余候选时间序列对应的节点距离之和。10.根据权利要求8所述的方法,其特征在于,在所述按照第二预设顺序,在所述剩余候选时间序列中确定目标节点数据之前,还包括:判断所述剩余候选时间序列是否为第一条剩余候选时间序列;如果否,执行所述按照第二预设顺序,在所述剩余候选时间序列中确定目标节点数据的步骤;如果是,按照所述第二预设顺序,在所述剩余候选时间序列中确定目标节点数据;计算所述目标节点数据与其对应的所述目标时间序列中节点数据的节点距离,并更新所述剩余候选时间序列对应的节点距离之和;直至按照所述第二预设顺序,在所述剩余候选时间序列中确定最后一个目标节点数据,计算所述最后一个目标节点数据与其对应的所述目标时间序列中节点数据的节点距离,并更新所述标准时间序列对应的节点距离之和,得到最终节点距离之和;将所述最终节点距离之和确定为所述当前阈值。11.根据权利要求8所述的方法,其特征在于,当所述剩余候选序列为第一条剩余候选时间序列时,所述当前阈值为第二预设阈值。12.一种时间序列的检索装置,其特征在于,包括:第一获取模块,用于获取待检索的目标时间序列;第二获取模块,用于获取用于检索的数据段中的候选时间序列;过滤模块,用于按照预设过滤算法,计算每个候选时间序列与所述目标时间序列之间的边界距离;滤除所述与所述目标时间序列之间的边界距离不满足第一预设规则的候选时间序列,获得剩余候选时间序列;计算模块,计算所述目标时间序列中的节点数据与每个所述剩余候选时间序列中节点数据的节点距离;第一判断模块,用于判断所述节点距离是否满足第二预设规则;确定模块,用于将节点距离满足第二预设规则的剩余候选时间序列确定为...

【专利技术属性】
技术研发人员:莫增文
申请(专利权)人:北京金山云网络技术有限公司北京金山云科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1