当前位置: 首页 > 专利查询>东北大学专利>正文

一种海量高铁轴温数据的分布式时间序列模式检索方法技术

技术编号:20916024 阅读:34 留言:0更新日期:2019-04-20 09:35
本发明专利技术提供一种海量高铁轴温数据的分布式时间序列模式检索方法,涉及时间序列分析技术领域。该方法首先设置检索基准时间序列模式及需要检索的最相似的模式个数;将待检索的历史轴温时间序列数据读取进分布式系统中,构造分布式数据集X;然后为X的元素构建索引;根据基准时间序列的长度构造多个辅助分布式数据集,将X和辅助数据集进行联结,构造分布式数据集Z,其每个元素为一个短时间序列;计算基准时间序列和Z的元素之间的欧式距离,构造出分布式数据集R;对R进行排序,取最小的k个元素,返回对应元素的索引;根据索引取得数据集Z中相应的元素。本发明专利技术的海量高铁轴温数据的分布式时间序列模式检索方法,提高了海量轴温时间序列数据的相似性检索效率。

A Distributed Time Series Model Retrieval Method for Massive Axis Temperature Data of High-speed Rail

The invention provides a distributed time series pattern retrieval method for massive axle temperature data of high-speed rail, which relates to the field of time series analysis technology. Firstly, this method sets the number of retrieval benchmark time series patterns and the most similar patterns to be retrieved; reads the retrieved historical axle temperature time series data into the distributed system to construct the distributed data set X; then constructs an index for the elements of X; constructs multiple auxiliary distributed data sets according to the length of the benchmark time series, and joins X and auxiliary data sets to construct them. Distributed data set Z, each element of which is a short time series, calculates the Euclidean distance between the benchmark time series and Z elements, and constructs the distributed data set R; ranks R, takes the smallest K elements, returns the index of corresponding elements; and obtains the corresponding elements in data set Z according to the index. The distributed time series pattern retrieval method for massive axle temperature data of high-speed railway improves the similarity retrieval efficiency of massive axle temperature time series data.

【技术实现步骤摘要】
一种海量高铁轴温数据的分布式时间序列模式检索方法
本专利技术涉及时间序列分析
,尤其涉及一种海量高铁轴温数据的分布式时间序列模式检索方法。
技术介绍
时间序列是一种和时间相关联、具有先后次序的数值序列或符号序列,在金融、气象、故障诊断等领域应用非常广泛。高铁轴温数据作为高铁日常运维数据的重要组成部分,具有典型的时间序列特征,对时间序列的分析处理也是目前高铁故障诊断研究的一个重要方向,包括异常模式的检索、模式挖掘、聚类等。由于高铁轴温传感器数量多、采集频率快,因此高铁轴温数据具有数据量大、维度高、更新频率高等特点,即具有典型的大数据特征。因此如何对高铁海量轴温数据组成的庞大的时间序列的高效处理,是目前需要研究和待解决的问题。时间序列的相似模式检索问题可描述为给定某时间序列模式,从一个大型的时间序列中找出与之最相似的若干子序列,时间序列相似性检索是其他时间序列分析任务实现的前提,比如异常检测和模式识别等。目前的时间序列相似模式检索方法主要采用单机方法对时间序列进行串行的检索,找出相似性符合要求的所有子序列模式。但是由于机器性能的限制,单机方法能够处理的数据量有限,且计算的效率低下,难以满足海量轴温时间序列数据的检索需求。目前大数据和云计算的发展,使得数据的分布式并行计算成为了可能,极大的提高了数据处理的能力和效率,为海量轴温时间序列数据的分析问题提供了解决的思路。为了提高海量轴温时间序列数据的检索效率,需要研究分布式的时间序列相似模式检索方法。
技术实现思路
本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种海量高铁轴温数据的分布式时间序列模式检索方法,使用分布式计算节点组成的大数据处理集群,通过将数据分发到集群不同节点的内存中,当集群运行计算任务时,将计算任务分解分发到不同的节点,从而实现时间序列相似模式的并行检索。为解决上述技术问题,本专利技术所采取的技术方案是:一种海量高铁轴温数据的分布式时间序列模式检索方法,包括以下步骤:步骤1、设置检索的轴温数据基准时间序列模式s,确定检索模式的长度m,设定需要检索的最相似的模式个数为k;所述轴温数据为高铁的轴承温度数据,采样周期为1s;所述基准时间序列模式是在轴温数据中自定义选取的一个连续时间段的数据,长度为m;步骤2、将待检索的海量历史轴温时间序列数据读取进分布式系统计算节点的内存中,构造初始分布式数据集X,并确定并行计算任务的个数n,具体包括以下步骤:步骤2.1、将保存在硬盘存储介质中的历史轴温数据通过网络上传至分布式文件系统HDFS(HadoopDistributedFileSystem)中;步骤2.2、使用分布式Spark计算引擎读取存储在HDFS的海量轴温时间序列数据;步骤2.3、设置要创建的分布式数据集的分区个数为n,Spark计算引擎根据设定的分区数将存储在HDFS上的轴温数据切分出n个数据块,为每个数据块创建一个分区,构造出分区数为n的分布式数据集RDD(ResilientDistributedDataSet,即弹性分布式数据集)对象X,X的每个元素为某一时刻的轴温数据值,并且X维护着分区的顺序及每个分区首个元素在整个数据集中的偏移量;步骤2.4、根据分区数确定并行计算任务个数为n,Spark计算引擎为RDD对象X的每个数据分区创建一个计算任务分发到不同计算节点,任务之间相互独立,每个任务并行处理一个分区的数据;步骤3、为步骤2中分布式数据集X构建索引,根据时间顺序对数据集X中的每个元素从0开始编号,其中每个分区的编号任务是在不同节点并行进行计算的;数据集X中的每个元素转换为<key,value>键值对记录形式,其中,key为索引编号,value为对应时刻的轴温时间序列数值;步骤4、根据基准时间序列模式的长度构造m-1个辅助分布式数据集Yj,其中j∈(1,m-1),将步骤3中分布式数据集X和辅助分布式数据集进行联结,构造出每个元素是一个长度为m的短时间序列的分布式数据集Z,具体步骤包括:步骤4.1、根据设定的基准时间序列模式的长度m,构造出m-1个和步骤3中数据集X相同的辅助分布式数据集Yj,其中j∈(1,m-1);步骤4.2、对m-1个辅助分布式数据集Yj构建索引,其中Yj的元素从-j开始编号;步骤4.3、对分布式数据集X依次和m-1个辅助分布式数据集Yj进行笛卡尔积操作,并将进行笛卡尔积的两个分布式数据集中具有相同索引key值的元素进行联结;步骤4.4、经过步骤4.3之后,从步骤3中的数据集X构造出分布式数据集Z,Z的元素为<key1,(value1,value2,...,valuem)>形式,其中,key1为元素的编号,(value1,value2,...,valuem)代表一段以第key1个时刻开始长度为m的短时间序列;步骤5、通过Spark计算引擎创建计算任务,每个计算任务的逻辑是计算基准时间序列模式和每个数据分区的元素之间的欧式距离,将每个计算任务分发到分布式系统中的若干节点并行计算,构造出分布式数据集R,具体步骤包括:步骤5.1、通过Spark计算引擎为步骤4.4中数据集Z的每个数据分区创建一个计算任务,每个计算任务完成的逻辑都是将基准数据序列s和该数据分区的每个元素代表的短时间序列l计算欧式距离;步骤5.2、通过分布式Spark计算引擎调度步骤5.1中创建的计算任务,将计算任务分发到数据分区所在的计算节点,每个计算任务处理其所在节点的分区数据;步骤5.3、创建分布式数据集R,数据个数和数据集Z相同,其元素为<keyR,valueR>键值对形式,keyR为元素编号,valueR为Z的每个元素和基准时间序列之间的计算得出的欧式距离数值;步骤6、对步骤5.3中的分布式数据集R根据欧式距离值进行全排序,取距离最小的前k个元素,并返回每个元素的索引,其具体步骤包括:步骤6.1、通过Spark计算引擎对分布式数据集R的每个分区的数据根据元素的value进行并行计算排序,取每个分区最小的k个元素;步骤6.2、将R的n个分区求得的n×k个元素收集到分布式系统中的一个节点上,进行汇总排序,取最小的k个元素,并记录计算得到的元素的索引值;步骤7、根据步骤6得到的索引取得步骤4中数据集Z中相应的元素,即得到了海量轴温历史时间序列数据集中与基准时间序列最相似的k个子时间序列。采用上述技术方案所产生的有益效果在于:本专利技术提供的一种海量高铁轴温数据的分布式时间序列模式检索方法,在利用分布式Spark计算引擎和分布式文件系统HDFS的基础上,对海量高铁轴温时间序列数据组成的分布式数据集进行重新组织变换,将高铁轴温数据组成的分布式数据集的每个元素转换成相互独立并且保持时间顺序的短时间序列,通过Spark计算引擎可以对每个数据分区创建一个计算任务分发到分布式系统的不同计算节点进行计算。从而可以实现时间序列的并行相似性检索效果,解决单机无法处理的海量高铁轴温时间序列的相似性检索问题,提高海量轴温时间序列数据的相似性检索效率。附图说明图1为本专利技术实施例提供的一种海量高铁轴温数据的分布式时间序列模式检索方法的流程图;图2为本专利技术实施例提供的时间序列检索效果图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进本文档来自技高网...

【技术保护点】
1.一种海量高铁轴温数据的分布式时间序列模式检索方法,其特征在于:包括以下步骤:步骤1、设置检索的轴温数据基准时间序列模式s,确定检索模式的长度m,设定需要检索的最相似的模式个数为k;所述轴温数据为高铁的轴承温度数据,采样周期为1s;所述基准时间序列模式是在轴温数据中自定义选取的一个连续时间段的数据,长度为m;步骤2、将待检索的海量历史轴温时间序列数据读取进分布式系统计算节点的内存中,构造初始分布式数据集X,并确定并行计算任务的个数n;步骤3、为步骤2中分布式数据集X构建索引,根据时间顺序对数据集X中的每个元素从0开始编号,其中每个分区的编号任务是在不同节点并行进行计算的;数据集X中的每个元素转换为<key,value>键值对记录形式,其中,key为索引编号,value为对应时刻的轴温时间序列数值;步骤4、根据基准时间序列模式的长度构造m‑1个辅助分布式数据集Yj,其中j∈(1,m‑1),将步骤3中分布式数据集X和辅助分布式数据集进行联结,构造出每个元素是一个长度为m的短时间序列的分布式数据集Z;步骤5、通过Spark计算引擎创建计算任务,每个计算任务的逻辑是计算基准时间序列模式和每个数据分区的元素之间的欧式距离,将每个计算任务分发到分布式系统中的若干节点并行计算,构造出分布式数据集R;步骤6、对步骤5中的分布式数据集R根据欧式距离值进行全排序,取距离最小的前k个元素,并返回每个元素的索引;步骤7、根据步骤6得到的索引取得步骤4中数据集Z中相应的元素,即得到了海量轴温历史时间序列数据集中与基准时间序列最相似的k个子时间序列。...

【技术特征摘要】
1.一种海量高铁轴温数据的分布式时间序列模式检索方法,其特征在于:包括以下步骤:步骤1、设置检索的轴温数据基准时间序列模式s,确定检索模式的长度m,设定需要检索的最相似的模式个数为k;所述轴温数据为高铁的轴承温度数据,采样周期为1s;所述基准时间序列模式是在轴温数据中自定义选取的一个连续时间段的数据,长度为m;步骤2、将待检索的海量历史轴温时间序列数据读取进分布式系统计算节点的内存中,构造初始分布式数据集X,并确定并行计算任务的个数n;步骤3、为步骤2中分布式数据集X构建索引,根据时间顺序对数据集X中的每个元素从0开始编号,其中每个分区的编号任务是在不同节点并行进行计算的;数据集X中的每个元素转换为<key,value>键值对记录形式,其中,key为索引编号,value为对应时刻的轴温时间序列数值;步骤4、根据基准时间序列模式的长度构造m-1个辅助分布式数据集Yj,其中j∈(1,m-1),将步骤3中分布式数据集X和辅助分布式数据集进行联结,构造出每个元素是一个长度为m的短时间序列的分布式数据集Z;步骤5、通过Spark计算引擎创建计算任务,每个计算任务的逻辑是计算基准时间序列模式和每个数据分区的元素之间的欧式距离,将每个计算任务分发到分布式系统中的若干节点并行计算,构造出分布式数据集R;步骤6、对步骤5中的分布式数据集R根据欧式距离值进行全排序,取距离最小的前k个元素,并返回每个元素的索引;步骤7、根据步骤6得到的索引取得步骤4中数据集Z中相应的元素,即得到了海量轴温历史时间序列数据集中与基准时间序列最相似的k个子时间序列。2.根据权利要求1所述的一种海量高铁轴温数据的分布式时间序列模式检索方法,其特征在于:所述步骤2的具体方法为:步骤2.1、将保存在硬盘存储介质中的历史轴温数据通过网络上传至分布式文件系统HDFS(HadoopDistributedFileSystem)中;步骤2.2、使用分布式Spark计算引擎读取存储在HDFS的海量轴温时间序列数据;步骤2.3、设置要创建的分布式数据集的分区个数为n,Spark计算引擎根据设定的分区数将存储在HDFS上的轴温数据切分出n个数据块,为每个数据块创建一个分区,构造出分区数为n的分布式数据集RDD(ResilientDistributedDataSets,即弹性分布式数据集)对象X,X的每个元素为某一时刻的轴温数据值,并且X维护着分区...

【专利技术属性】
技术研发人员:徐泉解军帅
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1