The invention provides a distributed time series pattern retrieval method for massive axle temperature data of high-speed rail, which relates to the field of time series analysis technology. Firstly, this method sets the number of retrieval benchmark time series patterns and the most similar patterns to be retrieved; reads the retrieved historical axle temperature time series data into the distributed system to construct the distributed data set X; then constructs an index for the elements of X; constructs multiple auxiliary distributed data sets according to the length of the benchmark time series, and joins X and auxiliary data sets to construct them. Distributed data set Z, each element of which is a short time series, calculates the Euclidean distance between the benchmark time series and Z elements, and constructs the distributed data set R; ranks R, takes the smallest K elements, returns the index of corresponding elements; and obtains the corresponding elements in data set Z according to the index. The distributed time series pattern retrieval method for massive axle temperature data of high-speed railway improves the similarity retrieval efficiency of massive axle temperature time series data.
【技术实现步骤摘要】
一种海量高铁轴温数据的分布式时间序列模式检索方法
本专利技术涉及时间序列分析
,尤其涉及一种海量高铁轴温数据的分布式时间序列模式检索方法。
技术介绍
时间序列是一种和时间相关联、具有先后次序的数值序列或符号序列,在金融、气象、故障诊断等领域应用非常广泛。高铁轴温数据作为高铁日常运维数据的重要组成部分,具有典型的时间序列特征,对时间序列的分析处理也是目前高铁故障诊断研究的一个重要方向,包括异常模式的检索、模式挖掘、聚类等。由于高铁轴温传感器数量多、采集频率快,因此高铁轴温数据具有数据量大、维度高、更新频率高等特点,即具有典型的大数据特征。因此如何对高铁海量轴温数据组成的庞大的时间序列的高效处理,是目前需要研究和待解决的问题。时间序列的相似模式检索问题可描述为给定某时间序列模式,从一个大型的时间序列中找出与之最相似的若干子序列,时间序列相似性检索是其他时间序列分析任务实现的前提,比如异常检测和模式识别等。目前的时间序列相似模式检索方法主要采用单机方法对时间序列进行串行的检索,找出相似性符合要求的所有子序列模式。但是由于机器性能的限制,单机方法能够处理的数据量有限,且计算的效率低下,难以满足海量轴温时间序列数据的检索需求。目前大数据和云计算的发展,使得数据的分布式并行计算成为了可能,极大的提高了数据处理的能力和效率,为海量轴温时间序列数据的分析问题提供了解决的思路。为了提高海量轴温时间序列数据的检索效率,需要研究分布式的时间序列相似模式检索方法。
技术实现思路
本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种海量高铁轴温数据的分布式时间序列模式检索 ...
【技术保护点】
1.一种海量高铁轴温数据的分布式时间序列模式检索方法,其特征在于:包括以下步骤:步骤1、设置检索的轴温数据基准时间序列模式s,确定检索模式的长度m,设定需要检索的最相似的模式个数为k;所述轴温数据为高铁的轴承温度数据,采样周期为1s;所述基准时间序列模式是在轴温数据中自定义选取的一个连续时间段的数据,长度为m;步骤2、将待检索的海量历史轴温时间序列数据读取进分布式系统计算节点的内存中,构造初始分布式数据集X,并确定并行计算任务的个数n;步骤3、为步骤2中分布式数据集X构建索引,根据时间顺序对数据集X中的每个元素从0开始编号,其中每个分区的编号任务是在不同节点并行进行计算的;数据集X中的每个元素转换为<key,value>键值对记录形式,其中,key为索引编号,value为对应时刻的轴温时间序列数值;步骤4、根据基准时间序列模式的长度构造m‑1个辅助分布式数据集Yj,其中j∈(1,m‑1),将步骤3中分布式数据集X和辅助分布式数据集进行联结,构造出每个元素是一个长度为m的短时间序列的分布式数据集Z;步骤5、通过Spark计算引擎创建计算任务,每个计算任务的逻辑是计算基准时间序 ...
【技术特征摘要】
1.一种海量高铁轴温数据的分布式时间序列模式检索方法,其特征在于:包括以下步骤:步骤1、设置检索的轴温数据基准时间序列模式s,确定检索模式的长度m,设定需要检索的最相似的模式个数为k;所述轴温数据为高铁的轴承温度数据,采样周期为1s;所述基准时间序列模式是在轴温数据中自定义选取的一个连续时间段的数据,长度为m;步骤2、将待检索的海量历史轴温时间序列数据读取进分布式系统计算节点的内存中,构造初始分布式数据集X,并确定并行计算任务的个数n;步骤3、为步骤2中分布式数据集X构建索引,根据时间顺序对数据集X中的每个元素从0开始编号,其中每个分区的编号任务是在不同节点并行进行计算的;数据集X中的每个元素转换为<key,value>键值对记录形式,其中,key为索引编号,value为对应时刻的轴温时间序列数值;步骤4、根据基准时间序列模式的长度构造m-1个辅助分布式数据集Yj,其中j∈(1,m-1),将步骤3中分布式数据集X和辅助分布式数据集进行联结,构造出每个元素是一个长度为m的短时间序列的分布式数据集Z;步骤5、通过Spark计算引擎创建计算任务,每个计算任务的逻辑是计算基准时间序列模式和每个数据分区的元素之间的欧式距离,将每个计算任务分发到分布式系统中的若干节点并行计算,构造出分布式数据集R;步骤6、对步骤5中的分布式数据集R根据欧式距离值进行全排序,取距离最小的前k个元素,并返回每个元素的索引;步骤7、根据步骤6得到的索引取得步骤4中数据集Z中相应的元素,即得到了海量轴温历史时间序列数据集中与基准时间序列最相似的k个子时间序列。2.根据权利要求1所述的一种海量高铁轴温数据的分布式时间序列模式检索方法,其特征在于:所述步骤2的具体方法为:步骤2.1、将保存在硬盘存储介质中的历史轴温数据通过网络上传至分布式文件系统HDFS(HadoopDistributedFileSystem)中;步骤2.2、使用分布式Spark计算引擎读取存储在HDFS的海量轴温时间序列数据;步骤2.3、设置要创建的分布式数据集的分区个数为n,Spark计算引擎根据设定的分区数将存储在HDFS上的轴温数据切分出n个数据块,为每个数据块创建一个分区,构造出分区数为n的分布式数据集RDD(ResilientDistributedDataSets,即弹性分布式数据集)对象X,X的每个元素为某一时刻的轴温数据值,并且X维护着分区...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。