一种面向海量数据的并行互相关计算方法技术

技术编号:21060274 阅读:31 留言:0更新日期:2019-05-08 07:01
一种面向海量数据的并行互相关计算方法,包括如下步骤:a)分割成

【技术实现步骤摘要】
一种面向海量数据的并行互相关计算方法
本专利技术涉及互相关计算领域,具体涉及一种面向海量数据的并行互相关计算方法。
技术介绍
互相关是信号分析里的概念,它表示的是两个时间序列之间相关程度。互相关函数给出了在频域内两个信号是否相关的一个判断指标,把两测点之间信号的互谱与各自的自谱联系了起来。它能用来确定输出信号有多大程度来自输入信号,对修正测量中接入噪声源而产生的误差非常有效。目前互相关算法已广泛应用于地震波形处理、音视频信号、等领域。主要步骤包括信号滤波和互相关函数计算。但随着计算机技术的飞速发展,数据量大大增加,传统的串行化互相关算法面向海量数据时存在计算速度慢、消耗时间长等问题,已不能满足日常业务的需求。
技术实现思路
本专利技术为了克服以上技术的不足,提供了一种提高互相关计算速度的面向海量数据的并行互相关计算方法。本专利技术克服其技术问题所采用的技术方案是:一种面向海量数据的并行互相关计算方法,包括如下步骤:a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;c)根据公式NC=S×C×5、NM=U×C×Vu/Vm、将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量;d)将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C;e)将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;f)按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。优选的,步骤a)中每个波形单元的时间单位比波形文件数据采样的时间单位大两个以上。本专利技术的有益效果是:通过对数据集与算法步进行划分,并执行互相关计算,在多个计算节点的支持下可以大大提高互相关计算的速度。具体实施方式下面对本专利技术做进一步说明。一种面向海量数据的并行互相关计算方法,包括如下步骤:a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;c)根据公式NC=S×C×5、NM=U×C×Vu/Vm、将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量;d)将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C;e)将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;f)按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。本专利技术的面向海量数据的并行互相关计算方法通过对数据集与算法步进行划分,并执行互相关计算,在多个计算节点的支持下可以大大提高互相关计算的速度。进一步的,步骤a)中每个波形单元的时间单位比波形文件数据采样的时间单位大两个以上。下面以地震波形处理为例,样本数据时间跨度为1周,采样周期为1ms,总数据量7×24×60×60×1000=604800000条。采用3个计算节点进行处理,每个计算节点配置10核心CPU和32GB内存。处理步骤如下:1.为进行并行计算,首先需要将信号的波形文件按照时间序列分割成多个波形单元,每个波形单元的时间单位要比数据采样的时间单位大两个以上,采样周期单位为毫秒,因此采用小时为分割时间单位,即:每1小时数据分割为一个数据文件,共分为7×24×60=10080个文件,每个文件占用6MB存储空间。2.按照波形的实际时间顺序为步骤1中的每个波形单元做时间戳标记,该标记与整个流程结束后各波形单元计算结果中的时间戳一一对应。时间戳格式为××××-××-××_××:00:00。3.根据公式NC=S×C×5、NM=U×C×Vu/Vm、将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为每个计算节点的内存容量,Vu为每个波形单元所占用存储空间的容量。本实施例中计算节点的数量为3,计算节点的CPU核心数为10,波形单元数量为10080,每个计算节点的内存容量32GB,每个波形单元所占用存储空间的容量为6MB。经计算,数据集的数量为100。4.将得到的N个分布式数据集均匀分布到M个计算机的算法执行队列中执行滤波算法,其中M=S×C。为每个计算节点的CPU核心分配一个算法执行队列,共计30个。5.将经过滤波计算后的N个分布式数据集进入互相关算法队列进行互相关计算,利用步骤b)中的时间戳标记对互相关计算的结果进行标记;6.按标记好的时间戳顺序对互相关计算的结果进行整合,得到最终的结果文件。本文档来自技高网...

【技术保护点】
1.一种面向海量数据的并行互相关计算方法,其特征在于,包括如下步骤:a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;c)根据公式NC=S×C×5、NM=U×C×Vu/Vm、

【技术特征摘要】
1.一种面向海量数据的并行互相关计算方法,其特征在于,包括如下步骤:a)将信号的波形文件按照该波形文件的时间序列分割成U个波形单元;b)按波形文件的实际时间顺序为步骤a)中的每个波形单元做时间戳标记;c)根据公式NC=S×C×5、NM=U×C×Vu/Vm、将所有波形单元按照并行计算节点的物理配置重新整合成分布数据集,其中NC为基于计算机计算能力的分布式数据集理论数量,NM为基于计算机存储能力的分布式数据集理论数量,N为分布式数据集的数量,S为计算节点的数量,C为计算节点的CPU核心数,Vm为...

【专利技术属性】
技术研发人员:司冠南蔡寅张明周风余
申请(专利权)人:山东交通学院
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1