天文巡天数据处理方法、系统和存储介质技术方案

技术编号:21971569 阅读:32 留言:0更新日期:2019-08-28 01:30
本发明专利技术提供了一种天文巡天数据处理方法、系统和存储介质,该方法包括:数据分配步骤,将待处理光谱数据文件投递到分布式文件系统,并分割为多个数据块,分配给计算节点;数据计算步骤,进行匹配模板匹配方法对数据块中的待测光谱进行光谱分类并存储光谱分类结果;数据计算步骤包括:读取模板光谱提取模板通用算子,模板通用算子包括:矩阵X=[fmW

Data Processing Method, System and Storage Media for Astronomical Survey

【技术实现步骤摘要】
天文巡天数据处理方法、系统和存储介质
本专利技术涉及天文数据处理
,尤其涉及一种天文巡天数据处理方法、系统和存储介质。
技术介绍
随着大数据时代的全面到来,天文数据处理也迎来了新的时期。对TB甚至PB数量级的天文数据处理用传统的数据处理方法和传统的计算框架越来越吃力。郭守敬望远镜(LAMOST,大天区面积多目标光纤光谱天文望远镜)一次观测能够同时获得4000个天体的光谱,是世界上光谱获取率最高的巡天望远镜,该望远镜肩负着星体的普查工作,已经运行了多个年头,发布的光谱数据累计高达1000多万条。传统的处理方法是用高性能工作站来处理这些数据,如图1所示。图1中,管理工作站2用于进行巡天数据管理,将来自3U存储服务器3的巡天数据通过内部网络传送给一台或多台运算工作站4进行运算,用户终端1用于向管理工作站2发送操作指令。郭守敬望远镜巡天数据的一维光谱处理通过模板匹配进行光谱分类,在传统技术下利用奇异值分解(SVD:SingularValueDecomposition)来求多项式的系数进行模板匹配产生的计算量直接与模板的个数有关,增加模板个数就增加成倍的工作量,在处理大数据时是非常可怕的后果。就目前1000万条郭守敬望远镜巡天光谱来说,单个服务器处理一遍需要5000小时。若把光谱分开来给32台服务器同时处理,也需要160小时,处理成本(时间成本,硬件成本)非常大。如果再增加100个模板,处理时间就要延长100倍,而且处理过程中如果出现问题需要重新处理,后果更是不堪设想。随着巡天光谱数据更加完备,模板数量也会不断的增多,传统的处理方法就只能不断的扩大运行成本,并使得计算越来越困难。随着海量巡天数据的产生,对巡天数据的这种传统计算方法在数据读取和数据计算过程中都会出现不同程度的短板,如果仅仅利用单台工作站计算通常不能在可接受的时间内完成工作,而依托多台独立工作站采用多线程的处理方式往往会出现分配不均,结果难处理等问题,处理时间仍旧太长。并且这种工作方式没有数据共享和实时容灾恢复机制,为数据的后期处理带来一定的风险。也即,随着天文巡天数据量的增大,传统的处理方法显得捉襟见肘,如何快速有效的处理这些巡天数据是本专利技术亟待解决的一个问题。
技术实现思路
有鉴于此,本专利技术提供了一种天文望远镜巡天数据处理方法、系统和存储介质,以能够快速有效的处理巡天数据。为了实现上述目的,本专利技术采用以下方案:本专利技术的一方面提供一种天文巡天数据处理方法,该方法包括:数据分配步骤:将待处理光谱数据文件投递到分布式文件系统,并将所述待处理光谱数据文件分割为多个数据块,分配给多个计算节点;数据计算步骤:利用分布式计算框架,在各计算节点,通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果;其中,所述数据计算步骤包括:读取模板光谱,并提取模板通用算子,所述模板通用算子包括以下算子中的至少一个:矩阵X=[fmW4fmW3fmW2fmWfm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值,其中,fm为模板光谱流量值,W是所述多项式中波长方向上的变量;读取待测光谱;按照预定移动步长将红移进行平移来进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;针对每个模板光谱,找到对应最小卡方误差和对应红移,从而确定待测光谱的分类。在一实施例中,所述方法还包括:数据预处理步骤:提取巡天文件数据信息,对提取的信息进行格式化处理,得到待处理光谱数据文件。在一实施例中,所述数据预处理步骤包括:读取FITS格式巡天文件数据,提取FITS头信息和光谱数据,将提取的信息进行格式化并合并。在一实施例中,通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法满足如下公式:其中,fo是待测光谱流量值,表示多项式,β表多项式的系数。在一实施例中,通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法满足如下公式:其中,fo是待测光谱流量值,表示多项式,β表多项式的系数。在一实施例中,所述方法还包括:将提取模板通用算子存储为广播变量,并发送给各个计算节点。在一实施例中,所述针对每个模板光谱,找到对应最小卡方误差和对应红移的步骤包括:针对每一模板光谱,找到最小卡方误差及其周围的预定个数的卡方误差点,进行高斯拟合;根据高斯拟合曲线的最低点作为当前模板得到最小卡方误差及其对应的红外值。在一实施例中,所述分布式计算框架为Spark计算框架。本专利技术的另一方面提供一种天文巡天数据处理装置,该装置包括处理器和存储器,所述处理器被配置为执行所述存储器上存储的计算机程序代码时实现如下步骤:通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果;该步骤包括:读取模板光谱,并提取模板通用算子,所述模板通用算子包括以下算子中的至少一个:矩阵X=[fmW4fmW3fmW2fmWfm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值,其中,fm为模板光谱流量值,W是所述多项式中波长方向上的变量;读取待测光谱;按照预定移动步长将红移进行平移来进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;针对每个模板光谱,找到对应最小卡方误差和对应红移,从而确定待测光谱的分类。本专利技术的另一方面提供一种天文巡天数据处理系统,该系统包括集群管理工作站和多个计算节点;所述集群管理工作站将待处理光谱数据文件投递到分布式文件系统,并将所述待处理光谱数据文件分割为多个数据块,分配给多个计算节点;各计算节点通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果,各计算节点通过计算机程序执行如下步骤:读取模板光谱,并提取模板通用算子,所述模板通用算子包括以下算子中的至少一个:矩阵X=[fmW4fmW3fmW2fmWfm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值,其中,fm为模板光谱流量值,W是所述多项式中波长方向上的变量;读取待测光谱;按照预定移动步长将红移进行平移来进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;针对每个模板光谱,找到对应最小卡方误差和对应红移,从而确定待测光谱的分类。本专利技术的另一方面提供一种计算机存储介质,其上存储有计算机程序该程序被处理器执行时实现如前所述方法的步骤。本专利技术利用分布式并行计算框架并且结合直接矩阵求解多项式系数的方法完成了光谱分类问题,具有成本低,维护简单,可扩展性强的特点,使得天文巡天数据的处理速度大大提高。本专利技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本专利技术的实践而获知。本专利技术的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他本文档来自技高网
...

【技术保护点】
1.一种天文巡天数据处理方法,其特征在于,该方法包括:数据分配步骤:将待处理光谱数据文件投递到分布式文件系统,并将所述待处理光谱数据文件分割为多个数据块,分配给多个计算节点;数据计算步骤:利用分布式计算框架,在各计算节点,通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果;其中,所述数据计算步骤包括:读取模板光谱,并提取模板通用算子,所述模板通用算子包括以下算子中的至少一个:矩阵X=[fmW

【技术特征摘要】
1.一种天文巡天数据处理方法,其特征在于,该方法包括:数据分配步骤:将待处理光谱数据文件投递到分布式文件系统,并将所述待处理光谱数据文件分割为多个数据块,分配给多个计算节点;数据计算步骤:利用分布式计算框架,在各计算节点,通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果;其中,所述数据计算步骤包括:读取模板光谱,并提取模板通用算子,所述模板通用算子包括以下算子中的至少一个:矩阵X=[fmW4fmW3fmW2fmWfm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值,其中,fm为模板光谱流量值,W是所述多项式中波长方向上的变量;读取待测光谱;按照预定移动步长将红移进行平移来进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;针对每个模板光谱,找到对应最小卡方误差和对应红移,从而确定待测光谱的分类。2.如权利要求1所述的方法,其特征在于,所述方法还包括:数据预处理步骤:提取巡天文件数据信息,对提取的信息进行格式化处理,得到待处理光谱数据文件。3.如权利要求2所述的方法,其特征在于,所述数据预处理步骤包括:读取FITS格式巡天文件数据,并提取FITS头信息和光谱数据,可将提取的信息进行格式化并合并。4.如权利要求1所述的方法,其特征在于,通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法满足如下公式:其中,fo是待测光谱流量值,表示多项式,β表多项式的系数。5.如权利要求1所述的方法,其特征在于,所述方法还包括:将提取模板通用算子存储为广播变量,并发送给各个计算节点。6.如权利要求1所述的方法,其特征在于,所述针对每个模板光谱,找到对应最小卡方误差和对应红移的步骤包括:针对每一模板光谱,找到最小卡方误差及其周围的预定个数的卡方误差点,进行高斯拟合;根据高斯拟合曲线的最低点作为当前模板得到最小卡方误差及其对应的红外值。7.如权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:邬科飞罗阿理赵东纬孔啸赵永恒
申请(专利权)人:中国科学院国家天文台
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1