当前位置: 首页 > 专利查询>东华大学专利>正文

一种恒星光谱分类方法技术

技术编号:25990656 阅读:45 留言:0更新日期:2020-10-20 18:58
本发明专利技术公开了一种基于深度学习的恒星光谱分类方法,针对目前LAMOST等大规模光谱巡天缺乏快速、准确恒星光谱型分类方法的问题。所述方法包括步骤:获取并预处理光谱数据;获取标注数据并交叉证认;制作标注数据集与无标签数据集;构建深度学习分类模型;应用模型扩充训练数据并二次训练。本发明专利技术的数据处理方法可以得到大规模且高质量的训练数据集;所构建的半监督多层感知机模型面对光谱巡天观测的大样本,具有很高的分类准确率。

【技术实现步骤摘要】
一种恒星光谱分类方法
本专利技术涉及一种恒星光谱分类方法,特别是基于深度学习的恒星光谱分类方法,用于将恒星光谱数据进行准确分类,属于数据挖掘

技术介绍
随着众多大规模巡天观测计划的成功开展,所获取的恒星光谱的数量呈现爆炸式增长,例如目前LAMOST(郭守敬望远镜)获取的光谱数已达千万量级。而恒星光谱分类,是基于巡天数据展开恒星与星系研究的基础工作。面对海量数据,人工分类不可能胜任,已有的自动或半自动分类方法在准确性和速度上也难以满足需求。近年来快速发展的机器学习和深度学习给光谱分类工作带来了新的思路。通过建立模型,向模型中输入大量的训练数据,让计算机发现规律,作出分类判断。在这个过程中,构建的模型以及用于训练的数据是关键,直接关系到模型的运行速度与准确率。
技术实现思路
本专利技术的目的是:提供一种适用于大规模光谱巡天数据,基于深度学习的快速、高准确率的恒星光谱分类方法。为了解决上述技术问题,本专利技术的技术方案是提供了一种恒星光谱分类方法,具体包括以下步骤:步骤一、获取LAMOST恒星光谱数据,并对数据进行预处理;步骤二、获取LAMOST与SIMBAD(WengerM.等人于2000年提出)两数据库的光谱型标注数据,并对两者作天文交叉证认;步骤三、结合步骤一与步骤二分别得到的光谱与标注数据,制作数据集。数据集包含两个部分,标注数据集,即包含了光谱型标注信息的数据,用于监督学习的训练与验证,而无标签数据集则用于模型的无监督预训练;步骤四、构建半监督深度学习分类模型,由自编码器与多层感知机两部分组成,分别用于无监督预训练与监督学习。步骤五、从步骤一得到的光谱中,挑选部分样本,使用步骤四得到的模型预测其光谱型,并以此制作扩充数据集;步骤六、使用步骤五得到的扩充数据集训练步骤四构建的多层感知机,保存最终模型。步骤一中所述光谱数据的预处理方法,将原始光谱统一截取相同的波长范围和采样点数量,并使用公式将光通量线性映射到0-1区间,其中指某一采样点映射后的通量值,F指这一采样点映射前的通量值,Fmax指同一光谱的波长截取范围内所有采样点中光通量的最大值。步骤二中所述交叉证认,使用TOPCAT软件Skycrossmatch功能,对LAMOST与SIMBAD两数据库中样本数据作J2000坐标匹配,将匹配成功的样本组成样本集S1;在S1中作进一步筛选,当且仅当样本的LAMOST光谱型标注SubClass与SIMBAD光谱型标注sp_type均包含同一光谱型时,将样本加入标注数据集制作的候选样本集S2。步骤三中,制作的数据集包含两个部分:标注数据集与无标签数据集;标注数据集的制作,是依据LAMOST观测数据的目标唯一标识编号LMJD+PlanId+spId+FiberId,匹配步骤一与步骤二所得光谱与标注样本,并制成二元标注数据集D1;无标签数据集的制作,不严格要求数据集中不同光谱型样本的比例,直接依据LAMOST光谱型标注,从步骤一所得光谱数据中每一光谱型各选取一定数量的样本,制成一元无标签数据集D2。步骤四中,深度学习模型包含两个模块:多层感知机分类器和自编码器;自编码器在D2上训练,保存编码器网络参数作为多层感知机分类器的初始参数;多层感知机分类器加载初始参数并在D1上训练,保存分类模型M1。优选的,所述的多层感知机分类器是一种全连接神经网络,由输入层、隐藏层、输出层组成,其中隐藏层包含若干全连接层与Dropout;输入层所含神经元数量与输入光谱数据的维度相同,输出层所含神经元数量与光谱类别总数相同;全连接层以LeakyReLU作为激活函数,输出层以Softmax作为激活函数;训练过程中,损失函数选择多分类交叉熵函数,优化器为Adam;包括LeakyReLU函数的负半轴斜率值、Dropout舍弃率等网络超参数,经Hyperopt试验、优化并指定。优选的,所述的自编码器是一种全连接神经网络,由输入层、编码器、编码层、解码器、输出层组成;其中,输入层与输出层所含神经元数量与输入光谱数据的维度相同;编码器包含多层感知机分类器隐藏层中所有全连接层,各层的堆叠顺序与超参数均与多层感知机分类器中对应层相同;编码层所含神经元数量与光谱类别总数相同,不含激活函数;解码器采用与编码器镜像对称的结构,各层的超参数与编码器对应层相同,但堆叠顺序相反。步骤五中,扩充数据集的制作,是依据LAMOST光谱型标注,从步骤一所得光谱数据中每一光谱型各选取一定数量的样本,并使用分类模型M1预测这些样本对应的光谱型;将这些样本与对应的预测光谱型制成二元扩充数据集D3。步骤六中,使用步骤五所得扩充数据集训练步骤四所得模型,多层感知机分类器加载初始参数并在D3上训练,保存最终分类模型M2,作为本专利技术最终得到的恒星光谱分类模型。本专利技术的数据处理方法可以得到大规模且高质量的训练数据集;所构建的半监督多层感知机模型面对光谱巡天观测的大样本,具有很高的分类准确率。附图说明图1为本专利技术的总体结构图;图2为本专利技术中数据集制作流程;图3为本专利技术中分类模型的结构。具体实施方式为使下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。本专利技术的实施方式涉及恒星光谱数据集的制作,以及一种基于深度学习的恒星光谱分类方法,包括:数据的获取与预处理、数据集的制作、分类模型的构建与一次训练、扩充数据集的制作、分类模型的二次训练。结合附图,具体说明如下:结合图1,本实施方式的总体框架主要分为五大模块。数据处理模块进行光谱和标注数据的获取与预处理,首先使用Shell(计算机壳层)脚本批量获取LAMOST恒星光谱数据,经预处理后统一打包制成候选光谱样本集;从候选光谱中任意选择部分样本制作无标签数据集,随后使用ADQL(AstronomicalDataQueryLanguage,天文数据查询语言)脚本获取样本对应的LAMOST光谱型标注信息,经交叉证认提高标注准确率,从候选光谱样本中选择相应的样本打标并制作标注数据集。接着是预训练模块,将无标签数据集作为自编码器的输入,经训练使编码器的输出具有良好的特征提取和聚类性能,解码器的输出则尽量还原原始输入。训练完成后,保存编码器的网络参数。随后是模型一次训练模块,使用Hyperopt(BergstraJ.等人于2013年提出的参数优化工具)对多层感知机进行超参数调优后,加载编码器网络参数作为网络中全连接层的初始参数,使用标注数据集作为训练输入,完成训练后保存模型。运用该模型预测候选光谱样本集中部分样本的光谱型,并以此制作包含107877个样本的二元扩充数据集D3。结合图2,数据集的制作流程如下:波长范围处理(P1):由于原始数据中每条光谱的波长覆盖范围略有不同,因此需按本文档来自技高网...

【技术保护点】
1.一种基于深度学习的恒星光谱分类方法,其特征在于,包括以下步骤:/n步骤一、获取并预处理LAMOST恒星光谱数据;/n步骤二、获取LAMOST光谱型标注数据,并同SIMBAD交叉证认;/n步骤三、结合步骤一与步骤二分别得到的光谱与标注数据,制作数据集;/n步骤四、构建深度学习分类模型;/n步骤五、使用步骤一得到的光谱和步骤四得到的模型制作扩充数据集;/n步骤六、使用步骤五得到的扩充数据集训练步骤四构建的模型。/n

【技术特征摘要】
1.一种基于深度学习的恒星光谱分类方法,其特征在于,包括以下步骤:
步骤一、获取并预处理LAMOST恒星光谱数据;
步骤二、获取LAMOST光谱型标注数据,并同SIMBAD交叉证认;
步骤三、结合步骤一与步骤二分别得到的光谱与标注数据,制作数据集;
步骤四、构建深度学习分类模型;
步骤五、使用步骤一得到的光谱和步骤四得到的模型制作扩充数据集;
步骤六、使用步骤五得到的扩充数据集训练步骤四构建的模型。


2.如权利要求1所述的一种基于深度学习的恒星光谱分类方法,其特征在于,步骤一中所述光谱数据的预处理方法,将原始光谱统一截取相同的波长范围和采样点数量,并使用公式F′=F/Fnax将光通量线性映射到0-1区间,其中F′指某一采样点映射后的通量值,F指这一采样点映射前的通量值,Fmax指同一光谱的波长截取范围内所有采样点中光通量的最大值。


3.如权利要求1所述的一种基于深度学习的恒星光谱分类方法,其特征在于,步骤二中所述交叉证认,使用TOPCAT软件Skycrossmatch功能,对LAMOST与SIMBAD两数据库中样本数据作J2000坐标匹配,将匹配成功的样本组成样本集S1;在S1中作进一步筛选,当且仅当样本的LAMOST光谱型标注SubClass与SIMBAD光谱型标注sp_type均包含同一光谱型时,将样本加入标注数据集制作的候选样本集S2。


4.如权利要求1所述的一种基于深度学习的恒星光谱分类方法,其特征在于,步骤三中,制作的数据集包含两个部分:标注数据集与无标签数据集;标注数据集的制作,是依据LAMOST观测数据的目标唯一标识编号LMJD+PlanId+spId+FiberId,匹配步骤一与步骤二所得光谱与标注样本,并制成二元标注数据集D1;无标签数据集的制作,不严格要求数据集中不同光谱型样本的比例,直接依据LAMOST光谱型标注,从步骤一所得光谱数据中每一光谱型各选取一定数量的样本,制成一元无标签数据集D2。


5.如权利要求4所述的一种基于深度学习...

【专利技术属性】
技术研发人员:燕彩蓉张景栋万永权黄永锋
申请(专利权)人:东华大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1