基于天文光谱数据的离群天体分类方法技术

技术编号:32891196 阅读:44 留言:0更新日期:2022-04-07 11:38
本发明专利技术提供一种基于天文光谱数据的离群天体分类方法,批量获取原始的天文光谱数据,将其中已知标签的天文光谱数据分别作为训练集和测试集,其中的未知天文光谱数据待分类,对所得原始的天文光谱数据的高维特征向量进行降维处理,根据所得低维的特征向量计算出离群分数,对所述天文光谱数据进行二分类;构建三元组样本;向三元组随机损失的神经网络模型中投入经过降维处理后的未知天文光谱数据,得到新的特征向量,得到未知光谱数据的新特征向量并计算该数据的离群分数,再使用训练后设定的新阈值,识别出天文光谱数据中的离群数据;该方法具有数据处理时间短、精准度高、能快速识别出离群天体等优点。识别出离群天体等优点。识别出离群天体等优点。

【技术实现步骤摘要】
基于天文光谱数据的离群天体分类方法


[0001]本专利技术涉及一种基于天文光谱数据的离群天体分类方法。

技术介绍

[0002]天文学随着科学技术的发展,先进的观测设备使我们能够望向宇宙更深处,同时也带来了天文数据爆炸式的增长。郭守敬望远镜(LAMOST)作为世界上光谱获取率最高的望远镜,每个观测夜晚能采集万余条光谱,这将为一些天文和天体物理学家在星系红移巡天、宇宙学模型、宇宙大尺度结构、星系形成和演化以及结合各类射线的光谱观测等研究工作上提供大量素材,对天文学领域的发展起到推动和完善作用。LAMOST数据集中的每一条光谱提供了3690-9100埃的波长范围内的一系列辐射强度值。
[0003]光谱分类就是要从上千维的光谱数据中选择和提取对分类识别最有效的特征来构建特征空间,例如选择特定波长或波段上的光谱流量值等作为特征,并运用算法对各种天体进行区分。
[0004]在天文光谱分类问题中,LAMOST存在一部分离群数据,因其特征与已知天体特征不相似,而被划分为未知类别。此现象可能是由于宇宙背景噪声、光线的衰弱和红移等因素对光谱数据形成本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于天文光谱数据的离群天体分类方法,其特征在于:包括以下步骤,S1、批量获取原始的天文光谱数据,其中的部分天文光谱数据为已知标签的数据,即已被人为标记为已知天体或离群数据标签,将已知标签的天文光谱数据分别作为训练集和测试集,其中的未知天文光谱数据待分类,对所得原始的天文光谱数据的高维特征向量进行降维处理,获取低维特征向量;S2、根据步骤S1所得训练集的低维特征向量计算出该低维特征向量的离群分数,根据该离群分数的正态分布特性设定初始阈值,确认每一天文光谱数据的离群分数是否大于该设定阈值,若大于该设定阈值则判断该数据为预设定的离群数据,否则为内部数据,从而对所述天文光谱数据进行二分类,分别得到分类后的数据集即内部数据集I和离群数据集O;S3、将步骤S2所得离群分数作为三元组采样的依据,从内部数据集I中抽取训练样本E和正样本P,从离群数据集O中抽取负样本N,用训练样本E、正样本P和负样本N构建三元组样本;S4、构建表示学习神经网络层,将步骤S3所得三元组样本投入该层,输出新特征向量,通过训练网络模型,优化排序损失函数,排序损失函数优化后的表示学习神经网络即为基于离群分数的三元组随机损失的神经网络模型,该模型将训练数据的新特征向量中正样本和负样本分离,根据训练数据所得新特征向量计算新特征向量的新离群分数,并设定新离群分数的阈值进行二分类,再使用测试集采取相同的处理方法,保存最优的表示学习神经网络模型参数和新设定的阈值;S5、向步骤S4所述三元组随机损失的神经网络模型中投入步骤S1获取的经过降维处理后的未知天文光谱数据,得到新的特征向量,得到未知光谱数据的新特征向量并计算该数据的离群分数,再使用训练后设定的新阈值,识别出天文光谱数据中的离群数据。2.如权利要求1所述的基于天文光谱数据的离群天体分类方法,其特征在于:步骤S2和步骤S5中,计算离群分数,具体为,计算数据点到天文光谱数据中随机子集的欧式距离,具体为,随机选取设定数据量的数据子集S,选取数据点x到数据子集S最近的三个点,求取数据点x到这三个点的欧式距离的平均值r,重复这样的操作m次,得到离群分数3.如权利要求1所述的基于天文光谱数据的离群天体分类方法,其特征在于:步骤S3中,将步骤S2所得离群分数及其分类结果作为三元组采样的依据,构建三元组...

【专利技术属性】
技术研发人员:邹志强李林睿常舒予乔一明朱天成
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1