恒星光谱数据增强方法及系统技术方案

技术编号:30823264 阅读:44 留言:0更新日期:2021-11-18 12:11
本发明专利技术公开了一种恒星光谱数据增强方法及系统,包括光谱数据预处理模块:对原始的恒星光谱数据进行清洗、归一化、深度学习标签构建等数据预处理工作;搭建与训练条件生成对抗网络模块:基于博弈论理论搭建条件生成对抗网络,构建随机噪声向量,训练生成恒星光谱数据;基于训练好的生成模型进行数据增强模块:基于前面训练好的条件生成对抗网络,从随机的噪声向量生成恒星光谱数据。本发明专利技术的恒星光谱数据增强方法基于博弈论的理论基础,利用生成对抗网络,建立了不同类别恒星光谱的数据增强模型,使得本发明专利技术以较小的时间代价获得了足够的恒星光谱数据。恒星光谱数据。恒星光谱数据。

【技术实现步骤摘要】
恒星光谱数据增强方法及系统


[0001]本专利技术属于天文光谱智能处理
,尤其涉及一种恒星光谱数据增强方法及系统。

技术介绍

[0002]天文学是一门历史悠久的观测科学,随着斯隆数字巡天(SDSS)和大天区面积多目标光纤光谱天文望远镜(LAMOST)等多光纤光谱大型巡天计划的出现,天文光谱数据规模正以指数级爆炸性增长,由此导致了天文光谱数据自动分类方法研究的必要性和迫切性日益增强。通过分析光谱数据可以得到天体位置和状态的信息,这些信息有助于挖掘出宇宙中特殊的、未知的天体,对恒星演化研究和宇宙奥秘探索都有着积极的意义。
[0003]天文光谱数据分类就是要从上千维的光谱数据特征中选择和提取对分类识别最有效的特征来构建特征空间,例如选择特定波长或波段上的光谱流量值等作为特征,并运用算法对各种天体进行区分。目前常用的光谱分类模型可以分为基于距离计算的天文光谱分类与基于神经网络的天文光谱数据分类。
[0004]关于基于距离计算的天文光谱数据分类,美国学者Gray利用含有标准光谱模板的知识库,基于距离差值实现分类。赵永恒教授和罗阿理教授团队通过从光谱数据中提取特定波长的关键数据实现分类任务。陈淑鑫等学者采用基于距离计算的模板匹配完成天文光谱数据分类。但是,上述方法的计算复杂度一般都是数据量和数据维度的平方,不适合海量高维数据的分类。以来自LAMOST的光谱数据为例,目前已经有超过1000万条的光谱数据,很多光谱的数据维度都在数千以上,面对这样高维的天文大数据,传统的人工或半人工的数据分类越来越困难。
>[0005]关于基于神经网络的天文光谱数据分类,有基于使用全连接网络和自组织映射方法进行天文光谱分类。Wang等学者通过伪逆学习逐层训练的方法,构建了神经网络分类模型。Fabbro和Zou等学者构建了深度神经网络,通过卷积的方法来进行分类。上述方法可以对部分光谱进行较好地分类,但是基于神经网络的分类方法需要大量的训练数据,而这常常不能得到满足。例如,LAMOST第4版数据集中,识别的碳星还不到3000。
[0006]在天体实际分布中,各类天体种类不是均衡的,其特征差异也很大,目前大多数研究或者单独挖掘稀有光谱数据或者直接对全体数据集进行分类,导致数据识别的效率和精度并不能让人满意。

技术实现思路

[0007]为了解决现有技术存在的问题,本专利技术提供一种恒星光谱数据增强方法,能够为了克服现有的深度神经网络过于依赖充足的训练数据的不足,生成模拟的缺失数据,补全不完整的数据分布。
[0008]本专利技术所要解决的技术问题是通过以下技术方案实现的:
[0009]第一方面,提供了一种恒星光谱数据增强方法,包括:
[0010]对恒星光谱进行预处理,对处理后的光谱数据按照类别设置标签;
[0011]构建条件生成对抗网络模型并采用设置标签的的光谱数据对网络模型进行训练;
[0012]基于训练好的条件生成对抗网络模型进行数据增强。
[0013]结合第一方面,进一步的,所述对恒星光谱进行预处理包括:
[0014]对于光谱样本集中D中的每个每个恒星光谱样本S
i
,设置统一的维度m,在维度m处将S
i
截断得到使其每个维度都有值;
[0015]其中,D={S1,S2,S3,...S
i
...,S
n
},S
i
代表第i个恒星光谱样本,n代表真实的恒星光谱的个数;
[0016]根据式(1)得到归一化后的恒星光谱样本数据
[0017][0018]结合第一方面,进一步的,所述根据输入向量N

=(N,C)生成条件生成对抗网络模型包括:
[0019]通过Reshape层、卷积层、上采样层、压平层和全连接层搭建生成模型;
[0020]通过生成模型将输入向量N

拓展到真实光谱数据D同样的数据维度,得到生成的光谱数据F;
[0021]通过Reshape层、卷积层、丢弃层、压平层和全连接层搭建卷积神经网络判别模型;
[0022]将生成的光谱数据F与真实光谱数据D混合,按照类别生成标签向量L,送入卷积神经网络判别模型;
[0023]通过深度学习迭代学习,得到训练好的条件生成对抗网络模型。
[0024]结合第一方面,进一步的,条件生成对抗网络模型的训练样本的批大小设为512,选用交叉熵损失函数,然后使用激活函数为修正线性单元,由激活函数完成非线性变换,通过Adam优化算法进行参数寻优,其中学习率为设为0.001,衰减项设置为1e

08,动量设置为0.9,迭代次数设置为100。
[0025]结合第一方面,进一步的,所述条件生成对抗网络模型的生成模型部分包括:
[0026]第一层:为一Reshape层,其输入数据为输入向量N

[0027]第二层:为一卷积层,包含4个大小为4
×
1的卷积核,步长设为1;
[0028]第三层:为一大小为2
×
1的上采样层;
[0029]第四层:为一包含8个大小为4
×
1的卷积核的卷积层,步长为1;
[0030]第五层:为一大小为2
×
1的上采样层;
[0031]第六层:为一个包含16个大小为4
×
1的卷积核的卷积层,步长为1;
[0032]第七层:为一平压层;
[0033]第八层:为一包含3700个神经元节点的全连接层。
[0034]结合第一方面,进一步的,所述条件生成对抗网络模型的卷积神经网络判别模型包括:
[0035]第一层:为一Reshape层,其输入数据为混合后的恒星光谱数据;
[0036]第二层:为一包含4个大小为3
×
1的卷积核的卷积层,步长为(2,1);
[0037]第三层:为一Dropout丢弃层,随机丢弃前面卷积层40%的神经元;
[0038]第四层:为一含8个大小为3
×
1的卷积核的卷积层,步长为(2,1);
[0039]第五层:为一Dropout丢弃层,随机丢弃前面卷积层40%的神经元;
[0040]第六层:为一包含16个大小为3
×
1的卷积核的卷积层,步长为(2,1);
[0041]第七层:为一Dropout丢弃层,随机丢弃前面卷积层40%的神经元;
[0042]第八层:为一压平层;
[0043]第九层:为一包含128个神经元的全连接层;
[0044]第十层:为一包含1个神经元的全连接层。
[0045]第二方面,提供了一种恒星光谱数据增强方法,包括:
[0046]光谱数据预处理模块,用于对恒星光谱进行预处理,对处理后的光谱数据按照类别设置标签;
[0047]模型训练模块,用于构建条件生成对抗网络模型并采用设置标签的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种恒星光谱数据增强方法,其特征在于,包括:对恒星光谱进行预处理,对处理后的光谱数据按照类别设置标签;构建条件生成对抗网络模型并采用设置标签的的光谱数据对网络模型进行训练;基于训练好的条件生成对抗网络模型进行数据增强。2.根据权利要求1所述的一种恒星光谱数据增强方法,其特征在于,所述对恒星光谱进行预处理包括:对于光谱样本集中D中的每个每个恒星光谱样本S
i
,设置统一的维度m,在维度m处将S
i
截断得到使其每个维度都有值;其中,D={S1,S2,S3,...S
i
...,S
n
},S
i
代表第i个恒星光谱样本,n代表真实的恒星光谱的个数;根据式(1)得到归一化后的恒星光谱样本数据3.根据权利要求1所述的一种恒星光谱数据增强方法,其特征在于:所述构建条件生成对抗网络模型包括:基于高斯分布,生成随机噪声向量N,并配对的生成类别控制向量C;将随机噪声向量N和类别控制向量C拼接成一个输入向量N

=(N,C);根据输入向量N

=(N,C)生成条件生成对抗网络模型。4.根据权利要求3所述的一种恒星光谱数据增强方法,其特征在于,所述根据输入向量N

=(N,C)生成条件生成对抗网络模型包括:通过Reshape层、卷积层、上采样层、压平层和全连接层搭建生成模型;通过生成模型将输入向量N

拓展到真实光谱数据D同样的数据维度,得到生成的光谱数据F;通过Reshape层、卷积层、丢弃层、压平层和全连接层搭建卷积神经网络判别模型;将生成的光谱数据F与真实光谱数据D混合,按照类别生成标签向量L,送入卷积神经网络判别模型;通过深度学习迭代学习,得到训练好的条件生成对抗网络模型。5.根据权利要4所述的一种恒星光谱数据增强方法,其特征在于,条件生成对抗网络模型的训练样本的批大小设为512,选用交叉熵损失函数,然后使用激活函数为修正线性单元,由激活函数完成非线性变换,通过Ad...

【专利技术属性】
技术研发人员:邹志强杨文宇吴家皋洪舒欣韩杨
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1