一种基于集成学习的太阳质子事件短期预报方法技术

技术编号:35052692 阅读:14 留言:0更新日期:2022-09-28 10:55
本发明专利技术公开了一种基于集成学习的太阳质子事件短期预报方法,包括:获取太阳耀斑,与太阳耀斑关联的CME和太阳黑子数据,对三种数据进行预处理,提取预处理后的数据的特征;将提取的数据的特征输入集成模型,输出最终的太阳质子事件预报结果;所述集成模型包括预先训练好的八个机器学习模型以及加权处理模块;八个机器学习模型包括:逻辑斯蒂回归(LR),决策树(DT),随机森林(RF),自适应提升树算法(AdaBoost),梯度增强提升树(GBDT),极端梯度增强树(XGBoost),K最近邻算法(KNN)和朴素贝叶斯算法(NB);每个机器学习模型独立输出太阳质子事件预测结果;所述加权处理模块用于将八个机器学习模型输出的太阳质子事件预测结果按照权重进行加权处理。按照权重进行加权处理。按照权重进行加权处理。

【技术实现步骤摘要】
一种基于集成学习的太阳质子事件短期预报方法


[0001]本专利技术涉及空间物理与计算机学科交叉领域,具体涉及一种基于集成学习的太阳质子事件短期预报方法。

技术介绍

[0002]太阳质子事件是一种空间天气现象。太阳活动(例如耀斑和日冕物质抛射等)爆发时,会喷射出大量的高能粒子。其中一部分会从太阳低层大气传播到近地空间,并被地球附近的卫星或飞行器探测到。中国空间环境预测中心对太阳质子事件的定义如下:当在地球同步轨道上探测能量大于10MeV的质子,每5分钟计算一次平均积分通量,单位为pfu(1pfu=1cm2s

1sr

1)。当连续三次的积分通量大于10pfu时,便认为发生了太阳质子事件。
[0003]在人类航天历史上,大量的记载和研究结果表明,太阳质子事件会引起卫星和航天器的运行异常,包括卫星表面材料的充电,传感器中深层介质的充电以及背景计数的改变,太阳能电池组的损伤,单粒子效应(Single Event Effect)等。此外,太阳质子事件中高能粒子还会对宇航员的人身安全造成严重的威胁。人体受到来自高能粒子的高剂量辐射后,身体的器官会收到不同程度的损害。研究表明,在经历过太阳质子事件后,宇航员的皮肤,脏器,骨髓中都会检查出大量的辐射造成的伤害。除了直接的伤害之外,辐射诱发的癌变也是对宇航员生命的一大威胁。
[0004]自从太阳质子事件被人类发现以及对其研究的深入,人类对太阳质子事件危害的认识也逐渐加深。因此,太阳质子事件的预报,尤其是24小时内的短期预报,成为了一个关键的研究方向。在此需求下,国内外提出了一系列的太阳质子事件预报短期预报方法,包括美国国家海洋和大气管理局(NOAA)空间环境中心(SEC)建立的PROTON系统,美国空军研究方案室(AFRL)的PPS系统,中国科学院国家天文台的王家龙老师提出的一种使用神经网络算法进行太阳质子事件预报的方法,开发的UMASEP的双模块预报系统,Qiuzhen等人提出的统计模型等等。虽然现有的技术能够达到较高的报准率,但是虚报率依然较高。

技术实现思路

[0005]本专利技术的目的在于解决现有的太阳质子事件短期预报方法存在的虚报率较高的问题,利用有监督的机器学习学习方法,提出一种新的太阳质子事件短期预报集成模型,在保证了高报准率的同时,将虚报率大大降低。
[0006]为实现上述目的,本专利技术提出了一种基于集成学习的太阳质子事件短期预报方法,所述方法包括:
[0007]获取太阳耀斑,与太阳耀斑关联的CME和太阳黑子数据,对三种数据进行预处理,提取预处理后的数据的特征;
[0008]将提取的数据的特征输入集成模型,输出最终的太阳质子事件预报结果;
[0009]所述集成模型包括预先训练好的八个机器学习模型以及加权处理模块;八个机器学习模型包括:逻辑斯蒂回归(LR),决策树(DT),随机森林(RF),自适应提升树算法
(AdaBoost),梯度增强提升树(GBDT),极端梯度增强树(XGBoost),K最近邻算法(KNN)和朴素贝叶斯算法(NB);每个机器学习模型独立输出太阳质子事件预测结果;所述加权处理模块,用于将八个机器学习模型输出的太阳质子事件预测结果按照预先确定的权重进行加权处理。
[0010]作为上述方法的一种改进,所述方法还包括:获取原始数据,对原始数据进行预处理,按一定方式划分为训练集和测试集;具体包括:
[0011]获取三类原始数据:太阳耀斑

CME列表、太阳黑子列表和太阳质子事件列表;
[0012]对太阳耀斑、CME和太阳黑子数据分别进行预处理,包括归一化清洗,异常清洗、冗余数据清除、缺省值填充和降噪;
[0013]将预处理后的数据进行组合,形成多条数据,其中一条数据包含多个列,每个列代表一个特征,而且一条数据必须包括所有要使用的特征,将耀斑

CME列表,和太阳黑子数据组合起来,成为一个整体的数据集;
[0014]对每条数据进行标注:如果一条数据对应24小时内有太阳质子事件的发生,即将其标注为1,否则将其标注为0;
[0015]将多条数据组成的数据集按照3:1的比例划分为训练集和测试集;
[0016]将多条数据按照时间顺序排列,取前4条出列,从中随机取3条划入训练集,剩余1条划入测试集;重复此过程,直至整个数据集被划分完毕。
[0017]作为上述方法的一种改进,在太阳耀斑

CME列表中,每条数据包括了一个太阳耀斑及与其相关联的一个CME,同时还包含了与相关联的太阳黑子群的编号;太阳耀斑特征包括耀斑强度等级和耀斑位置;CME特征包括:CME的角宽度,CME的三个速度、CPA和加速度,CME的三个速度包括:线性速度,二次速度以及在CME处于20太阳半径高度时进行评估的二次速度;
[0018]在太阳黑子列表中,每条数据包括了太阳黑子相关特征,包括McIntosh分类,磁极性分类以及黑子规模;McIntosh分类包括:黑子分类,半影类和黑子分布;黑子规模包括:黑子群面积,黑子个数和黑子的纵向范围;
[0019]在太阳质子事件列表中,每条数据包括开始时间,峰值时间和峰值通量。
[0020]作为上述方法的一种改进,所述方法还包括:使用训练集对集成模型中的八个机器学习模型逐一进行调优与评估,选择出每个机器学习模型的最优参数组合;具体包括:
[0021]逻辑斯蒂回归(LR)的最优参数包括:目标函数是否加入常数项和最优化算法的参数;
[0022]决策树(DT)的最优参数包括:非叶节点分裂标准,分裂方式,树的最大深度,非叶节点分裂样本最小值和叶节点中样本最小值;
[0023]随机森林(RF)的最优参数包括:决策树器的数目、非叶节点分裂标准、每棵树的最大深度和是否使用遗留样本评分;
[0024]自适应提升树算法(AdaBoost)的最优参数包括:决策树器的数目和学习速率;
[0025]梯度增强提升树(GBDT)的最优参数包括:损失函数、学习速率、决策树器的数目和每棵树的最大深度;
[0026]极端梯度增强树(XGBoost)的最优参数包括:学习速率和每棵树的最大深度;
[0027]K最近邻算法(KNN)的最优参数包括:邻居数目,即K值的选择。
[0028]作为上述方法的一种改进,所述方法还包括:计算每个机器学习模型在集成模型中的权重;具体包括:
[0029]采用时序分层的划分方式将训练集按照4:1的比例进一步划分为交叉训练集和交叉验证集;
[0030]利用交叉训练集对集成模型的每个机器学习模型分别进行训练,然后将其对应的交叉验证集输入到训练后的机器学习模型中进行预报,获得一组报准率POD和虚报率FAR:
[0031][0032][0033]其中,TP为真正例,表示将正类正确预测为正类的数量;FP为假正例,表示将负类错误预测为正类的数量;FN为假负例,表示将正类错误预测为负类的数量;TN为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习的太阳质子事件短期预报方法,所述方法包括:获取太阳耀斑,与太阳耀斑关联的CME和太阳黑子数据,对三种数据进行预处理,提取预处理后的数据的特征;将提取的数据的特征输入集成模型,输出最终的太阳质子事件预报结果;所述集成模型包括预先训练好的八个机器学习模型以及加权处理模块;八个机器学习模型包括:逻辑斯蒂回归(LR),决策树(DT),随机森林(RF),自适应提升树算法(AdaBoost),梯度增强提升树(GBDT),极端梯度增强树(XGBoost),K最近邻算法(KNN)和朴素贝叶斯算法(NB);每个机器学习模型独立输出太阳质子事件预测结果;所述加权处理模块,用于将八个机器学习模型输出的太阳质子事件预测结果按照预先确定的权重进行加权处理。2.根据权利要求1所述的基于集成学习的太阳质子事件短期预报方法,其特征在于,所述方法还包括:获取原始数据,对原始数据进行预处理,按一定方式划分为训练集和测试集;具体包括:获取三类原始数据:太阳耀斑

CME列表、太阳黑子列表和太阳质子事件列表;对太阳耀斑、CME和太阳黑子数据分别进行预处理,包括归一化清洗,异常清洗、冗余数据清除、缺省值填充和降噪;将预处理后的数据进行组合,形成多条数据,其中一条数据包含多个列,每个列代表一个特征,而且一条数据必须包括所有要使用的特征,将耀斑

CME列表,和太阳黑子数据组合起来,成为一个整体的数据集;对每条数据进行标注:如果一条数据对应24小时内有太阳质子事件的发生,即将其标注为1,否则将其标注为0;将多条数据组成的数据集按照3:1的比例划分为训练集和测试集;将多条数据按照时间顺序排列,取前4条出列,从中随机取3条划入训练集,剩余1条划入测试集;重复此过程,直至整个数据集被划分完毕。3.根据权利要求2所述的基于集成学习的太阳质子事件短期预报方法,其特征在于,在太阳耀斑

CME列表中,每条数据包括了一个太阳耀斑及与其相关联的一个CME,同时还包含了与相关联的太阳黑子群的编号;太阳耀斑特征包括耀斑强度等级和耀斑位置;CME特征包括:CME的角宽度,CME的三个速度、CPA和加速度,CME的三个速度包括:线性速度,二次速度以及在CME处于20太阳半径高度时进行评估的二次速度;在太阳黑子列表中,每条数据包括了太阳黑子相关特征,包括McIntosh分类,磁极性分类以及黑子规模;McIntosh分类包括:黑子分类,半影类和黑子分布;黑子规模包括:黑子群面积,黑子个数和黑子的纵向范围;在太阳质子事件列表中,每条数据包括开始时间,峰值时间和峰值通量。4.根据权利要求3所述的基于集成学习的太阳质子事件短期预报方法,其特征在于,所述方法还包括:使用训练集对集成模型中的八个机器学习模型逐一进行调优与评估,选择出每个机器学习模型的最优参数组合;具体包括:逻辑斯蒂回归(LR)的最优参数包括:目标函数是否加入常数项和最优化算法的参数;决策树(DT)的最优参数包括:非叶节点分裂标准,分裂方式,树的最大深度,非叶节点分裂样本最小值和叶节点中样本最小值;随机森林...

【专利技术属性】
技术研发人员:宫哲邹自明
申请(专利权)人:中国科学院国家空间科学中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1