核反应堆包壳材料辐照肿胀的集成学习预测方法技术

技术编号:19746295 阅读:21 留言:0更新日期:2018-12-12 04:55
本发明专利技术提供一种核反应堆包壳材料辐照肿胀的集成学习预测方法,涉及组合多个弱监督模型结果的集成学习材料预测技术领域。本发明专利技术采用堆叠的多层异态回归器模型,其为两层架构,第一层包括四个不同的基学习器,分别为人工神经网络、支持向量机、梯度提升和随机森林,并且第一层采用5折交叉验证训练,第二层通过XGBoost建立。本发明专利技术能够降低偏差和方差,提高模型的泛化能力,使材料特性的预测结果更加准确。

【技术实现步骤摘要】
核反应堆包壳材料辐照肿胀的集成学习预测方法
本专利技术涉及组合多个弱监督模型结果的集成学习材料预测
,特别是指一种堆叠的多层异态回归器的核反应堆包壳材料辐照肿胀的集成学习预测方法。
技术介绍
机器学习(MachineLearning)方法已逐步应用于材料建模来更准确地预测材料特性,其关键是针对一类问题找到一个将输入空间投影到输出空间的映射模型,利用这个学习好的模型来预测实际的数据。材料设计及特性预测中常用的机器学习方法有人工神经网络(ArtificialNeuralNetwork)、支持向量机(SupportVectorMachine)、决策树(DecisionTree)等,这些方法为解决数值堆材料的成分优化、热处理工艺研究、性能研究、辐照后性能研究提供了先进的科学有效的手段。虽然在材料领域存在着很多机器学习方法,但是某一种单一的方法不能在所有领域所有特征集合下取得最好的预测结果,并且在实际的材料预测过程中,单一的机器学习方法存在模型过拟合、泛化能力差的瓶颈,难以保证材料预测结果的准确性等问题。文献1(XueD,BalachandranPV,HogdenJ,etal.Acceleratedsearchformaterialswithtargetedpropertiesbyadaptivedesign[J].Naturecommunications,2016,7:11241.)提出了一种机器学习基础上的数据驱动的材料设计框架,利用不确定性迭代指导实验的进行来推动新材料的发现,文献2(DavidH.Wolpert.Stackedgeneralization.InNeuralNetworks,volume5,pages241-259,1992.)以ML算法为基础开发了同源集成的堆叠集成学习的通用技术框架,通过实验验证了这种框架可以取得比单个分类器更好的性能。堆叠集成器在对新的实例进行分类之前,先把若干个单个分类器集成起来,这些集成分类器包括了N个单一的人工神经网络分类器,对于同样的输入,N个人工神经网络分别给出各自的输出,最终这些输出通过某种组合以后得到集成分类器整体的输出结果作为最终的分类。专利技术人在研究过程中发现,上述堆叠集成学习框架的特点是,训练的基本分类器是同源的,即人工神经网络,不仅会造成过拟合,还会使输出的时间过长导致算法效率大大降低。而目前材料预测领域,树模型一般取得的学习精度和效果要比其他模型要好,因此这种框架最终产生的分类结果虽然会比单个的人工神经网络分类器要好,但不一定会比单一的其他模型好。并且,堆叠框架具有很大的灵活性和不确定性,一方面,在对初始数据集的划分上,采用多折交叉验证可以有效防止过拟合(overfitting),另一方面,从训练模型的选择和使用上,元分类器就应该替换为多个回归模型,尽可能使每个模型的精度比较高。此外,要想我们的材料预测模型性能最佳,还要通过初始阶段的数据预处理及特征工程来尽可能的从原始数据中获取更多的信息。针对现有包壳材料辐照肿胀领域难以通过实验观测肿胀孕育期和转变期到线性变化期的肿胀机理,急需提供一种新的材料预测方法,以降低偏差(Bias)和方差(Variance),提高模型的泛化能力,使材料特性的预测结果更加准确。
技术实现思路
本专利技术要解决的技术问题是提供一种核反应堆包壳材料辐照肿胀的集成学习预测方法,以降低偏差和方差,提高模型的泛化能力,使材料特性的预测结果更加准确。为解决上述技术问题,本专利技术实施例提供一种核反应堆包壳材料辐照肿胀的集成学习预测方法,包括:步骤A:获取包壳辐照肿胀相关的原始数据集,原始数据集中的数据一部分作为训练集,另一部分作为预测集;步骤B:生成皮尔逊相关性热力图查看与包壳材料肿胀量相关比较大的特征值以及特征值之间的关联程度;步骤C:提取前预定数量个相关程度大的特征值并进行归一化处理;步骤D:利用PCA方法降维去噪;步骤E:利用chi-2算法选择特征剔除不相关或冗余的特征;步骤F:生成第一层机器学习器模型,该第一层机器学习器模型包括四个并列且不同的基学习器,初始化N=1、K=1,其中N为第N个基学习器,K为交叉验证训练次数;步骤G:对第N个基学习器进行第K折交叉验证训练;步骤H:判断K是否大于5,如果是,继续执行步骤I;如果否,则K=K+1,回到步骤G;步骤I:对于训练集,将5份预测结果作为第二层的输入训练样本的第N列;步骤J:对于测试集,将5次预测结果取平均值作为第二层的输入测试样本的第N列;步骤K:判断N是否大于基学习器个数,如果是,继续执行步骤L;如果否,N=N+1,K=1,回到步骤G;步骤L:将第一层机器学习器模型的输出作为新的特征值作为第二层机器学习器模型的输入数据,该第二层机器学习器模型通过XGBOOST建立;步骤M:输出第二层机器学习器模型的预测结果,至此,堆叠的多层异态回归器模型训练完成。进一步的,所述步骤C采用下式的归一化处理:其中,xi代表数据列中第i个样本点的原始初值,xmin代表样本点所在数据列中的最小值,xmax代表样本点所在数据列中的最大值,xi_new代表数据列中第i个样本点通过上述变换后的新的值。进一步的,所述步骤C中预定数量为10个。进一步的,所述步骤F中四个基学习器分别为人工神经网络ANN、支持向量机SVM、梯度提升GradientBoost和随机森林RandomForest。进一步的,所述步骤F中每个基学习器采用不同的训练集和测试集,以提高整个模型的精度。本专利技术的上述技术方案的有益效果如下:(1)在预测包壳材料辐照肿胀量应用时,其影响因子多且机理复杂,因此通过传统的中子辐照实验来研究肿胀梯度效应不仅成本高昂且耗费时间长。本专利技术构建了强大而准确的集成学习模型,使用先进的机器学习预测建模算法代替大量的重复试验和表征循环,降低了时间成本和研发成本;(2)使用单一同源的机器学习方法(例如人工神经网络)很容易出现过拟合。本专利技术的新的集成回归堆叠框架是异构不相关的弱监督模型的组合,最终的预测结果由ANN(人工神经网络)、SVM(支持向量机)、GradientBoost(梯度提升)和RandomForest(随机森林)作为基学习器,XGBoost作为最后一层学习器的两层Logistic回归组合,从而将确定系数提高到0.9以上,使相对偏差降低到0.1以下,提高了预测精度,与实验测得的结果更加吻合;(3)从材料数据库获取到原始数据集后还需进行数据预处理和特征工程,本专利技术提出的将原始数据集格式转化为适合本模型的学习格式的变换方法使得我们对影响包壳材料肿胀的因素更了解,对模型的可靠程度和精确程度做出准确的判断,从毫无规律的数据中揭示隐含的肿胀机理,从而定量的预测辐照剂量、温度及He含量与肿胀量之间的函数关系,从而减少了存储开销,降低了可视化分析的复杂性。附图说明图1是本专利技术的堆叠的多层异态回归器模型的简要框架图;图2是本专利技术核反应堆包壳材料辐照肿胀的集成学习预测方法的流程图;图3是本专利技术中样本数据集特征值之间的皮尔逊相关热图;图4是本专利技术中部分数据集示例经过步骤C、D、E的数据预处理后得到的符合下一步流程输入的数据格式实例;图5(a)和(b)分别是本专利技术中第一层机器学习训练和测试过程图;图6是本专利技术中第二层机本文档来自技高网
...

【技术保护点】
1.一种核反应堆包壳材料辐照肿胀的集成学习预测方法,其特征在于,包括:步骤A:获取包壳辐照肿胀相关的原始数据集,原始数据集中的数据一部分作为训练集,另一部分作为预测集;步骤B:生成皮尔逊相关性热力图查看与包壳材料肿胀量相关比较大的特征值以及特征值之间的关联程度;步骤C:提取前预定数量个相关程度大的特征值并进行归一化处理;步骤D:利用PCA方法降维去噪;步骤E:利用chi‑2算法选择特征剔除不相关或冗余的特征;步骤F:生成第一层机器学习器模型,该第一层机器学习器模型包括四个并列且不同的基学习器,初始化N=1、K=1,其中N为第N个基学习器,K为交叉验证训练次数;步骤G:对第N个基学习器进行第K折交叉验证训练;步骤H:判断K是否大于5,如果是,继续执行步骤I;如果否,则K=K+1,回到步骤G;步骤I:对于训练集,将5份预测结果作为第二层的输入训练样本的第N列;步骤J:对于测试集,将5次预测结果取平均值作为第二层的输入测试样本的第N列;步骤K:判断N是否大于基学习器个数,如果是,继续执行步骤L;如果否,N=N+1,K=1,回到步骤G;步骤L:将第一层机器学习器模型的输出作为新的特征值作为第二层机器学习器模型的输入数据,该第二层机器学习器模型通过XGBoost建立;步骤M:输出第二层机器学习器模型的预测结果,至此,堆叠的多层异态回归器模型训练完成。...

【技术特征摘要】
1.一种核反应堆包壳材料辐照肿胀的集成学习预测方法,其特征在于,包括:步骤A:获取包壳辐照肿胀相关的原始数据集,原始数据集中的数据一部分作为训练集,另一部分作为预测集;步骤B:生成皮尔逊相关性热力图查看与包壳材料肿胀量相关比较大的特征值以及特征值之间的关联程度;步骤C:提取前预定数量个相关程度大的特征值并进行归一化处理;步骤D:利用PCA方法降维去噪;步骤E:利用chi-2算法选择特征剔除不相关或冗余的特征;步骤F:生成第一层机器学习器模型,该第一层机器学习器模型包括四个并列且不同的基学习器,初始化N=1、K=1,其中N为第N个基学习器,K为交叉验证训练次数;步骤G:对第N个基学习器进行第K折交叉验证训练;步骤H:判断K是否大于5,如果是,继续执行步骤I;如果否,则K=K+1,回到步骤G;步骤I:对于训练集,将5份预测结果作为第二层的输入训练样本的第N列;步骤J:对于测试集,将5次预测结果取平均值作为第二层的输入测试样本的第N列;步骤K:判断N是否大于基学习器个数,如果是,继续执行步骤L;如果否,N=N+1,K=1,回到步骤G;步骤L:将第一层机器学习器...

【专利技术属性】
技术研发人员:李丹宁杨文贺新福胡长军王珏陈丹丹李建江
申请(专利权)人:中国原子能科学研究院北京科技大学中国科学院计算机网络信息中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1