基于随机森林分析数字孪生机理优化的应用场景建设方法技术

技术编号:38231629 阅读:14 留言:0更新日期:2023-07-25 17:59
本发明专利技术提出了基于随机森林分析数字孪生机理优化的应用场景建设方法,在传统植保类产品生产过程中,当应用物联网技术来监测工厂平台,提取整体生产过程中的各类数字信息到数字孪生模型时。海量以及超高维度的生产信息会被输入到数字孪生模型中,这对于最终的数字孪生机理解释是一种灾难性的。因此本次首先在海量数据传入到数字孪生模型前,通过随机森林算法去预测植保类产品的生产是否安全。再结合PCA降维算法提取出整个物联网模型中的重要特征,将这些重要特征输入到数字孪生模型当中,从而做到生产全过程的有效监测,数字孪生模型的强机理解释性。机理解释性。机理解释性。

【技术实现步骤摘要】
基于随机森林分析数字孪生机理优化的应用场景建设方法


[0001]本专利技术涉及大数据领域、物联网领域以及数字孪生领域,具体为基于随机森林分析数字孪生机理优化的应用场景建设方法。

技术介绍

[0002]随着物联网以及数字孪生模型在植物保护类产品的生产过程中的应用,整套模型的机理解释性要求也越来越高。一个强机理解释能够对生产过程提供较高价值的指导与监测。但是在植物保护类产品的生产过程中,工艺参数、环境数据其总量是非常庞大且维度是非常高的。因此急需一种能够对现场环境做出监测并且对特征进行筛选的方法,做到从现实生产到虚拟驱动模型的全过程强机理解释。

技术实现思路

[0003]为解决上述技术问题,本专利技术提出了基于随机森林分析数字孪生机理优化的应用场景建设方法,能够实现对现场生产过程进行自动监测,并且能够智能的从高维特征中筛选出重要特征输入到数字孪生模型中。
[0004]为实现上述目的,本专利技术采取的技术方案是:
[0005]基于随机森林分析数字孪生机理优化的应用场景建设方法,包括以下步骤:
[0006]1)生产数据提取;
[0007]根据所需运用场景,在进行随机森林算法模型分类检测前,需要应用物联网技术对生产过程的全物理参数以及环境数据信息进行提取;
[0008]2)随机森林模型训练监测;
[0009]利用随机森林完成特征值与标签值间的函数映射,缺失的数据利用平均值与众值填补,维度不平衡则利用归一化处理,单棵决策树采用基尼系数作为划分标准,模型评判则利用正确分类样本在总样本间的比例。
[0010]3)PCA特征选择;
[0011]利用PCA降维算法,计算协方差矩阵,并提取出物联网高纬度特征信息中超过阈值的重要特征;
[0012]4)重要特征提取;
[0013]利用PCA主成分分析对特征进行筛选,并结合随机森林基尼系数特征重要度进行双重验证,进而做到最少特征值数量,数字孪生模型机理强解释性。
[0014]5)数字孪生模型机理解释;
[0015]将数字孪生系统依照前述步骤计算的最少数目重要特征项的信息来源进行建模,推演,计算仿真。
[0016]作为本专利技术进一步改进,所述步骤2)中维度不平衡归一化处理表示为:
[0017]本次选择预处理主要为缺失数据值采用平均值、分类值采用众数值的方式进行填补,填补完成后,需要对特征数值进行归一化处理;
[0018][0019]其中i为数据集的特征维度,j为数据集所拥有的数据量大小,x

ij
为归一化后的新的特征值,x
ij
为原特征值,x
ij
_min为第i维特征的平均值,为第i维特征的最大值;
[0020]所述步骤2)中基尼指数表示为:
[0021]单棵子树分裂点划分以及最佳分割特征选择依照基尼指数进行划分:
[0022][0023]其中Gi为基尼指数,c为目标标签类别个数,本次申请中只有两个类别分别为安全生产以及非安全生产,P(c)中第c类别的样本的比例;
[0024]所述步骤2)中模型评判表示为:
[0025]本次随机森林模型为处理一个分类问题,所以此次模型评定标准表示为:
[0026][0027]其中U为准确率,M为判定成功的样本个数,N则为总样本数量。当训练集与测试集的U分别超过0.92,0.95即可完成模型搭建。
[0028]作为本专利技术进一步改进,所述步骤3)中协方差矩阵表示为:
[0029]此外还需要进行协方差计算即计算数据集的协方差矩阵,用于衡量特征之间的相关性:
[0030][0031]其中CM为计算后的协方差矩阵,n为数据集的样本数,X则为数据集进行中心化后的矩阵,X
T
表示将中心化后的矩阵进行转置处理。
[0032]作为本专利技术进一步改进,所述步骤4)中随机森林重要特征与PCA重要特征双重验证表示为:
[0033]在两者分别选择完毕后,需要依照下述公式进行合并分析:
[0034][0035]其中X
last
为最终输入到数字孪生模型中的特征数目,x
l
为随机森林中的重要特征,x
k
为PCA降维算法中的优选特征,n为随机森林中重要特征的数目,m为PCA降维算法中的特征数目;
[0036]所述步骤4)中随机森林重要特征数目与PCA降维算法中提取出的重要特征数目各取n和m时,输出到数字孪生重要特征表示为:
[0037]当随机森林中的重要特征数目多于或者等于PCA降维算法,则直接输出x
l
随机森林中的重要特征到数字孪生模型当中,但当随机森林中的重要特征数目少于PCA降维算法中的特征数目时,则需要进行特征筛选计算出优选特征x
k

[0038]D=V(x
l
)+V(x
k
),k=1,2,3,...,m

n
ꢀꢀ⑹
[0039]D≥0.95
ꢀꢀ⑺
[0040]其中D为方差累计解释比例,V则为对单个特征进行计算单个方差解释比例。V(x
l
)表示随机森林中的重要特征在PCA降维算法中的总累计方差解释比例,V(x
k
)表示从PCA降维算法选出的重要特征剔除随机森林选出的重要特征后,对剩余重要特征进行排序计算方差解释比例,从剩下方差解释比例最大的开始一个个累加,直到满足公式7,即累计方差解释比例大于0.95,选择出最小k值,即需要从PCA中剩余重要特征中所选取的个数。最终并将优选出PCA中的剩余重要特征,与随机森林选出的重要特征一起输出作为数字孪生中的解释特征项。
[0041]本申请具有以下效益:
[0042]本申请提供的一种的基于随机森林分析数字孪生机理优化的应用场景建设方法使用随机森立对植物保护类工厂生产环境实时监测分类,提高了处理速度以及监测准确性;
[0043]本申请提供的一种的基于随机森林分析数字孪生机理优化的应用场景建设方法结合随机森林特征选择以及PCA降维算法对高纬度特征进行筛选重要特征输入到数字孪生模型中,提高了整体模型可解释性。
[0044]本次申请提供的一种的基于随机森林分析数字孪生机理优化的应用场景建设方法采用物联网,提取整个工厂的物理参数、环境数据,保证数据集在输入随机森林算法时其数据量与维度的充足性,提高模型精确性。
附图说明
[0045]图1根据本申请实施例提供的基于随机森林分析数字孪生机理优化的应用场景建设方法流程图;
[0046]图2根据本申请实施例提供的基于随机森林分析数字孪生机理优化的应用场景建设方法物联网植保产品生产高纬度特征信息图;
[0047]图3根据本申请实施例提供的基于随机森林分析数字孪生机理优化的应用场景建设方法随机森林和PCA重要特征合并流程图。
具体实施方式
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于随机森林分析数字孪生机理优化的应用场景建设方法,其特征在于,包括以下步骤:1)生产数据提取;根据所需运用场景,在进行随机森林算法模型分类检测前,需要应用物联网技术对生产过程的全物理参数以及环境数据信息进行提取;2)随机森林模型训练监测;利用随机森林完成特征值与标签值间的函数映射,缺失的数据利用平均值与众值填补,维度不平衡则利用归一化处理,单棵决策树采用基尼系数作为划分标准,模型评判则利用正确分类样本在总样本间的比例;3)PCA特征选择;利用PCA降维算法,计算协方差矩阵,并提取出物联网高纬度特征信息中超过阈值的重要特征;4)重要特征提取;利用PCA主成分分析对特征进行筛选,并结合随机森林基尼系数特征重要度进行双重验证,进而做到最少特征值数量,数字孪生模型机理强解释性。5)数字孪生模型机理解释;将数字孪生系统依照前述步骤计算的最少数目重要特征项的信息来源进行建模,推演,计算仿真。2.根据权利要求1所述的基于随机森林分析数字孪生机理优化的应用场景建设方法,其特征在于:所述步骤2)中维度不平衡归一化处理表示为:本次选择预处理主要为缺失数据值采用平均值、分类值采用众数值的方式进行填补,填补完成后,需要对特征数值进行归一化处理;其中i为数据集的特征维度,j为数据集所拥有的数据量大小,x

ij
为归一化后的新的特征值,x
ij
为原特征值,x
ij
_min为第i维特征的平均值,为第i维特征的最大值;所述步骤2)中基尼指数表示为:单棵子树分裂点划分以及最佳分割特征选择依照基尼指数进行划分:其中Gi为基尼指数,c为目标标签类别个数,本次申请中只有两个类别分别为安全生产以及非安全生产,P(c)中第c类别的样本的比例;所述步骤2)中模型评判表示为:本次随机森林模型为处理一个分类问题,所以此次模型评定标准表示为:其中U为准确率,M为判定成功的样本个数,N则为总样本数量。当训练集与测试集的U分别超过0.92,0.95即可完成模型搭建。
3.根据权利要求1所述的基于随机森林分析数字孪生机理优化的应用场景建设方法,其特征在于:所述步骤3)...

【专利技术属性】
技术研发人员:吴伟吴静陆静徐其文杨以兵
申请(专利权)人:江苏克胜集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1