System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法技术_技高网

一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法技术

技术编号:41216563 阅读:2 留言:0更新日期:2024-05-09 23:38
本发明专利技术公开一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法,所述方法涉及聚甲基丙烯酸羟乙酯‑聚乙烯醇‑细菌纤维素复合晶胶基础性能预测,通过采用叠影取样均匀设计法,以HEMA、PVA、交联剂PEGDA、细菌纤维素和水为控制的自变量按比例组合归一化得到系列实验条件,从而获得具有不同基础性能的晶胶。利用得到的试验数据,按晶胶基础性能对实验条件进行回归预测,预测数据与试验数据有较好的吻合度。利用RF‑GBRT混合模型对实验条件进行预测,可以提高试验的准确度,大大减少试验次数,节省试验时间,本发明专利技术在优化材料制备条件方面具有广泛的应用前景。

【技术实现步骤摘要】

本专利技术属于生物化工领域,具体涉及一种基于随机森林(rf)和梯度提升决策树(gbrt)混合模型的phema-pva-bc复合晶胶基础性能预测方法。


技术介绍

1、晶胶是一种新型的层析分离介质,其内部有大量互相连通、尺寸在数十到数百微米的超大孔隙,具有传质阻力小、对流传质效果好和吸附分离迅速等优点,可从复杂料液中直接分离目标物,在生物分离领域有广泛的应用前景。但是普通的晶胶介质存在比表面积小、机械强度低、吸附容量低等缺陷。细菌纤维素具有持水性高、生物相容性好、机械强度高等优点,在一定程度上可以弥补晶胶介质存在的缺陷。聚乙烯醇具有化学稳定性和较好的生物相容性等特点,在常规温度和湿度下相对稳定,不容易发生分解,在各种应用中能保持相对的稳定性,从而提高晶胶介质在层析分离中的效率和稳定性。

2、神经网络是一种模仿人脑神经系统结构和工作原理的计算模型,可用于完成模式识别、分类、回归等任务。其中,随机森林(rf)能高效处理大量特征和样本,有良好的泛化能力,且不容易过拟合,在分类选择方面具有一定的优势。梯度提升决策树(gbrt)能够通过集成多个弱学习器逐步提升模型性能,具有准确性高和拟合能力强的特点。利用叠影取样均匀设计法、基于随机森林(rf)和梯度提升决策树(gbrt)算法对phema-pva-bc复合晶胶基础性能进行预测,可以大大简化试验的探究过程,相关内容尚未见报道。


技术实现思路

1、针对现有技术中存在的上述问题,本专利技术目的在于提供一种基于随机森林(rf)和梯度提升决策树(gbrt)混合模型的phema-pva-bc复合晶胶基础性能预测方法,减少试验次数,节省试验时间和成本。

2、本专利技术采用的技术方案如下:

3、所述的一种基于随机森林(rf)和梯度提升决策树(gbrt)混合模型的phema-pva-bc复合晶胶基础性能预测方法,包括以下步骤:

4、1)所述复合晶胶为phema-pva-bc,它是由单体甲基丙烯酸羟乙酯hema、交联剂pegda、细菌纤维素和pva在水溶剂中混合反应而成,以hema、pva、交联剂pegda、细菌纤维素和水分别占五者混合物中的质量分数x1、x2、x3、x4和x5为控制的自变量,以复合晶胶的渗透率、孔隙率、等板高度三个因素为检测的应变量;通过控制5个自变量的组合进行合成晶胶的反应实验,获得相应实验数据,其中,实验数据是五个自变量和三个因变量组成的向量。

5、2)分类任务所采用的机器学习算法为随机森林rf,通过调用python第三方模块sklearn,采用randomforestclassifier作为随机森林分类器,以hema质量分数x1、pva质量分数x2、交联剂pegda质量分数x3、纤维素质量分数x4和水质量分数x5为输入变量,以渗透率、孔隙率、等板高度为输出变量,构建基于随机森林rf分类的模型,采用模型对步骤1)获得的实验数据进行训练,获得输入变量与输出变量的对应关系。训练后的模型能够根据不同的输入变量来预测复合晶胶是否成功成型以及其基础性能数据;其中,不成型的晶胶归为0,成型的晶胶归为1,渗透率为0的晶胶归为2;归为1的晶胶符合后续回归的要求,备用。

6、3)根据rf分类数据对其中机械强度较好的复合晶胶(被归类为1的成型的复合晶胶),以渗透率、孔隙率、等板高度为输出变量进行回归预测。回归预测采用的机器学习算法为梯度提升决策树(gbrt),以hema质量分数x1、pva质量分数x2、交联剂pegda质量分数x3、纤维素质量分数x4和水质量分数x5为输入变量,以渗透率、孔隙率、等板高度为输出变量,构建了梯度提升决策树gbrt的回归模型。利用上述回归模型对相应的实验数据进行训练,建立输入变量与输出变量之间的关系,训练所得模型可以预测按不同输入变量制备得到的复合晶胶的基础性能,如渗透率、孔隙率以及等板高度等。

7、进一步地,本专利技术所述的方法具体包括以下步骤:

8、1)采用叠影取样均匀设计法,进行5因素的实验设计,以hema、pva、交联剂pegda、细菌纤维素和水的总质量分数为100%计,通过选择hema质量分数x1、pva质量分数x2、交联剂pegda质量分数x3、纤维素质量分数x4和水质量分数x5作为控制的自变量,以渗透率、孔隙率、等板高度作为应变量,通过控制五个自变量组合,获得关于所述五个自变量和渗透率、孔隙率、等板高度三个应变量所组成的向量的实验数据;以实验数据表示为一个向量,其中向量的每个元素对应一个变量,x=[x1,x2,x3,x4,x5,y1,y2,y3],y1,y2,y3分别是渗透率、孔隙率、等板高度。

9、2)首先构建随机森林rf网络模型,输入层包含5个结点,对应5个影响因素,即hema质量分数x1、pva质量分数x2、交联剂pegda质量分数x3、纤维素质量分数x4和水质量分数x5。输出层包含3个结点,分别对应渗透率y1、孔隙率y2、等板高度y3;

10、在随机森林分类器的参数设置中,n_estimators是指森林中树的数量,更多的树通常能够提高模型的性能,设置n_estimators范围是10-1000。max_depth是每棵树的最大深度,用于控制树的复杂性,有助于防止过拟合,设置max_depth范围是1-50。random_state是随机森林分类器(randomforestclassifier)中的一个参数,用于控制随机性,确保在多次运行中得到相同的结果,使实验结果可重复,设置max_depth范围是1-100。它是伪随机数生成器的种子,通过设置相同的种子可以保证每次运行模型时得到相同的随机结果。对于开发和调试模型时确保实验结果可重复是很有用的。

11、准确度(accuracy)是用于评估分类模型性能的一项指标,它衡量模型在所有样本中正确分类的比例。准确度是最直观和常用的性能指标之一,在三分类问题中,准确度的计算方式与二分类问题相似,但针对多个类别。

12、针对步骤2)中训练后的模型能够根据不同的输入变量来预测复合晶胶是否成功成型以及其基础性能数据,不成型的晶胶归为0,成型的晶胶归为1,渗透率为0的晶胶归为2,对于选用的实验数据利用所述训练后的模型进行预测晶胶的类别,并记录模型正确预测的晶胶类别为0、1、2的数量。准确度accuracy的计算公式为:

13、

14、其中:tp(0),tp(1),tp(2)分别表示对类别0、1、2的正确预测数量,准确度是正确预测的样本数占总样本数的比例。

15、交叉验证是一种评估模型性能和选择最佳参数的技术。其中,k折交叉验证是最常用的一种形式,具体步骤如下:

16、1.将数据集分成k个折叠。

17、2.循环k次,每次选择一个折叠作为验证集,其余折叠作为训练集。

18、3.在每次迭代中,利用训练集对模型进行训练,并在验证集上评估性能;

19、4.计算k次迭代的平均性能作为最终性能指标。

20本文档来自技高网...

【技术保护点】

1.一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法,其特征在于包括以下过程:

2.如权利要求1所述的一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法,其特征在于步骤1)具体为:采用叠影取样均匀设计法,进行5因素的实验设计,以HEMA、PVA、交联剂PEGDA、细菌纤维素和水的总质量分数为100%计,通过选择HEMA质量分数X1、PVA质量分数X2、交联剂PEGDA质量分数X3、纤维素质量分数X4和水质量分数X5作为控制的自变量,以渗透率、孔隙率、等板高度作为应变量,通过控制五个自变量组合,获得关于所述五个自变量和渗透率、孔隙率、等板高度三个应变量所组成的向量的实验数据;以实验数据表示为一个向量,其中向量的每个元素对应一个变量,X=[X1,X2,X3,X4,X5,Y1,Y2,Y3],Y1,Y2,Y3分别是渗透率、孔隙率、等板高度。

3.如权利要求1所述的一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法,其特征在于步骤2)具体为:

4.如权利要求3所述的一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法,其特征在于将步骤1)得到的关于所述五个自变量因素和渗透率、孔隙率、等板高度所组成的向量的实验数据作为分类数据,将所述分类数据按照步骤2)构建的基于随机森林RF模型分类器划分为7:3比例的训练集和测试集,作为学习的样本集;通过对训练集的计算,获得关于所述五个因素的输入变量数据与渗透率、孔隙率、等板高度的输出数据之间的对应关系,训练后的基于随机森林分类的模型将测试集所述五个因素作为输入变量输入至上述训练后的模型中,测得训练集和测试集的准确度。

5.如权利要求1所述的一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法,其特征在于步骤3)具体为:构建梯度提升决策树GBRT的回归模型,其中输入层包含5个结点,分别对应5个影响因素即HEMA质量分数X1、PVA质量分数X2、交联剂PEGDA质量分数X3、纤维素质量分数X4和水质量分数X5;输出层包含3个结点,分别对应渗透率Y1、孔隙率Y2、等板高度Y3;

6.如权利要求1所述的一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法,其特征在于所述HEMA质量分数X1范围为1~22%,PVA质量分数X2范围为0.5~4%,交联剂PEGDA质量分数X3的范围为1~4.5%,纤维素质量分数X4的0.1~1.5%,水质量分数X5的范围为68~96%。

...

【技术特征摘要】

1.一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法,其特征在于包括以下过程:

2.如权利要求1所述的一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法,其特征在于步骤1)具体为:采用叠影取样均匀设计法,进行5因素的实验设计,以hema、pva、交联剂pegda、细菌纤维素和水的总质量分数为100%计,通过选择hema质量分数x1、pva质量分数x2、交联剂pegda质量分数x3、纤维素质量分数x4和水质量分数x5作为控制的自变量,以渗透率、孔隙率、等板高度作为应变量,通过控制五个自变量组合,获得关于所述五个自变量和渗透率、孔隙率、等板高度三个应变量所组成的向量的实验数据;以实验数据表示为一个向量,其中向量的每个元素对应一个变量,x=[x1,x2,x3,x4,x5,y1,y2,y3],y1,y2,y3分别是渗透率、孔隙率、等板高度。

3.如权利要求1所述的一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法,其特征在于步骤2)具体为:

4.如权利要求3所述的一种基于随机森林和梯度提升决策树混合模型的复合晶胶基础性能预测方法,其特征在于将步骤1)得到的关于所述五个自变量因素和渗透率、孔隙率...

【专利技术属性】
技术研发人员:贠军贤刘露露楼小玲吴佳伟
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1