System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于可解释机器学习的聚酰亚胺玻璃化转变温度预测方法技术_技高网
当前位置: 首页 > 专利查询>天津大学专利>正文

基于可解释机器学习的聚酰亚胺玻璃化转变温度预测方法技术

技术编号:41392229 阅读:7 留言:0更新日期:2024-05-20 19:14
本发明专利技术公开基于可解释机器学习的聚酰亚胺玻璃化转变温度预测方法,从数据库中收集聚酰亚胺的结构和玻璃化转变温度,选择差示扫描量热仪测试得到的数据,之后将重复单元两端用氢原子封端,通过其SMILES表达式生成对应的分子描述符,并选取最重要的若干个分子描述符;构建玻璃化转变温度预测模型并对模型进行优化,采用交叉验证对模型性能进行评估,在此过程中使用决定系数、平均绝对误差和均方根误差衡量模型;使用SHAP对模型进行解释,并进行了实验结果对比。具有准确性高、低成本、绿色环保的优点。能够解释影响相关性质的因素,快速指导实验合成,具有计算速度快、精度高、结构分析方便的特点。对实验室合成新型聚酰亚胺起指导作用。

【技术实现步骤摘要】

本专利技术涉及聚合物和人工智能,具体地指一种基于可解释机器学习的聚酰亚胺玻璃化转变温度预测方法


技术介绍

1、聚酰亚胺是一种主链上含有酰亚胺环的高性能聚合物,作为目前世界上综合性能最优异的高分子聚合物材料之一,具有优异的热学和机械性能、低介电常数和优异的耐化学性。在航空航天、电子、微电子和能源等领域得到了广泛的应用,已成为柔性显示技术中的热门材料,被誉为“21世纪最有希望的工程塑料之一”。然而,玻璃化转变温度(热学性能的一种,属于聚酰亚胺重要性能之一)对其应用起着关键作用,它直接影响到聚酰亚胺的使用性能和工艺性能,如何设计分子结构以获得高耐热聚酰亚胺是设计过程中最关键的部分。目前,聚酰亚胺性能参数的获取主要依赖于实验测试,但具有开发周期长、实验成本高等局限性,且难以预测新型聚酰亚胺的玻璃化转变温度。通过密度泛函理论和分子动力学等模拟方法可以在一定程度上缓解这个问题,但这些方法仍然存在耗时、模拟参数的选择非常依赖专家经验等缺点。

2、机器学习是人工智能的核心研究领域,随着计算机能力的增强和算法的进步,机器学习技术已经成为发现数据中模式的有力工具。其本质在于通过算法解析数据之间的关系并从中学习,以实现预测和决策的功能。越来越多的科研工作者将机器学习技术应用到聚合物领域内,针对目前大量的通过实验或者理论计算产生的数据,依靠先进机器学习算法的开发,使用机器学习算法建立目标聚合物结构与性质预测模型,在实验室合成和测试之前,对其相关特性进行预测,缩短研发周期,从传统的经验试错式实验转为理论预测指导实验,极大地节省了实验和计算资源,也为实验和应用提供了指导。

3、对于机器学习算法的内部设计,它们都是像黑匣子一样工作,也就是说它们形成预测的潜在原因尚不清楚。因此,研究一个高精度且具有可解释性的机器学习预测方法是十分必要的。


技术实现思路

1、本专利技术提出一种基于可解释机器学习的聚酰亚胺玻璃化转变温度预测方法。通过分子描述符的筛选并使用机器学习算法对聚酰亚胺玻璃化转变温度进行预测,具有快速高效的特点。根据shap对预测模型进行解释,使预测过程更加透明,可以分析每个描述符对玻璃化转变温度的具体影响。

2、以下是实现本专利技术目的的技术方案:

3、本专利技术的基于可解释机器学习的聚酰亚胺玻璃化转变温度预测方法;其特征是,包括如下步骤:

4、1)从数据库中收集聚酰亚胺重复单元的结构和玻璃化转变温度信息,作为机器学习样本数据集;

5、2)对所述步骤1)中的数据集进行预处理,选择差示扫描量热仪测试得到的玻璃化转变温度,之后将重复单元两端用氢原子封端,通过每个重复单元的smiles表达式生成对应的分子描述符;

6、3)对步骤2)中得到的分子描述符和玻璃化转变温度使用feature importance方法分析,将所有描述符对玻璃化转变温度的重要程度进行排序,选取对玻璃化转变温度排序中靠前若干个分子描述符构建用于机器学习的数据集;

7、4)基于步骤3)中得到的数据集构建玻璃化转变温度预测模型,70~80%的数据作为训练集,20~30%作为测试集;将分子描述符作为输入,输出其预测的玻璃化转变温度;

8、5)使用随机搜索、贝叶斯搜索或网格搜索调整超参数对步骤4)的预测模型进行优化;

9、6)采用交叉验证的评估方式对步骤5)中优化后的随机森林、极端树、xgboost、lightgbm、catboost和深度神经网络模型性能进行评估;将步骤3)中构建的数据集随机分为n组,n-1组用来训练,1组用于测试;使用r2、mae和rmse共3个评估指标衡量模型;选取出最优模型;

10、7)模型解释:使用shap(shapley additive explanation)对步骤6)中选取出的最优模型进行解释。

11、所述的步骤1)中的数据库为智能数据和网络技术国际会议中提出的polyinfo数据库。

12、所述的步骤2)通过每个重复单元的smiles表达式使用python中的rdkit软件包计算生成对应的分子描述符。

13、所述的步骤4)预测模型使用随机森林、极端树、xgboost、lightgbm、catboost或深度神经网络的机器学习方法。

14、所述的步骤4)过程使用python语言编程,在jupyter notebook中实现输入输出。

15、所述的步骤5)超参数根据决定系数(r2)、平均绝对误差(mae)和均方根误差(rmse)的变化进行调整。

16、所述的步骤5)评估指标的公式如下:

17、是第i个聚酰亚胺玻璃化转变温度的实验值,是第i个聚酰亚胺玻璃化转变温度的预测值,是所有聚酰亚胺玻璃化转变温度实验值的平均值。

18、所述的步骤6)不同模型的决定系数越接近1,平均绝对误差和均方根误差的值越小模型越准确。

19、具体说明如下:

20、1)获取数据集:从polyinfo数据库中收集聚酰亚胺重复单元的结构和玻璃化转变温度信息,作为机器学习样本数据集;

21、2)数据预处理:对所述步骤1)中的数据集进行预处理,选择差示扫描量热仪测试得到的玻璃化转变温度,之后将重复单元两端用氢原子封端,通过每个重复单元的smiles表达式(simplified molecular input line entry system简化分子输入线路系统)(smiles符号是“线性符号”之一,用于用单行文本表达化合物的结构。它是由davidweininger于1986年采用的,由daylight chemical information systems开发并共同创建)使用python中的rdkit软件包计算生成对应的分子描述符;

22、3)描述符筛选:对步骤2)中得到的分子描述符和玻璃化转变温度使用featureimportance方法分析,即将所有描述符对玻璃化转变温度的重要程度进行排序,并选取对玻璃化转变温度最重要的(排序中靠前)若干个分子描述符构建用于机器学习的数据集;

23、4)模型预测:基于步骤3)中得到的数据集构建玻璃化转变温度预测模型,70~80%的数据作为训练集,20~30%作为测试集;使用随机森林、极端树、xgboost、lightgbm、catboost和深度神经网络六种机器学习方法,将分子描述符作为输入,输出其预测的玻璃化转变温度,该过程使用python语言编程,在jupyter notebook中实现输入输出;

24、5)模型优化:使用随机搜索、贝叶斯搜索或网格搜索调整超参数,根据决定系数(r2)、平均绝对误差(mae)和均方根误差(rmse)为指标,对随机森林、极端树、xgboost、lightgbm、catboost和深度神经网络调整超参数,对步骤4)中得到的模型进行优化,测试集的决定系数越接近1,平均绝对误差和均方根误差的值越小模型越准确(优化后模型不变,只是调整超本文档来自技高网...

【技术保护点】

1.基于可解释机器学习的聚酰亚胺玻璃化转变温度预测方法;其特征是,包括如下步骤:

2.如权利要求1所述的预测方法;其特征是,步骤1)中的数据库为智能数据和网络技术国际会议中提出的PolyInfo数据库。

3.如权利要求1所述的预测方法;其特征是,步骤2)通过每个重复单元的SMILES表达式使用Python中的RDkit软件包计算生成对应的分子描述符。

4.如权利要求1所述的预测方法;其特征是,步骤4)预测模型使用随机森林、极端树、XGBoost、LightGBM、CATBoost或深度神经网络的机器学习方法。

5.如权利要求1所述的预测方法;其特征是,步骤4)过程使用Python语言编程,在Jupyter Notebook中实现输入输出。

6.如权利要求1所述的预测方法;其特征是,步骤5)超参数根据决定系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE)的变化进行调整。

7.如权利要求1所述的预测方法;其特征是,步骤6)评估指标的公式如下:

8.如权利要求1所述的预测方法;其特征是,步骤6)不同模型的决定系数越接近1,平均绝对误差和均方根误差的值越小模型越准确。

...

【技术特征摘要】

1.基于可解释机器学习的聚酰亚胺玻璃化转变温度预测方法;其特征是,包括如下步骤:

2.如权利要求1所述的预测方法;其特征是,步骤1)中的数据库为智能数据和网络技术国际会议中提出的polyinfo数据库。

3.如权利要求1所述的预测方法;其特征是,步骤2)通过每个重复单元的smiles表达式使用python中的rdkit软件包计算生成对应的分子描述符。

4.如权利要求1所述的预测方法;其特征是,步骤4)预测模型使用随机森林、极端树、xgboost、lightgbm、catboost或深度神经网络...

【专利技术属性】
技术研发人员:李彬王睢睢姜爽张天永
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1