当前位置: 首页 > 专利查询>上海大学专利>正文

基于SHAP值构建可解释的XGBoost回归模型预测PCE的QSPR方法及其系统技术方案

技术编号:31485590 阅读:16 留言:0更新日期:2021-12-18 12:20
本发明专利技术公开了一种基于SHAP值构建可解释的XGBoost回归模型加速发现高PCE的N

【技术实现步骤摘要】
基于SHAP值构建可解释的XGBoost回归模型预测PCE的QSPR方法及其系统


[0001]本专利技术涉及一种关于染料敏化太阳能电池(DSSCs)中氮苝(N

P)类有机敏化剂的功率转化效率(PCE)的预测方法及系统,特别是基于SHAP值构建可解释的XGBoost回归模型预测PCE的定量结构关系(QSPR)方法发现高效的氮苝类有机染料。

技术介绍

[0002]随着科学和社会的快速发展,缓解能源和污染问题迫在眉睫。自1991年O'Regan和 Michael发表突破性成果以来,染料敏化太阳能电池因其成本低、灵活性好、稳定性佳、室内效率高等优点而受到广泛关注。敏化剂作为DSSCs的主要组成部分,在光捕获、电荷转移和电荷重组方面起着主导作用,这极大地影响了DSSCs的关键参数—PCE。其中,N

P类纯有机染料具有优异的光学和物理性能,如高摩尔消光系数、高荧光量子效率和可调谐带隙等,在DSSCs中作为光敏剂表现出相当高的光电转化效率。高效新型N

P类敏化剂的发现将有效提高DSSCs的PCE,然而,可能的有机染料的化学空间非常巨大,实验的试错过程繁琐且昂贵。为了加快此类敏化剂的研发,有必要在实验前利用计算化学方法设计高效的潜在N

P类敏化剂。
[0003]随着计算机软件和人工智能的不断发展,机器学习的应用也越来越广泛,发展出了一系列高性能的机器学习模型,例如,支持向量机、随机森林、深度学习等。XGBoost是eXtreme Gradient Boosting的简称,是基于迭代累加的梯度提升决策树算法。XGBoost是梯度增强回归树(GBRT)的改进与具体实现,由华盛顿大学的陈天奇最早于2014年提出。但这些机器学习模型内部原理难以理解。沙普利可加性模型(SHAP)方法将所有的特征都视为“贡献者”,对于每个预测样本,模型都产生一个预测值,SHAP值就是该样本中每个特征所分配到的数值。SHAP值最大的优势是反映每一个特征对目标特征的贡献,同时表现出其贡献的正负性。所以,利用SHAP嵌套XGBoost选择特征并解释模型对研发高效N

P类敏化剂很意义。
[0004]利用SHAP嵌套XGBoost技术建立的定量构效关系(QSPR)模型,用来分析分子结构与分子的某种性质之间的关系。模型中使用的候选描述符可以定量或定性的描述分子结构,分子组成(如氢键供体数、化学键数)、理化性质(如酯水分布系数)和分子形状等参数。近年来,QSPR模型已被用于预测不同类型太阳能电池的PCE值。毫无疑问,以上方法的模型为太阳能电池材料的设计提供了一些指导。但如何将XBGoost算法应用于预测N

P类有机敏化剂的PCE还需要进一步地探索和研究。

技术实现思路

[0005]为了解决现有技术的问题,本专利技术的目的在于克服已有技术存在的不足,提供一种基于SHAP值构建可解释的XGBoost回归模型预测PCE的QSPR方法及其系统,能加速发现高PCE的N

P类有机敏化剂,通过Dragon计算得到N

P类结构的描述符,利用SHAP嵌套XGBoost
筛选特征,并借助XGBoost算法建模,预测N

P类有机敏化剂的PCE,高通量筛选候选高PCE的有机染料。该方法的成本低、简单高效、数据完整准确、无需实验、无需复杂的计算过程、无污染。
[0006]为达到上述专利技术创造目的,本专利技术采用如下技术方案:
[0007]一种基于SHAP值构建可解释的XGBoost回归模型预测PCE的QSPR方法,包括以下步骤:
[0008]1)利用计算机系统查找文献,从文献中搜索N

P类染料分子的结构、电解质条件及其对应的PCE值;
[0009]2)将收集到的染料分子分成三个片段,前两个片段为Ds(Doner Space)和Dc(Doner Core),前两个片段为具有推电子基的供体,最后一个片段为A(Accepter),具有吸电子基的受体,最后一个片段为后续解释片段作用和高通量筛选做准备;
[0010]3)用ChemDraw画出染料分子的片段结构,在chem3D中通过MM2

Minimize energy优化分子,再用Dragon软件生成描述符;
[0011]4)以PCE值为目标变量,Dragon生成的描述符为自变量,进行数据预处理,将预处理后的数据集样本作为后续建模的数据集样本;
[0012]5)对初步筛选的数据集,随机划分训练集和测试集,测试集的比例占整个数据集的15%,其中电解质条件在测试集和训练集中分布相同;
[0013]6)利用SHAP嵌套XGBoost方法根据目标变量的“贡献值”筛选变量,XGBoost建模的最优变量子集选择通过比较留一法交叉验证得到;
[0014]7)用XGBoost回归建立N

P类有机敏化剂PCE的快速预报模型;
[0015]8)根据建立的N

P类有机敏化剂PCE的快速预报模型,预报待检测分子的功率转化效率PCE;
[0016]9)根据SHAP值的正负影响进一步得到变量与目标变量的关系;
[0017]10)查阅文献,利用参考文献中对于特征的解释,结合在步骤9)中的根据SHAP值的正负影响进一步得到的变量,构建QSPR模型;
[0018]11)查阅文献参考性能优异分子,通过编程自动生成大量的虚拟样本,将这些虚拟样本投入到构建好的QSPR模型中,进行高通量筛选,快速预报出N

P类有机敏化剂的功率转化效率PCE值。
[0019]优选地,在所述步骤1)中,查找文献后,对得到的数据样本进行预处理,包括整理样本的分子结构、电解质条件和PCE,确定样本数据个数。
[0020]优选地,在所述步骤6)和步骤7)中,对于某一个特征变量,利用TreeSHAP计算出所有样本中对应该变量的SHAP值,将其平均值作为该特征变量的重要性值,从而得到全局解释;利用SHAP嵌套XGBoost方法筛选变量,从一个初始朴素模型开始,基于样本集中观测值的误差,建立新模型进行拟合,并以加法形式添加至现有模型,反复迭代此过程形成集成模型。
[0021]优选地,在所述的步骤11)中,高通量筛选的方法包括以下步骤:
[0022]设计条件为:
[0023]选择文献中实验或理论研究PCE>12.5%的分子,划分片段、优化分子和生成描述符的过程同上,利用python编程生成大量虚拟样本;
[0024]然后将生成的大量的虚拟样本投入到已构建完成的预测模型中,进行预报。
[0025]一种实施定量结构关系方法预测有机敏化剂的功率转化效率的系统,执行本专利技术基于SHAP值构建可解释的XGBoost回归模型预测PCE的QSPR方法,包括:
[0026]输入模块:从公开发表的文献中查找N
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于SHAP值构建可解释的XGBoost回归模型预测PCE的QSPR方法,其特征在于,包括以下步骤:1)利用计算机系统查找文献,从文献中搜索N

P类染料分子的结构、电解质条件及其对应的PCE值;2)将收集到的染料分子分成三个片段,前两个片段为Ds(DonerSpace)和Dc(Doner Core),前两个片段为具有推电子基的供体,最后一个片段为A(Accepter),具有吸电子基的受体,最后一个片段为后续解释片段作用和高通量筛选做准备;3)用ChemDraw画出染料分子的片段结构,在chem3D中通过MM2

Minimizeenergy优化分子,再用Dragon软件生成描述符;4)以PCE值为目标变量,Dragon生成的描述符为自变量,进行数据预处理,将预处理后的数据集样本作为后续建模的数据集样本;5)对初步筛选的数据集,随机划分训练集和测试集,测试集的比例占整个数据集的15%,其中电解质条件在测试集和训练集中分布相同;6)利用SHAP嵌套XGBoost方法根据目标变量的“贡献值”筛选变量,XGBoost建模的最优变量子集选择通过比较留一法交叉验证得到;7)用XGBoost回归建立N

P类有机敏化剂PCE的快速预报模型;8)根据建立的N

P类有机敏化剂PCE的快速预报模型,预报待检测分子的功率转化效率PCE;9)根据SHAP值的正负影响进一步得到变量与目标变量的关系;10)查阅文献,利用参考文献中对于特征的解释,结合在步骤9)中的根据SHAP值的正负影响进一步得到的变量,构建QSPR模型;11)查阅文献参考性能优异分子,通过编程自动生成大量的虚拟样本,将这些虚拟样本投入到构建好的QSPR模型中,进行高通量筛选,快速预报出N

P类有机敏化剂的功...

【专利技术属性】
技术研发人员:张瑜李敏杰陈慧敏陆文聪杨晨
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1