System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于语言模型的聚酰亚胺逆向设计方法技术_技高网
当前位置: 首页 > 专利查询>上海大学专利>正文

基于语言模型的聚酰亚胺逆向设计方法技术

技术编号:41289101 阅读:4 留言:0更新日期:2024-05-11 09:38
本发明专利技术公开了基于语言模型的聚酰亚胺逆向设计方法,首先,通过编码器将聚酰亚胺材料编码成分子指纹的形式,捕捉聚酰亚胺单体的结构和相互作用关系,然后,借用语言模型的强大生成能力,将该表示用于聚酰亚胺性质以及聚酰亚胺整体结构的序列化生成,并设计了多种与目标值之间的损失误差进行模型训练。在此基础上,使用训练好的语言模型进行聚酰亚胺材料的性质预测与逆向设计。本发明专利技术设计了针对聚酰亚胺材料的语言模型训练模式,利用了其强大的生成优势,进行高精度的性质预测和多样化的材料逆向设计。

【技术实现步骤摘要】

本专利技术涉及聚酰亚胺材料的人工智能算法领域,具体是一种基于语言模型的聚酰亚胺性质预测与逆向设计方法。


技术介绍

1、在小分子领域,存在着许多分子序列表示方式如smiles(simplified molecularinput line entry system)、smart(smiles arbitrary target specification)和selfies(self-referencing embedded strings)等,这些序列表示方式已经被广泛应用于描述分子结构。许多研究团队使用自然语言处理(natural language processing)的方式进行信息提取,并在各种下游任务中取得了显著的成果。

2、高分子材料是由重复的单体单位通过化学键连接形成的大分子化合物,在高分子领域应用上述序列的处理方法就会相对困难。目前,许多研究团队采用了smiles将高分子简化为序列数据,并利用语言模型的生成能力进行表示学习或预测生成。2022年9月,佐治亚理工学院的研究团队首次将语言模型应用于均聚物领域进行表示学习,这也是首次将transformer模型引入高分子领域的尝试。2023年9月,卡内基梅隆大学同样使用了类似的方法对高分子数据进行表示学习。

3、目前语言模型在高分子领域中的应用仅仅使用了transformer模型中的encoder部分。也就是说,目前的语言模型在聚合物领域只能进行表示学习任务,无法利用decoder部分进行其他任务。这限制了语言模型在高分子领域的应用,无法直接用于高分子的生成、优化和预测等任务。在当前大模型时代,公众可以使用大型模型来处理小分子和蛋白质方面的问题,但在高分子领域尚未出现成熟且可靠的大模型。

4、聚酰亚胺(polyimides,pi)是一类具有重复酰亚胺单元的高性能聚合物,因其卓越的热稳定性、机械性能、化学稳定性、绝缘性和耐辐射性能而被广泛应用于航空航天、微电子、汽车、高温工程材料以及电气绝缘领域等高技术行业。目前有部分团队针对聚酰亚胺进行了性质预测工作,并使用传统的设计方向进行逆向设计。针对聚酰亚胺材料,目前仍然没有研究团队提出过使用语言模型进行逆向设计任务。


技术实现思路

1、本专利技术提供了一种基于语言模型的聚酰亚胺逆向设计方法,其目的在于,解决
技术介绍
中的问题。

2、本专利技术是通过以下技术方案实现的:

3、基于语言模型的聚酰亚胺逆向设计方法,首先,通过特征工程如图神经网络对聚酰亚胺单体进行表示,捕捉高分子单体的结构和相互作用关系,在训练阶段,将该表示作为模型的输入,同时构建聚酰亚胺热力学性质与聚酰亚胺高分子整体结构的序列表示,利用与目标值之间的损失进行模型训练,在推理阶段,既可以输入已知聚酰亚胺的单体结构从而预测其性质,也可以指定所需性质进行聚酰亚胺的逆向设计。

4、作为优选,使用消息传递网络(mpnn)表示学习方法对聚酰亚胺单体进行高效编码,得到聚酰亚胺的单体分子指纹,在此基础上构建一个编码流水线,该流水线能够接受聚酰亚胺单体的名称或smiles字符串作为输入,并直接输出聚酰亚胺的精确编码表示。

5、作为优选,语言模型训练文件的构建方法:通过数据增强方法,扩充了聚酰亚胺数据集,并将训练数据和标签进行了标准化处理,预测性质选用了聚酰亚胺材料最重要的密度、玻璃化转变温度、分解温度和熔点四个物理性质。在构建训练文件时,将单体smiles作为训练内容,聚酰亚胺smiles和归一化性质的序列表示作为训练标签,进行分词后构建训练文件。

6、作为优选,语言模型训练过程的设计:首先,将上述训练文件送入编码流水线,此步骤将训练文件转换为聚酰亚胺材料的分子指纹。接下来,利用transformer模型的解码器部分,对这些分子指纹进行序列预测。预测过程中,将预测结果与训练集的标签进行误差分析,分析内容涵盖性质预测误差、单词预测误差以及聚酰亚胺结构预测误差。通过精细调节误差权重和优化搜索策略,可以构建一个既精确又多样的聚酰亚胺逆向设计模型。

7、有益效果:本专利技术利用语言模型的优势,提出了专门针对聚酰亚胺材料的逆向设计方式。模型在百万尺度规模的聚酰亚胺测试集上对三种热学性质预测rmse均降到了50摄氏度以内。模型对日本国立物质材料研究所数据库polyinfo上采集的聚酰亚胺热力性质的预测rmse平均值分别为26.74摄氏度、79.35摄氏度、18.53摄氏度。此外,本专利技术还能根据聚酰亚胺所需性质,使用语言模型的强大生成能力去做聚酰亚胺材料的多样化逆向设计。

本文档来自技高网...

【技术保护点】

1.基于语言模型的聚酰亚胺逆向设计方法,其特征在于,首先,通过特征工程如图神经网络等对聚酰亚胺单体进行表示,捕捉高分子单体的结构和相互作用关系,在训练阶段,将该表示作为模型的输入,同时构建聚酰亚胺热力学性质与聚酰亚胺高分子整体结构的序列表示,利用与目标值之间的损失进行模型训练,在推理阶段,既可以输入已知聚酰亚胺的单体结构从而预测其性质,也可以指定所需性质进行聚酰亚胺的逆向设计。

2.根据权利要求1所述的基于语言模型的聚酰亚胺逆向设计方法,其特征在于,使用消息传递网络(MPNN)表示学习方法对聚酰亚胺单体进行高效编码,得到聚酰亚胺的单体分子指纹,在此基础上构建一个编码流水线,该流水线能够接受聚酰亚胺单体的名称或SMILES字符串作为输入,并直接输出聚酰亚胺的精确编码表示。

3.根据权利要求1所述的基于语言模型的聚酰亚胺逆向设计方法,其特征在于,语言模型训练文件的构建方法:通过数据增强方法,扩充了聚酰亚胺数据集,并将训练数据和标签进行了标准化处理,预测性质选用了聚酰亚胺材料最重要的密度、玻璃化转变温度、分解温度和熔点四个物理性质,在构建训练文件时,将单体SMILES作为训练内容,聚酰亚胺SMILES和归一化性质的序列表示作为训练标签,进行分词后构建训练文件。

4.根据权利要求1所述的基于语言模型的聚酰亚胺逆向设计方法,其特征在于,语言模型训练过程的设计:首先,将上述训练文件送入编码流水线,此步骤将训练文件转换为聚酰亚胺材料的分子指纹,接下来,利用Transformer模型的解码器部分,对这些分子指纹进行序列预测,预测过程中,将预测结果与训练集的标签进行误差分析,分析内容涵盖性质预测误差、单词预测误差以及聚酰亚胺结构预测误差,通过精细调节误差权重和优化搜索策略,可以构建一个既精确又多样的聚酰亚胺逆向设计模型。

...

【技术特征摘要】

1.基于语言模型的聚酰亚胺逆向设计方法,其特征在于,首先,通过特征工程如图神经网络等对聚酰亚胺单体进行表示,捕捉高分子单体的结构和相互作用关系,在训练阶段,将该表示作为模型的输入,同时构建聚酰亚胺热力学性质与聚酰亚胺高分子整体结构的序列表示,利用与目标值之间的损失进行模型训练,在推理阶段,既可以输入已知聚酰亚胺的单体结构从而预测其性质,也可以指定所需性质进行聚酰亚胺的逆向设计。

2.根据权利要求1所述的基于语言模型的聚酰亚胺逆向设计方法,其特征在于,使用消息传递网络(mpnn)表示学习方法对聚酰亚胺单体进行高效编码,得到聚酰亚胺的单体分子指纹,在此基础上构建一个编码流水线,该流水线能够接受聚酰亚胺单体的名称或smiles字符串作为输入,并直接输出聚酰亚胺的精确编码表示。

3.根据权利要求1所述的基于语言模型的聚酰亚胺逆向设计方法,其特征在于,语言模...

【专利技术属性】
技术研发人员:谢玮陈力栋
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1