System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于文本描述符的材料设计方法技术_技高网

一种基于文本描述符的材料设计方法技术

技术编号:41134010 阅读:4 留言:0更新日期:2024-04-30 18:04
本发明专利技术公开了一种基于文本描述符的材料设计方法,包括以下步骤:步骤1:通过利用百万文献数据库,设计了混合描述符并将其输入到机器学习模型中进行训练测试;步骤2:对该混合描述符所得到的材料名称与性质的相关趋势,同时对不含文本描述符的模型进行准确率验证;步骤3:基于文本描述符训练算法模型,并得到第一性原理计算模型;步骤4:以该混合描述符为核心预测位置空间,并分析其值的区间分布;本发明专利技术通过获取百万文献摘要并降维设计文本描述符,并结合遗传算法等其它模态数据,大大提高模型训练测试的准确率以及预测验证的准确率,且大量地节省了人力、物料成本,解决小数据训练模型准确率低、预测效果不佳而大数据驱动成本高昂的问题。

【技术实现步骤摘要】

本专利技术涉及材料设计领域,具体涉及一种基于文本描述符的材料设计方法


技术介绍

1、随着基因工程的提出,通过人工智能来设计材料成了颇受关注的研究热点。小数据、大数据等利用以及多来源数据的应用是人工智能设计新材料中至关重要的一点,现有大量文献数据库未得到合理充分的利用,现有手动和自动两种方式对文献数据库进行提取,但是耗费大量人力和算力以及时间成本,现如今仍然没有一种便捷的方式能够利用好文献数据库,且如今数据驱动领域中,小数据驱动存在准确率低、大数据驱动存在成本高昂等问题,如何解决二者存在问题成了人工智能设计新材料至关重要的一环。


技术实现思路

1、专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种解决文献数据库资源浪费、小数据驱动准确率低预测效果不佳、大数据驱动成本高昂问题的基于文本描述符的材料设计方法。

2、为实现上述目的,本专利技术采用的技术方案为:

3、一种基于文本描述符的材料设计方法,包括以下步骤:

4、步骤1:利用百万文献数据库进行词向量训练并通过降维设计文本描述符,根据目标词汇的性质设计混合描述符mix,并将其输入到后续的机器学习模型中进行训练测试;

5、步骤2:将含有步骤1所述文本描述符的数据集进行特征选择并使用遗传算法模型和随机森林模型进行训练以及预测,并分别描述材料名称与性质的相关趋势,对比不含文本描述符的模型,进行准确率验证;

6、步骤3:对基于文本描述符训练的遗传算法模型,进行公式解析,并以文本描述符为出发点,分析文本描述符对输出的影响由此构建第一性原理计算模型;

7、步骤4:以混合文本描述符为核心预测未知空间,分析混合文本描述符的值的区间分布。

8、作为本专利技术的一种优选实施方式:所述的步骤1中的混合描述符mix=ss+ps+ws+ms–us,其中,ss表示溶剂分子与目标词汇stable的余弦值相关性、ps表示溶剂分子与perovskite的相似值、ws表示溶剂分子与相似性water的余弦值相关性、ms表示溶剂分子与mapbi3的余弦值、us表示溶剂分子和unstable的余弦值。

9、作为本专利技术的一种优选实施方式:所述的步骤1中的目标词汇为机理部分的词汇,具体为描述材料成分、性质、机理以及分子间作用力。

10、作为本专利技术的一种优选实施方式:所述的步骤2中的遗传算法部分包含设计的mix特殊文本描述符,进行模型对比,通过加入和去除文本描述符观察文本描述符对模型的贡献,并通过特征重要性计算,观察文本描述符的贡献度,推测机理,并设计后续第一性原理计算。

11、作为本专利技术的一种优选实施方式:所述的步骤2中,通过使用正号表示稳定,负号表示不稳定来对材料名称与性质的相关趋势进行描述。

12、作为本专利技术的一种优选实施方式:所述的步骤2中,准确率验证具体为对训练部分以及后续预测部分的准确率比较。

13、作为本专利技术的一种优选实施方式:所述的步骤3中的遗传算法公式拆解部分,围绕设计的文本描述符,将遗传算法迭代得到的输出定义公式为:stability=f1+f2+f3×f4,并对其进行可视化以及拆解,观察文本描述符的贡献程度,解析各个文本描述符对输出的影响,由公式推测输出最可能受哪种机理影响,并且基于此,设计第一性原理计算部分,验证文本描述符的准确性,并对比预测数据和实验、文献,由此得到模型的准确率。

14、作为本专利技术的一种优选实施方式:步骤4中基于混合文本描述符预测未知空间,通过分析遗传算法迭代得到的公式中混合文本描述符值对输出的影响,

15、当混合文本描述符与输出值呈正相关关系时,在预测结果中选取混合文本描述符值较大的化学分子组合,

16、当混合文本描述符与输出值呈负相关关系时,在预测结果中选取混合文本描述符值较小的化学分子组合。

17、本专利技术相比现有技术,具有以下有益效果:

18、1.通过设计文本描述符解决了小数据驱动准确率低,预测效果差的问题。

19、2.解决了大数据驱动,原始数据获取成本高昂,算力需求昂贵的问题(本方法在小数据集表现优异)。

20、3.文本描述符基于文献数据库,使文献数据得到合理充分的利用,解决了资源搁置与浪费的问题。

21、4.通过文本描述符在训练测试效果和预测效果的准确率上得到了显著提升。

22、5.设计的文本描述符与材料最本质的机理部分紧密相连,文本描述符贯穿整个设计流程,紧密衔接,为第一性原理计算模型的构建提供了出发点,帮助研究深层机制。

本文档来自技高网...

【技术保护点】

1.一种基于文本描述符的材料设计方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于文本描述符的材料设计方法,其特征在于:所述的步骤1中的混合描述符Mix=Ss+Ps+Ws+Ms–Us,其中,Ss表示溶剂分子与目标词汇stable的余弦值相关性、Ps表示溶剂分子与perovskite的相似值、Ws表示溶剂分子与相似性Water的余弦值相关性、Ms表示溶剂分子与MAPbI3的余弦值、Us表示溶剂分子和Unstable的余弦值。

3.根据权利要求1所述的一种基于混合文本描述符的材料设计方法,其特征在于:所述的步骤1中的目标词汇为机理部分的词汇,具体为描述材料成分、性质、机理以及分子间作用力。

4.根据权利要求1所述的一种基于混合文本描述符的材料设计方法,其特征在于:所述的步骤2中的遗传算法部分包含设计的Mix特殊文本描述符,进行模型对比,通过加入和去除文本描述符观察文本描述符对模型的贡献,并通过特征重要性计算,观察文本描述符的贡献度,推测机理,并设计后续第一性原理计算。

5.根据权利要求1所述的一种基于混合文本描述符的材料设计方法,其特征在于:所述的步骤2中,通过使用正号表示稳定,负号表示不稳定来对材料名称与性质的相关趋势进行描述。

6.根据权利要求1所述的一种基于混合文本描述符的材料设计方法,其特征在于:所述的步骤2中,准确率验证具体为对训练部分以及后续预测部分的准确率比较。

7.根据权利要求1所述的一种基于混合文本描述符的材料设计方法,其特征在于:所述的步骤3中的遗传算法公式拆解部分,围绕设计的文本描述符,将遗传算法迭代得到的输出定义公式为:stability=f1+f2+f3×f4,并对其进行可视化以及拆解,观察文本描述符的贡献程度,解析各个文本描述符对输出的影响,由公式推测输出最可能受哪种机理影响,并且基于此,设计第一性原理计算部分,验证文本描述符的准确性,并对比预测数据和实验、文献,由此得到模型的准确率。

8.根据权利要求1所述的一种基于文本描述符的材料设计方法,其特征在于:步骤4中基于混合文本描述符预测未知空间,通过分析遗传算法迭代得到的公式中混合文本描述符值对输出的影响,

...

【技术特征摘要】

1.一种基于文本描述符的材料设计方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于文本描述符的材料设计方法,其特征在于:所述的步骤1中的混合描述符mix=ss+ps+ws+ms–us,其中,ss表示溶剂分子与目标词汇stable的余弦值相关性、ps表示溶剂分子与perovskite的相似值、ws表示溶剂分子与相似性water的余弦值相关性、ms表示溶剂分子与mapbi3的余弦值、us表示溶剂分子和unstable的余弦值。

3.根据权利要求1所述的一种基于混合文本描述符的材料设计方法,其特征在于:所述的步骤1中的目标词汇为机理部分的词汇,具体为描述材料成分、性质、机理以及分子间作用力。

4.根据权利要求1所述的一种基于混合文本描述符的材料设计方法,其特征在于:所述的步骤2中的遗传算法部分包含设计的mix特殊文本描述符,进行模型对比,通过加入和去除文本描述符观察文本描述符对模型的贡献,并通过特征重要性计算,观察文本描述符的贡献度,推测机理,并设计后续第一性原理计算。

5.根据权利要...

【专利技术属性】
技术研发人员:张磊黄艺如
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1