用于发现具有期望特性的材料的机器学习框架制造技术

技术编号:29688106 阅读:19 留言:0更新日期:2021-08-13 22:13
提出了一种用于从化学数据库中发现新材料候选物的计算机实施的方法。该方法包括:从化学式提取特征向量;利用稀疏内核模型采用化学数据库学习用于从特征向量预测属性值的预测模型,基于在所述学习步骤中学习的所述预测模型所预测的属性值,从以降序排序的现有材料列表中选择现有材料,从以对所述选择的现有材料的绝对反应幅度的降序排序的基础材料列表中选择基础材料,以及生成作为考虑所述选择的基础材料所述选择的现有材料的变体的新材料候选物。

【技术实现步骤摘要】
【国外来华专利技术】用于发现具有期望特性的材料的机器学习框架
技术介绍

本专利技术总体上涉及发现新材料,并且更具体地涉及用于发现具有期望特性的新材料的机器学习框架。相关技术描述鉴于大规模数据的可用性,数据挖掘的实践已经引起科学发现中的范式变化,从经验科学到理论、计算科学,并且现在到数据科学。具体地,在应用先进的机器学习技术以辅助材料发现方面存在巨大的兴趣,这预想了在非常加速的速度和降低的成本下先进材料的计算辅助的发现、开发、制造和部署。现实世界应用鼓励方法的开发,这些方法通过将人看到的事物(例如,晶体的结构、化合物的组成)与人想要的事物(例如,合金的某一强度要求)联系起来,帮助客观地创造出对于特定应用具有所希望的特性的新材料。
技术实现思路
根据实施例,提供了一种用于从化学数据库中发现新材料候选物的方法。该方法包括:从化学式提取特征向量;利用稀疏内核模型采用化学数据库学习用于从特征向量预测属性值的预测模型,基于在所述学习步骤中学习的所述预测模型所预测的属性值,从以降序排序的现有材料列表中选择现有材料,从以对所述选择的现有材料的绝对反应幅度的降序排序的基础材料列表中选择基础材料,以及生成作为考虑所述选择的基础材料所述选择的现有材料的变体的新材料候选物。根据另一个实施例,提供了一种用于从化学数据库中发现新材料候选物的系统。所述系统包括存储器和与所述存储器通信的一个或多个处理器,所述处理器被配置为采用从化学式提取的特征向量,利用稀疏内核模型采用所述化学数据库来学习用于从所述特征向量预测属性值的预测模型,基于在所述学习步骤中学习的所述预测模型所预测的属性值,从以降序排序的现有材料列表中选择现有材料,从以对所述选择的现有材料的绝对反应幅度的降序排序的基础材料列表中选择基础材料,以及生成作为考虑所述选择的基础材料所述选择的现有材料的变体的新材料候选物。根据又一个实施例,提供了一种非暂时性计算机可读存储介质,该非暂时性计算机可读存储介质包括用于从化学数据库中发现新材料候选物的计算机可读程序。非暂时性计算机可读存储介质执行以下步骤:从化学式提取特征向量,使用稀疏内核模型采用所述化学数据库来学习用于从所述特征向量预测属性值的预测模型,基于在所述学习步骤中学习的所述预测模型所预测的属性值,从以降序排序的现有材料列表中选择现有材料,从以对所述选择的现有材料的绝对反应幅度的降序排序的基础材料列表中选择基础材料,以及生成作为考虑所述选择的基础材料所述选择的现有材料的变体的新材料候选物。应注意的是,参考不同的主题描述了示例性实施例。具体地,参照方法类型权利要求描述了一些实施例,而参照装置类型权利要求描述了其他实施例。然而,本领域的技术人员将从以上和以下说明中得出,除非另有说明,除了属于一种类型的主题的特征的任何组合之外,还涉及不同主题的特征之间的任何组合,特别是方法类型权利要求的特征,以及装置类型权利要求的特征之间的任何组合被视为在本文档内描述。这些和其他特征和优点将从其说明性实施例的以下详细描述中变得明显,该详细描述将结合附图来阅读。附图说明本专利技术将参考下列附图在以下优选实施例的描述中提供细节,其中:图1是一种用于发现材料候选物的示例性确定性生成方法;图2是示出根据本专利技术的实施方式的训练数据的采样的示例性图;图3是根据本专利技术的实施方式的将本方法与现有方法比较的示例性图;图4是根据本专利技术的实施例的用于通过采用稀疏内核模型发现材料候选物的示例性确定性生成方法的框图/流程图;图5是根据本专利技术的实施例的用于实现用于发现材料候选物的确定性生成方法的示例性等式的框图/流程图;图6是根据本专利技术的实施例的示例性处理系统;图7是根据本专利技术的实施例的示例性云计算环境的框图/流程图;以及图8是根据本专利技术的实施例的示例性抽象模型层的示意图。在整个附图中,相同或相似的附图标记表示相同或相似的元件。具体实施方式根据本专利技术的实施例提供了用于通过使用稀疏内核模型采用无随机性的确定性方法来生成新材料候选物的方法和设备,其中所述方法生成候选物作为稀疏内核模型中具有较高目标属性值的现有材料和对这些现有材料具有大反应量值的基础材料之间的变体。材料发现的问题涉及决定具有所希望的目标属性的材料的某些组成、配制和加工步骤。作为工具的神经网络已经用于材料科学应用中,诸如光谱学分类和结构识别、表征合金的组成关系、描述符的评估等。然而,神经网络和深度学习尚未广泛用于材料发现应用中。本专利技术的示例性实施例采用深度学习技术来发现具有期望属性的新材料。与统计技术相比,机器学习技术更有效地检测和分析时间序列数据。这是因为机器学习具有两个重要特征,即特征工程和预测。特征工程方面用于解决时间序列数据的趋势和季节性问题。还可以通过它来解决将模型拟合到时间序列数据的问题。深度学习用于将时间序列的特征提取与非线性自回归模型进行组合以用于更高级预测。深度学习被用于自动地从特征提取有用信息,而无需使用任何人类努力或复杂的统计技术。存在两种最有效的机器学习技术,即,受监督和无监督学习。对训练数据点执行监督学习,使得它们可被分类成不同类别的数据点。但是,对于监督学习,需要标记数据点。然而,另一种方法是未标记数据点的无监督学习。可以应用无监督学习来训练系统,使得可以对该系列中的下一数据点进行预测。为了实现这一点,做出置信区间或预测误差。因此,对于数据点,可以实施测试以检查哪些数据点存在于置信区间之内或之外。最常见的监督学习算法是监督神经网络、支持向量机学习、k最近邻、贝叶斯网络和决策树。最常见的无监督算法是自组织映射(SOM)、K均值、C均值、期望最大化元算法(EM)、自适应谐振理论(ART)和一类支持向量机。应理解的是,将根据给定的说明性架构来描述本专利技术;然而,在本专利技术的范围内可以改变其他架构、结构、衬底材料和工艺特征和步骤/块。应注意,为了清楚起见,不能在所有图中示出某些特征。这不旨在被解释为限制任何特定实施例、或说明、或权利要求的范围。图1是一种用于发现材料候选物的示例性确定性生成方法。发现具有所希望的特性(例如,高玻璃化转变温度、低粘度等)的新材料例如像有机聚合物(例如,环氧树脂)是化学工业的重要任务。在不同领域中存在许多类似的问题和需要(逆分析),如生成过程和食谱(用于化学反应、烹饪、芳香等)、优化物理结构、广告等。问题是从化学数据库中找到或发现具有高属性值的材料,如图1的流程图100所示。输入端102包括多对现有材料(例如,可以使用简化分子输入线进入系统(SMILES化学文件格式)描述的化学式)和该化学式的相应特性。输出118包括具有期望属性的新材料的化学式,其中期望属性可以是,例如高值。然而,期望的属性可被推广到其他设置,诸如探索具有特定属性值的材料。在常规方法中,可以以分批方式或顺序方式执行以下步骤。在第一步骤中,根据从化学式102提取的一些特征向量104来构建用于化学属性的预测模型106。特征向量104是描述化本文档来自技高网...

【技术保护点】
1.一种在处理器上执行的用于从化学数据库发现新材料候选物的计算机实现的方法,所述方法包括:/n从化学式中提取特征向量;/n利用稀疏内核模型采用所述化学数据库来学习用于从所述特征向量预测属性值的预测模型;/n基于在所述学习步骤中学习的所述预测模型所预测的属性值,从以降序排序的现有材料列表中选择现有材料;/n从以对所述选择的现有材料的绝对反应幅度的降序排序的基础材料的列表中选择基础材料;以及/n生成作为考虑所述选择的基础材料所述选择的现有材料的变体的新材料候选物。/n

【技术特征摘要】
【国外来华专利技术】20190115 US 16/247,9541.一种在处理器上执行的用于从化学数据库发现新材料候选物的计算机实现的方法,所述方法包括:
从化学式中提取特征向量;
利用稀疏内核模型采用所述化学数据库来学习用于从所述特征向量预测属性值的预测模型;
基于在所述学习步骤中学习的所述预测模型所预测的属性值,从以降序排序的现有材料列表中选择现有材料;
从以对所述选择的现有材料的绝对反应幅度的降序排序的基础材料的列表中选择基础材料;以及
生成作为考虑所述选择的基础材料所述选择的现有材料的变体的新材料候选物。


2.如权利要求1所述的方法,其中,所述生成步骤进一步包括:
响应于正面的反应,在所述选择的现有材料和所述选择的基础材料之间交换子结构。


3.如权利要求1所述的方法,其中,所述生成步骤进一步包括:
响应于负面的反应,从所述选定的现有材料中减去所述选定的现有材料和所述选定的基础材料之间共享的子结构。


4.如权利要求1所述的方法,其中,所述基础材料被存储在用于学习所述预测模型的训练数据库中。


5.如权利要求1所述的方法,其中,所述反应幅度是在所述选择的现有材料与所述基础材料之间的距离x所述预测模型的系数。


6.如权利要求1所述的方法,其中,在所述预测模型的内插区域中发现所述新材料候选物。


7.如权利要求1所述的方法,其中所述特征向量是任意的,并且所述稀疏内核模型是相关向量机(RVM)。


8.一种非暂时性计算机可读存储介质,其包括在数据处理系统中的处理器上执行的用于从化学数据库发现新材料候选物的计算机可读程序,其中所述计算机可读程序当在所述处理器上执行时使计算机执行以下步骤:
从化学式中提取特征向量;
利用稀疏内核模型采用所述化学数据库来学习用于从所述特征向量预测属性值的预测模型;
基于在所述学习步骤中学习的所述预测模型所预测的属性值,从以降序排序的现有材料列表中选择现有材料;
从以对所述选择的现有材料的绝对反应幅度的降序排序的基础材料的列表中选择基础材料;以及
生成作为考虑所述选择的基础材料所述选择的现有材料的变体的新材料候选物。


9.如权利要求8所述的非暂时性计算机可读存储介质,其中,所述生成步骤进一步包括:
响应于正面的反应,在所述选择的现有材料和所述选择的基础材料之间交换子结构。

【专利技术属性】
技术研发人员:胜木孝行
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1