System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于机器学习的柱层析预测方法技术_技高网
当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于机器学习的柱层析预测方法技术

技术编号:41327817 阅读:5 留言:0更新日期:2024-05-13 15:05
本发明专利技术公开了一种基于机器学习的柱层析预测方法,通过搭建自动化高通量实验平台收集柱层析数据,利用有限的数据,先采用分位数几何增强图神经网络(GeoGNN)基于一种规格的色谱柱构建并训练一个基础预测模型,然后通过迁移学习将每种规格的色谱柱信息特征化并嵌入基础预测模型,得到迁移预测模型,使模型能够应用于多种规格的色谱柱上,快速准确地预测出混合有机化合物的分离条件。该方法可以显著提高柱层析分离的效率和准确性,避免传统实验方式中的大量试错,节约大量的时间和实验成本。

【技术实现步骤摘要】

本专利技术涉及有机化学柱层析领域,具体涉及一种基于机器学习的柱层析分离预测方法。


技术介绍

1、在有机化学领域中,化合物的分离常通过柱层析方法进行,而柱层析分离方法对实验者的经验和操作水平的要求都比较高,尤其是挑选出合适的色谱柱和对应的洗脱剂比例,以实现化合物的快速准确分离。这些过程通常繁琐而又耗费时间,极大地制约了有机合成研究的效率。同时,实验结果受人为因素的影响较大,造成实验的误差无法控制。

2、随着计算机技术的发展,机器学习算法被广泛地运用于大数据分析任务中。其中,xgboost、lightgbm、神经网络等方法在数据的回归与预测方面都有着亮眼的表现,具有快速、稳定的优点与强大的泛化能力。在化学领域,由于实验获取数据的成本相对较高,机器学习算法往往表现不佳。中国专利技术专利申请文件cn116230109a公开了一种基于深度学习的手性分离预测方法,能够预测出最佳的手性分离实验条件,包括手性分离柱型号、展开剂比例和流速。但对于庞大的化学世界来说,手性分离仅仅是很小的一部分,应用更广的化合物分离预测是更大的难题。

3、在此背景下,如何克服上述问题,在有限的数据下,基于机器学习开发出一种柱层析预测算法,从化合物的结构与性质快速准确地预测出其柱层析分离条件是一个亟待解决的问题。


技术实现思路

1、本专利技术的目的在于提供一种基于机器学习的柱层析预测方法,以解决上述现有技术中存在的问题,在已有技术的基础上,通过搭建自动化实验平台收集数据,利用有限的数据训练出柱层析预测模型,并通过迁移学习使模型能够应用于多种规格的色谱柱上,能够快速准确地预测出混合有机化合物的分离条件。

2、为实现上述目的,本专利技术提供如下技术方案:

3、一种基于机器学习的柱层析预测方法,包含如下步骤:

4、1.数据采集与清洗:采集柱层析实验数据并进行清洗和整合,以获取完整、无重复、无异常值的柱层析数据集;

5、2.数据预处理:对步骤1获得的数据进行预处理,生成用于训练神经网络模型的输入信息矩阵;

6、3.构建和训练基础预测模型:采用分位数几何增强图神经网络(geognn)基于一种规格的色谱柱构建并训练一个基础预测模型,预测混合物在给定实验条件下的柱层析分离概率和分离时间;

7、4.构建和训练迁移预测模型:在基础预测模型的基础上,采用参数迁移的方式进行迁移学习,将每种规格的色谱柱信息特征化并嵌入基础预测模型,得到迁移预测模型;

8、5.预测柱层析实验条件:对含多种化合物的混合物使用迁移预测模型预测在给定实验条件下的柱层析分离时间,并计算不同实验条件下化合物的分离概率,从而得到分离概率最大的实验条件作为最佳的柱层析实验条件。

9、上述步骤1可以通过搭建自动化高通量实验平台采集柱层析实验数据,包括化合物的分子式、实验条件和分离时间数据,其中,所述实验条件包括色谱柱规格、化合物的上样质量、上样溶剂、上样溶剂质量、洗脱剂体系及配比、流速等。

10、上述步骤2包括:将化合物的分子式数字化,通过分子指纹和分子描述符来表征化合物的分子结构与性质;使用洗脱剂配比向量表示洗脱剂体系及配比;预处理后的每条数据的信息向量包含多个维度,从而生成输入信息矩阵。

11、上述步骤3,对化合物分子构建一个原子-键图,分子中原子和化学键分别对应于图的节点和边特征,记为图g;同时构建一个键长-键角图,键长和键角分别对应于图的节点和边特征,记为图h;基于图g和图h构建分位数几何增强图神经网络geognn;将实验参数特征嵌入图g的边特征中,将相关分子描述符嵌入到图h的边特征中,通过图同构卷积操作生成特定的图表征。

12、其中,所述实验参数特征包括组成洗脱剂的溶剂的加权描述符和3维柱层析列信息,其中,组成洗脱剂的溶剂的加权描述符是由溶剂的摩尔质量、拓扑极性表面积、可旋转键数、氢键给体数、氢键受体数、分配系数这六种描述符通过加权平均得到的描述符;所述3维柱层析列信息包括上样溶剂种类、样品的上样质量、上样溶剂的质量。以上4维实验参数特征包含了洗脱剂配比和流速信息。所述分子描述符包含11维的分子特征(aats1s、atsc0m、axp-2dv、axp-3dv、aeta_eta_fl、amid_n、aatsc0p、topopsa(no)、topopsa、eta_dbeta、peoe_vsa6),描述了分子的化学和物理性质。

13、上述步骤4将基础预测模型的网络训练参数(通过训练得到基础预测模型之后,对应的训练参数包括图同构卷积的层数、一次训练所抓取的数据样本数量)迁移到新网络(其他规格色谱柱的预测模型网络)上,并用更低的学习率(如学习率等于10-4)进行训练。

14、与现有技术相比,本专利技术技术方案的有益效果为:

15、1.本专利技术通过机器学习方法建立柱层析分离条件的预测模型,能够快速准确地预测出混合物在包括色谱柱规格、洗脱剂比例和流速在内的目标实验条件下的分离时间,并计算出其在给定实验条件下的分离概率,从而进一步预测出最佳的分离实验条件。该方法可以显著提高分离的效率和准确性,避免传统实验方式中的大量试错,节约大量的时间和实验成本。

16、2.本专利技术解决了实验化学领域中柱层析数据的统一性问题,通过自动化高通量方法收集大量柱层析数据,并对数据进行整理,形成柱层析数据集。

17、3.本专利技术在分位数几何增强图神经网络的机器学习框架基础上,通过迁移学习让预测模型适配于更多规格的色谱柱,并在每种规格色谱柱上预测分离时间方面都表现出令人满意的性能。

本文档来自技高网...

【技术保护点】

1.一种基于机器学习的柱层析预测方法,包括以下步骤:

2.如权利要求1所述的柱层析预测方法,其特征在于,步骤1)通过搭建自动化高通量实验平台采集柱层析实验数据,包括化合物的分子式、实验条件和分离时间数据,其中实验条件包括色谱柱规格、化合物的上样质量、上样溶剂、上样溶剂质量、洗脱剂体系及配比、流速。

3.如权利要求2所述的柱层析预测方法,其特征在于,在步骤2)将化合物的分子式数字化,通过分子指纹和分子描述符来表征化合物的分子结构与性质;使用洗脱剂配比向量表示洗脱剂体系及配比;预处理后的每条数据的信息向量包含多个维度,从而生成输入信息矩阵。

4.如权利要求1所述的柱层析预测方法,其特征在于,在步骤3)对于化合物分子,构建一个原子-键图,分子中原子和化学键分别对应于图的节点和边特征,记为图G;同时构建一个键长-键角图,键长和键角分别对应于图的节点和边特征,记为图H;基于图G和图H构建分位数几何增强图神经网络GeoGNN;将实验参数特征嵌入图G的边特征中,将分子描述符嵌入到图H的边特征中,通过图同构卷积操作生成特定的图表征。

5.如权利要求4所述的柱层析预测方法,其特征在于,所述实验参数特征包括组成洗脱剂的溶剂的加权描述符和3维柱层析列信息,其中,溶剂的加权描述符是由溶剂的摩尔质量、拓扑极性表面积、可旋转键数、氢键给体数、氢键受体数、分配系数这六种描述符通过加权平均得到的描述符,所述3维柱层析列信息是指上样溶剂种类、样品的上样质量和上样溶剂的质量。

6.如权利要求4所述的柱层析预测方法,其特征在于,所述分子描述符包含11维的分子特征:AATS1s、ATSC0m、AXp-2dv、AXp-3dv、AETA_eta_FL、AMID_N、AATSC0p、TopoPSA(NO)、TopoPSA、ETA_dBeta、PEOE_VSA6,描述了分子的化学和物理性质。

7.如权利要求1所述的柱层析预测方法,其特征在于,步骤4)将基础预测模型的网络训练参数迁移到其他规格色谱柱的预测模型网络上,用更低的学习率进行训练。

8.如权利要求7所述的柱层析预测方法,其特征在于,步骤4)迁移学习的学习率等于10-4。

9.如权利要求1所述的柱层析预测方法,其特征在于,在步骤5)根据下述公式计算两种化合物的分离概率Sp:

...

【技术特征摘要】

1.一种基于机器学习的柱层析预测方法,包括以下步骤:

2.如权利要求1所述的柱层析预测方法,其特征在于,步骤1)通过搭建自动化高通量实验平台采集柱层析实验数据,包括化合物的分子式、实验条件和分离时间数据,其中实验条件包括色谱柱规格、化合物的上样质量、上样溶剂、上样溶剂质量、洗脱剂体系及配比、流速。

3.如权利要求2所述的柱层析预测方法,其特征在于,在步骤2)将化合物的分子式数字化,通过分子指纹和分子描述符来表征化合物的分子结构与性质;使用洗脱剂配比向量表示洗脱剂体系及配比;预处理后的每条数据的信息向量包含多个维度,从而生成输入信息矩阵。

4.如权利要求1所述的柱层析预测方法,其特征在于,在步骤3)对于化合物分子,构建一个原子-键图,分子中原子和化学键分别对应于图的节点和边特征,记为图g;同时构建一个键长-键角图,键长和键角分别对应于图的节点和边特征,记为图h;基于图g和图h构建分位数几何增强图神经网络geognn;将实验参数特征嵌入图g的边特征中,将分子描述符嵌入到图h的边特征中,通过图同构卷积操作生成特定的图表征。

5.如权利要求4所述的柱层...

【专利技术属性】
技术研发人员:莫凡洋吴文超徐浩张东晓
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1