当前位置: 首页 > 专利查询>西湖大学专利>正文

一种基于深层图网络的预测液相色谱保留时间的方法和装置制造方法及图纸

技术编号:37571458 阅读:12 留言:0更新日期:2023-05-15 07:49
本发明专利技术涉及一种基于深层图网络的预测液相色谱保留时间的方法和装置。该方法获取待测化学物质的分子结构信息,并根据分子结构信息构建图网络信息,所述图网络信息包括节点特征、边特征和邻接矩阵;将所述图网络信息输入训练完成的用于液相色谱保留时间预测的深层图网络模型,利用所述深层图网络模型预测得到液相色谱保留时间。所述深层图网络模型包括图网络层、读出层和线性层;所述图网络层将分子边信息引入信息传递过程,并引入残差连接,同时增加模型深度以提高预测效果;所述读出层采用基于注意力机制的读出层。本发明专利技术提出的基于深层图网络的预测液相色谱保留时间的方法能够提高预测准确率。够提高预测准确率。够提高预测准确率。

【技术实现步骤摘要】
一种基于深层图网络的预测液相色谱保留时间的方法和装置


[0001]本专利技术属于液相色谱技术、信息处理
,具体涉及一种基于深层图网络的预测液相色谱保留时间的方法和装置。

技术介绍

[0002]在过去的几十年中,由于具有高灵敏度和高选择性,液相色谱

质谱(LC

MS)已被用作鉴定小分子结构的最有效方法。虽然串联质谱(MS/MS)信息已被证明可用于表征结构,由于串联质谱数据库极其有限,所以仅仅依靠串联质谱不足以确定结构。面对这一挑战,保留时间已经被用来针对化合物进行辅助鉴定。保留时间是样品进入色谱柱到流出色谱柱被质谱检测到所需要的时间。因为保留时间可以提供串联质谱获得的正交信息之外的正交信息,能够在鉴定时,减少可能的结构数量,是排除鉴定假阳性的重要手段。如何能够准确地预测液相色谱的保留时间,以及不同液相条件下的保留时间,是本专利技术要解决的主要问题。
[0003]目前有限的已有研究,多使用传统机器学习方法,如贝叶斯岭回归、随机森林等,基于分子指纹或分子描述符,进行保留时间预测。但是分子指纹或描述符仅仅只能代表化学分子的部分性质,无法利用分子的整体结构信息。

技术实现思路

[0004]本专利技术针对现有基于分子指纹或分子描述符的传统机器学习预测准确度较低这一问题,提供一种基于深层图网络的预测液相色谱保留时间的方法,以提高预测准确率。
[0005]本专利技术采用的技术方案如下:
[0006]一种基于深层图网络的预测液相色谱保留时间的方法,包括以下步骤:
[0007]获取待测化学物质的分子结构信息,并根据分子结构信息构建图网络信息,所述图网络信息包括节点特征、边特征和邻接矩阵;
[0008]将所述图网络信息输入训练完成的用于液相色谱保留时间预测的深层图网络模型,利用所述深层图网络模型预测得到液相色谱保留时间。
[0009]进一步地,所述节点特征包括:原子类型,手性中心类型,手性,原子度,形式电荷,杂化方式,芳香性,氢供体或受体,是否为杂原子,是否在环中,节点的氢原子数量,自由基电子数,价电子数,Crippen LogP贡献率,Crippen摩尔折射贡献率,Gasteiger电荷,质量数,以及拓扑极表面积贡献;所述边特征包括:键类型、是否为共轭、是否是环的一部分、是否可旋转以及该化学键的立体结构信息;所述邻接矩阵根据分子化学键进行构建。
[0010]进一步地,所述深层图网络模型包括图网络层、读出层和线性层;所述图网络层将分子边信息引入信息传递过程,并引入残差连接,同时增加模型深度以提高预测效果。
[0011]进一步地,所述图网络层的处理过程包括:
[0012]将源节点u、目标节点v之间的边信息和源节点u的信息传递到目标节点v,目标节点v采用softmax函数进行聚合,得到的更新后的信息m
l

[0013]将更新后的信息m
l
使用线性层进行处理,之后通过非线性激活函数σ,最后将更新
后的分子信息和原分子信息进行加和,即进行残差连接操作。
[0014]进一步地,所述读出层采用基于注意力机制的读出层;所述基于注意力机制的读出层包含超级虚拟节点,所述超级虚拟节点和分子中每个原子节点连接,所述超级虚拟节点的编码首先由求和得到,然后使用以下公式进行更新:
[0015]e
i
=concat(c,n
i
)*W+b
[0016][0017][0018]h
k
,c
k
=GRU(h
k
‑1,c
k
‑1)
[0019]其中,c为超级虚拟节点的编码,n
i
代表分子中每个原子节点的编码,e
i
为经过线性层后的权重,α
i
为使用softmax进行归一化的重要性代表程度的系数,其总和为一;代表所有分子中的所有原子节点;GRU为门控循环单元,c
k
为第k次经过图注意力机制计算超级虚拟节点的编码,h
k
为第k次更新后的分子编码。
[0020]进一步地,所述线性层包含2层线性层,其中第一层的隐藏层维度为1024,通过第一层后,经过线性整流函数ReLU,再经过第二层,将维度投射到1,以进行保留时间的预测。
[0021]进一步地,所述深层图网络模型的训练过程包括:选择保留时间数据集,将其分为训练集、验证集和测试集,对其进行图网络信息的构建,然后采用SmoothL1损失函数,采用自适应时刻估计算法对所述深层图网络模型进行训练。
[0022]一种基于深层图网络的预测液相色谱保留时间的装置,其包括:
[0023]图网络信息构建模块,用于获取待测化学物质的分子结构信息,并根据分子结构信息构建图网络信息,所述图网络信息包括节点特征、边特征和邻接矩阵;
[0024]保留时间预测模块,用于将所述图网络信息输入训练完成的用于液相色谱保留时间预测的深层图网络模型,利用所述深层图网络模型预测得到液相色谱保留时间。
[0025]本专利技术的有益效果如下:
[0026]本专利技术针对现有基于分子指纹或分子描述符的传统机器学习预测准确度较低这一问题,首次提出引入深层图网络进行保留时间预测,并针对化学物质的保留时间预测这一问题,针对模型进行了多项优化,进而达到提高预测准确率这一效果。相比于传统的机器学习方法,图网络模型可以利用原子级别的描述符,同时利用化学物质的结构信息(图网络信息),从而能够达到更好的预测效果。
[0027]本专利技术开发了一个深层的图卷积网络(DeepGCN

RT)模型,首次在该模型中引入了残差连接,引入了分子的边(化学键)信息,并引入了基于注意力机制的图网络“读出”(readout)模块,在“METLIN保留时间数据集”(SMRT)上,得到了目前预测效果最好的模型。
[0028]此外,考虑到不同研究之间通常倾向于使用不同的液相色谱条件,本专利技术比较了所开发模型在其它液相色谱数据集的效果。结果显示,与文献报道模型的比较表明,本专利技术所开发的模型显著提高了在SMRT数据集和迁移学习数据集上的预测的准确性。最后,使用RIKEN

PlaSMA数据集进行基于LCMS的分子识别,DeepGCN

RT在减少候选结构数量和提高top

k识别精度方面显示出极大优势。
附图说明
[0029]图1.本专利技术的模型结构。
[0030]图2.本专利技术的训练过程中的损失。
[0031]图3.RIKEN

PlaSMA数据集的结构鉴定结果。其中(a)图是使用不同的鉴定方式进行鉴定时候选结构的平均数量,其横坐标分别代表仅使用MSFinder这一软件进行结构鉴定的结果,以及同时使用MSFinder和本研究开发的保留时间预测模型进行结构鉴定的结果,纵坐标代表每个色谱峰的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深层图网络的预测液相色谱保留时间的方法,其特征在于,包括以下步骤:获取待测化学物质的分子结构信息,并根据分子结构信息构建图网络信息,所述图网络信息包括节点特征、边特征和邻接矩阵;将所述图网络信息输入训练完成的用于液相色谱保留时间预测的深层图网络模型,利用所述深层图网络模型预测得到液相色谱保留时间。2.根据权利要求1所述的方法,其特征在于,所述节点特征包括:原子类型,手性中心类型,手性,原子度,形式电荷,杂化方式,芳香性,氢供体或受体,是否为杂原子,是否在环中,节点的氢原子数量,自由基电子数,价电子数,Crippen LogP贡献率,Crippen摩尔折射贡献率,Gasteiger电荷,质量数,以及拓扑极表面积贡献;所述边特征包括:键类型、是否为共轭、是否是环的一部分、是否可旋转以及该化学键的立体结构信息;所述邻接矩阵根据分子化学键进行构建。3.根据权利要求1所述的方法,其特征在于,所述深层图网络模型包括图网络层、读出层和线性层;所述图网络层将分子边信息引入信息传递过程,并引入残差连接,同时增加模型深度以提高预测效果。4.根据权利要求3所述的方法,其特征在于,所述图网络层的处理过程包括:将源节点u、目标节点v之间的边信息和源节点u的信息传递到目标节点v,目标节点v采用softmax函数进行聚合,得到的更新后的信息m
l
;将更新后的信息m
l
使用线性层进行处理,之后通过非线性激活函数σ,最后将更新后的分子信息和原分子信息进行加和,即进行残差连接操作。5.根据权利要求3所述的方法,其特征在于,所述读出层采用基于注意力机制的读出层;所述基于注意力机制的读出层包含超级虚拟节点,所述超级虚拟节点和分子中每个原子节点连接,所述超级虚拟节点的编码首先由求和得到,然后使用以下公式进行更新:e
i
=concat(c,n
i
)*W+b)*W+bh
k
...

【专利技术属性】
技术研发人员:蓝振忠康启越刘航
申请(专利权)人:西湖大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1