一种基于多维信息的小样本分子特性预测方法技术

技术编号：39737871 阅读：13 留言：0更新日期：2023-12-17 23:39

本发明专利技术涉及分子性质预测领域，具体涉及一种基于多维信息的小样本分子特性预测方法，本发明专利技术基于图对比学习及生成式学习相结合的方法，保证训练得到的分子图编码器能潜在编码分子的三维信息，从而提高对分子的三维表征能力

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多维信息的小样本分子特性预测方法

[0001]本专利技术涉及分子性质预测领域，具体涉及一种基于多维信息的小样本分子特性预测方法
。

技术介绍

[0002]药物发现是一项重要的生物医学任务，其目标是寻找具有特定理想特性的潜在医疗化合物，如更优的吸收
、
分布
、
代谢和排泄
(ADME)
能力，以及低毒性和积极的药理活性
。
开发和发现新药的一个关键步骤是通过广泛的生物研究测试大量分子的治疗活性，这是一个耗费时间
、
资源和金钱的过程
。
据记载，药物发现的开发周期大约需要
10
‑
20
年时间，成本从5亿美金到
26
亿美元不等，但临床成功率仅约为
10
％
。
为了加快这一过程，定量结构属性
/
活性关系
(QSPR/QSAR)
使用机器学习方法建模分子的化学结构和物理化学性质之间的联系
。
通过分子编码器将分子结构编码为固定长度的分子表征；通过预测器，根据分子表征来估计某种特性的活性
。
该预测模型可以在虚拟筛选中得到利用，更有效地发现潜在的分子
。
[0003]分子可以被认为是一个异质结构，每个原子通过不同类型的键连接到不同的相邻原子
。SMILES
字符串是分子的一种表示方法，可以利用序列模型来学习分子嵌入
。/>但因为分子中的键不仅代表了不同原子之间的连接关系，而且还包含了表征键类型的属性信息，如单键
、
双键或三键，所以
SMILES
并不能很好地捕捉每个键的信息
。
另一种方法将分子数据视为图数据，利用图神经网络，得到分子特征表示来训练机器学习模型以预测分子特性
。
然而，与
SMILES
中的序列建模类似，简单地使用分子图来为分子建模并不能全面地学习分子表征
。
因为使用分子图很难捕捉到一些特定的分子属性信息，如原子的手性
。
因此有许多关于分子的任务试图通过使用额外三维信息来进行改进
。
最近大量的工作结果表明，使用原子在空间的三维坐标确实可以提高分子特性预测的准确性
。
但是使用经典的分子动力学模拟来明确计算分子的几何结构再预测其特性，往往是非常昂贵的
。
即使是最近用于构象生成的机器学习
(ML)
方法也需要考虑时间花费等问题
。
现实世界中有关分子的三维信息往往是缺乏的，训练三维模型的时间消耗往往是巨大的，这都极大地阻碍了对分子表示的进一步学习
。
[0004]在过去的几年里，深度神经领域已经也取得了一些关键性的进展，解决了计算机视觉
、
文本挖掘
、
语言翻译和游戏等领域的一些挑战性问题
。
深度神经网络的这种能力是由其在大量数据的情况下学习其输入的复杂表征的能力所支撑的
。
但分子性质预测是一个标记数据数量有限的问题，一方面只有少量的候选分子可以通过虚拟筛选，在药物发现的线索优化阶段进行评估；另一方面经过一系列的湿式实验室实验后，大部分候选分子最终由于缺乏理想的特性而不能成为潜在的药物
。
因此深度学习在药物发现上受到了很大限制，急需一个合适的方法来解决小样本的分子性质预测问题
。

技术实现思路

[0005]为解决上述问题，本专利技术提供一种基于多维信息的小样本分子特性预测方法，提
出了
3D
‑
metaMRG
小样本分析性质预测框架，采用对比性与生成性自监督学习预训练和基于元学习的迭代式分子关系图学习来达到改善小样本分子性质预测的目的
。
首先，基于分子二维拓扑结构和三维几何视图的预训练方式提高了对分子的三维表征能力
。
其次，本专利技术通过建立一个高效的元学习器，能从不同的性质预测任务中转移知识，使有限的标签进一步有效地在类似分子之间传播，从而获得良好的初始化模型，用于快速适应有限数据的新分子特性
。
[0006]为实现上述技术目的，达到上述技术效果，本专利技术是通过以下技术方案实现：
[0007]一种基于多维信息的小样本分子特性预测方法，包括以下步骤：
[0008]S1
：模型预训练：让二维分子编码器通过对比学习和生成学习两种自监督学习方式的结合提高其对分子三维信息的表征能力；
[0009]S2
：小样本分子性质预测：预训练得到的二维分子编码器
PNA
被用作下游任务的元学习器，通过迭代分子关系图学习，在小样本分子性质预测任务中，使有限的标签信息能够进一步有效地在相似的分子之间传播，达到从不同的性质预测任务中转移知识的目的
。
[0010]作为优选，所述步骤
S1
中具体包括以下子步骤：
[0011]S1.1
：将分子的二维信息输入
PNA
得到
h
2D
，将分子的三维信息输入
Net3D
得到
h
3D
；
[0012]S1.2
：将
h
2D
和
h
3D
分别输入到自监督学习模块中，该模块包含对比性自监督学习及生产性自监督学习；
[0013]S1.3
：使
PNA
学习到
Net3D
生成分子三维信息的能力
。
[0014]作为优选，所述步骤
S1.2
中的对比性自监督学习采用对比学习思想
(
知识蒸馏
)
，如果
h
2D
和
h
3D
来自同一个分子，就使它们的一致性最大化，如果不是来自同一个分子，就加强它们之间的异质性
。
[0015]作为优选，所述步骤
S1.2
中的生成性自监督学习包含
VAE
模块及
GAN
模块的学习，同联合
VAE
模块和
GAN
模块的优势，保证学习一个稳健的二维表征，且在最大程度上恢复其三维对应物
。
[0016]作为优选，所述预训练具体包括：用二维拓扑结构和三维几何视图之间的对应关系和一致性来进行对比性和生成性自我监督学习
(SSL)
预训练，在保持二维分子图上操作的标准
PNA
的推理速度的同时，有效地学习了一个二维分子图编码器
PNA
，使得
PNA
学习到潜在的三维信息，提高
PNA
对分子的表征能本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于多维信息的小样本分子特性预测方法，其特征在于，包括以下步骤：
S1
：模型预训练：让二维分子编码器通过对比学习和生成学习两种自监督学习方式的结合提高其对分子三维信息的表征能力；
S2
：小样本分子性质预测：预训练得到的二维分子编码器
PNA
被用作下游任务的元学习器，通过迭代分子关系图学习，在小样本分子性质预测任务中，使有限的标签信息能够进一步有效地在相似的分子之间传播，达到从不同的性质预测任务中转移知识的目的
。2.
如权利要求1所述的一种基于多维信息的小样本分子特性预测方法，其特征在于：所述步骤
S1
具体包括以下子步骤：
S1.1
：将分子的二维信息输入
PNA
得到
h
2D
，将分子的三维信息输入
Net3D
得到
h
3D
；
S1.2
：将
h
2D
和
h
3D
分别输入到自监督学习模块中，该模块包含对比性自监督学习及生产性自监督学习；
S1.3
：使
PNA
学习到
Net3D
生成分子三维信息的能力
。3.
如权利要求2所述的一种基于多维信息的小样本分子特性预测方法，其特征在于：所述对比性自监督学习采用对比学习思想
(
知识蒸馏
)
，如果
h
2D
和
h
3D
来自同一个分子，就使它们的一致性最大化，如果不是来自同一个分子，就加强它们之间的异质性；所述生成性自监督学习包含
VAE
模块及
GAN
模块的学习，同联合
VAE
模块和
GAN
模块的优势，保证学习一个稳健的二维表征，且在最大程度上恢复其三维对应物
。4.
如权利要求3所述的一种基于多维信息的小样本分子特性预测方法，其特征在于：预训练自监督学习目标是两种损失函数之和的最小化，具体包括：训练自监督学习目标是两种损失函数之和的最小化，具体包括：训练自监督学习目标是两种损失函数之和的最小化，具体包括：为了简化符号，采用
x
和
y
来表示二维和三维图形，即，来表示二维和三维图形，即，其中是余弦相似度，
τ
是温度参数；
μ
、
λ
、
λ1、
λ2和
λ3是权重系数；若每一批有
N
个分子图每个分子取出前个
M
最高概率构象异构体
C。
则从二维网络
PNA
和三维网络
Net3D
中得到的表征分别记为中得到的表征分别记为若有相同的索引
i
，则来自同一个分子，为正对；若
i≠j
，则为负对；为
a
的期望函数；然后，
潜在表示被表...

【专利技术属性】
技术研发人员：林英，皮欢，张竣元，刘泽雕，罗娅瑜，朱童志军，
申请(专利权)人：云南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人