当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于分子制造技术

技术编号:39801068 阅读:12 留言:0更新日期:2023-12-22 02:31
本发明专利技术涉及生物信息学中的数据挖掘领域,具体涉及一种基于分子

【技术实现步骤摘要】
一种基于分子Images和SMILES字符串预训练的分子性质预测方法


[0001]本专利技术涉及生物信息学中的数据挖掘领域,具体涉及一种基于分子
Images

SMILES
字符串预训练的分子性质预测方法


技术介绍

[0002]药物发现是一项耗时

昂贵和高风险的工作,平均时间超过
10
年,平均成本超过
10

20
亿美元,才能使一个新药获准进入临床使用

为了减少对劳动密集型实验的依赖,提高药物开发的效率,人们在开发高效的计算工具和生物信息学方法方面做出了巨大努力

分子性质预测是药物发现过程中的一项基本任务,包括生物活性预测

毒性预测

药物相似性预测等

定量结构

活性
(
特性
)
关系
(QSAR/QSPR)
模型已日益成为选择有希望的候选药物的主导方法

基于机器学习的
QSAR/QSPR
模型是数据驱动的,并且严重依赖于适当的分子表征

目前,分子的表征形式包括分子描述符



简化分子输入行系统
(SMILES)
和图像

[0003]分子描述符是通过算法产生的数学表示,它定量地描述了分子的拓扑结构和物理化学结构,如基于指纹的描述符

尽管基于描述符的方法已经显示出很好的效果,但它们在初始阶段经常需要大量的特征工程

这对许多不具备生成高质量特征的专业知识或资源的研究人员来说是一个重大挑战

与分子描述符不同,关于原子和化学键的结构信息在分子图中显示得很清楚,这使得基于图的方法可以很容易地提取分子特征

然而,目前图神经网络在
MPP
中的应用受到限制,因为它们很容易出现过拟合和过度平滑的问题

鉴于
SMILES
字符串是用语言定义的图形结构来表示化学信息,自然语言处理方法已被广泛采用

基于
SMILES
的方法在分子性质预测方面取得了卓越的表现

然而,由于这种表示方法所包含的分子空间信息有限,对分子性质的准确预测仍然是一个挑战

分子图像通过像素来表示分子的详细结构特征,这对人类来说是最直观的表示方法之一

值得注意的是,图像作为一种新的表示方法的可行性被
ImageMol
所证明
。ImageMol
在精确预测分子特性和药物靶点方面表现出显著的效果,这大大促进了视觉驱动的药物发现

然而,分子图像包含的化学语义较弱,使得模型难以直接从中提取化学相关的信息,这就需要更多的化学知识来进一步提高性能

[0004]虽然基于单一表征的方法已经取得了显著的性能,但它们都依赖于单模态信息

相比之下,多模态模型整合了两个或更多的表征,提供了分子的多个视图,使分子性质预测任务的完成更具有鲁棒性

许多研究人员已经尝试了
SMILES
与不同表征的各种组合,但由于分子图像的化学语义稀少,他们还没有成功地整合图像

分子图像包含丰富的分子结构信息,因为它们以高分辨率显示分子的拓扑特征,揭示了原子的相对位置

键长

角度和其他几何参数

这些正是
SMILES
表述所缺乏的细节

这使我们想到一个假设:
SMILES
字符串中的序列信息和分子图像中的结构信息是否可以相互弥补

如果这个假设成立,图像中的结构细节可以有利于提高基于
SMILES
模型的预测性能,
SMILES
中编码的化学知识也可以帮助分子图像的学习

[0005]目前,视觉语言预训练方面高质量作品的出现,大大加速了多模态研究的发展

这些工作已经逐渐从全局表征和简单融合发展到跨模态注意实现多样化的特征整合,这为我们验证这一假设提供了理论和技术上的支持

[0006]为全面探索分子图像与
SMILES
两者包含信息的关系并将其应用于药物开发,本专利技术提出了一种基于分子
Images

SMILES
字符串预训练的分子性质预测的方法


技术实现思路

[0007]本专利技术提出了一种基于分子
Images

SMILES
字符串预训练的分子性质预测方法,主要包括以下步骤:
[0008](1)

PubChem
收集
SMILES
字符串,使用
RDKit
工具包,将
SMILES
字符串转化为分子
Images

[0009](2)

350
万条
Images

SMILES pairs
划分训练集

测试集,并进行数据预处理;
[0010](3)
建立基于
VLP(Vision

Language Pretraining)
双塔结构神经网络,并设置三个预训练任务对模型进行无监督预训练;
[0011](4)
完成预训练后,更换预测头,加载模型权重并在下游性质预测任务中微调

对于分类任务,采用受试者操作特征曲线下面积
(ROC

AUC)
进行评估

对于回归任务,采用均方根误差
(RMSE)
进行评估

最终选定
14
个与药物挖掘相关的小数据集作为微调任务,以此验证该方法的有效性

[0012]1.
数据收集阶段
[0013]从
PubChem
收集大量
SMILES
字符串数据,并对数据清洗,如去除盐噪声等,最终得到
350
万条合法
SMILES
字符串

利用
RDKit
工具包,将
SMILES
字符串转化标准的分子图像

对于以上数据,将
SMILES、Images
匹配成对,即“Images

SMILES pairs”,最终得到
350
万条<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于分子
Images

SMILES
字符串预训练的分子性质预测方法,其特征在于实施步骤为:
(1)

PubChem
收集
SMILES
字符串,使用
RDKit
工具包,将
SMILES
字符串转化为分子
Images

(2)

350
万条
Images

SMILES pairs
划分训练集

测试集,并进行数据预处理;
(3)
建立基于
VLP(Vision

Language Pretraining)
双塔结构神经网络,并设置三个预训练任务对模型进行无监督预训练;
(4)
完成预训练后,更换预测头,加载模型权重并在下游性质预测任务中微调

对于分类任务,采用受试者操作特征曲线下面积
(ROC

AUC)
进行评估

对于回归任务,采用均方根误差
(RMSE)
进行评估

最终选定
14
个与药物挖掘相关的小数据集作为微调任务,以此验证该方法的有效性
。2.
根据权利要求1所述的一种基于分子
Images

SMILES
字符串预训练的分子性质预测方法,其特征在于数据收集阶段:
(1)

PubChem
收集大量
SMILES
字符串数据,并对其数据清洗,如去除盐噪声等,最终得到
350
万条合法
SMILES
字符串;
(2)
利用
RDKit
工具包,将
SMILES
字符串转化标准的分子
Images

(3)
对于以上数据,将
Images、SMILES
匹配成“Images

SMILES pairs”,最终得到
350
万条
Images

SMILES pairs。3.
根据权利要求1所述的一种基于分子
Images

SMILES
字符串预训练的分子性质预测方法,其特征在于数据预处理阶段:
(1)
通过
k

means
算法将分子的
MACCS fingerprint
聚类,每个
SMILES
将有
100、1000、10000
个标签作为该分子的伪标签类;
(2)
采用
Scaffold Split
划分方式,将
350
万条
Images

...

【专利技术属性】
技术研发人员:陈浩文张翔聂豪
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1