【技术实现步骤摘要】
一种基于分子Images和SMILES字符串预训练的分子性质预测方法
[0001]本专利技术涉及生物信息学中的数据挖掘领域,具体涉及一种基于分子
Images
和
SMILES
字符串预训练的分子性质预测方法
。
技术介绍
[0002]药物发现是一项耗时
、
昂贵和高风险的工作,平均时间超过
10
年,平均成本超过
10
‑
20
亿美元,才能使一个新药获准进入临床使用
。
为了减少对劳动密集型实验的依赖,提高药物开发的效率,人们在开发高效的计算工具和生物信息学方法方面做出了巨大努力
。
分子性质预测是药物发现过程中的一项基本任务,包括生物活性预测
、
毒性预测
、
药物相似性预测等
。
定量结构
‑
活性
(
特性
)
关系
(QSAR/QSPR)
模型已日益成为选择有希望的候选药物的主导方法
。
基于机器学习的
QSAR/QSPR
模型是数据驱动的,并且严重依赖于适当的分子表征
。
目前,分子的表征形式包括分子描述符
、
图
、
简化分子输入行系统
(SMILES)
和图像
。
[0003]分子描述符是通过算法产生的数学表示,它定量地描述了分子的拓扑结构和物理 ...
【技术保护点】
【技术特征摘要】
1.
一种基于分子
Images
和
SMILES
字符串预训练的分子性质预测方法,其特征在于实施步骤为:
(1)
从
PubChem
收集
SMILES
字符串,使用
RDKit
工具包,将
SMILES
字符串转化为分子
Images
;
(2)
将
350
万条
Images
‑
SMILES pairs
划分训练集
、
测试集,并进行数据预处理;
(3)
建立基于
VLP(Vision
‑
Language Pretraining)
双塔结构神经网络,并设置三个预训练任务对模型进行无监督预训练;
(4)
完成预训练后,更换预测头,加载模型权重并在下游性质预测任务中微调
。
对于分类任务,采用受试者操作特征曲线下面积
(ROC
‑
AUC)
进行评估
。
对于回归任务,采用均方根误差
(RMSE)
进行评估
。
最终选定
14
个与药物挖掘相关的小数据集作为微调任务,以此验证该方法的有效性
。2.
根据权利要求1所述的一种基于分子
Images
和
SMILES
字符串预训练的分子性质预测方法,其特征在于数据收集阶段:
(1)
从
PubChem
收集大量
SMILES
字符串数据,并对其数据清洗,如去除盐噪声等,最终得到
350
万条合法
SMILES
字符串;
(2)
利用
RDKit
工具包,将
SMILES
字符串转化标准的分子
Images
;
(3)
对于以上数据,将
Images、SMILES
匹配成“Images
‑
SMILES pairs”,最终得到
350
万条
Images
‑
SMILES pairs。3.
根据权利要求1所述的一种基于分子
Images
和
SMILES
字符串预训练的分子性质预测方法,其特征在于数据预处理阶段:
(1)
通过
k
‑
means
算法将分子的
MACCS fingerprint
聚类,每个
SMILES
将有
100、1000、10000
个标签作为该分子的伪标签类;
(2)
采用
Scaffold Split
划分方式,将
350
万条
Images
‑
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。