【技术实现步骤摘要】
一种基于多模态的分子表示预测方法
[0001]本专利技术涉及药物发现
,更具体的说是涉及一种基于多模态的分子表示预测方法
。
技术介绍
[0002]在传统实验中药物发现是一项具有挑战性且成本高的工作
。
候选化合物只有在经过物理
、
生物和化学性质的综合测试后,才能用于药物设计
。
因此,分子属性预测是药物发现和设计过程中的一个关键环节,涉及未知化合物的生物化学特性测定
。
近年来,随着人工智能的快速发展,人工智能技术在药物发现和设计中的应用因其简化发现周期和有效降低成本的潜力而受到广泛关注
。
在这一领域中,基于深度学习的分子属性预测方法表现出了显著的性能
。
目前有很多数据驱动的分子表示学习方法,主要分为以下三类:基于序列
、
基于图和基于分子构象的方法
。
[0003]在基于序列的分子表示学习方法中,分子可以用带有
ASCII
字符串的
SMILES />表示
。本文档来自技高网...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于多模态的分子表示预测方法,其特征在于,包括以下步骤:
S1、
构建药物分子的数据集,并获取数据集中的每个分子的序列表示;
S2、
获取数据集中的每个分子的分子图表示;
S3、
获取数据集中的每个分子的分子构象图表示;
S4、
将
S1
‑
S3
得到的每个分子的序列表示
、
分子图表示
、
分子构象图表示,引入全局注意力池化层,获取分子级表示;
S5、
对
S4
得到的不同模态的分子级表示,引入模态间的基于相似性的对比机制,计算不同模态间的总对比损失;
S6、
对
S4
得到的不同模态的分子级表示,设计融合层获取分子的联合表示;
S7、
对
S6
得到的分子联合表示,引入分子属性预测器,并通过计算的混合有监督信号损失和
S5
中计算的总对比损失来训练优化模型,得到最优模型来获取最终的分子表示
。2.
根据权利要求1所述的一种基于多模态的分子表示预测方法,其特征在于,
S1
中具体包括:将输入的分子转换为一个
SMILES
序列,并利用
one
‑
hot
编码将
SMILES
序列映射为特征向量,然后利用
Bi
‑
LSTM
单元将
one
‑
hot
编码进行预处理,并捕获
SMILES
上下文信息表示;将序列编码表示输入到变换器来学习
SMILES
的节点级表示
。3.
根据权利要求1所述的一种基于多模态的分子表示预测方法,其特征在于,
S2
中具体包括:将输入的分子转换为分子图,引入多层
CMPNN
来获取原子表示;
CMPNN
模块包括两个部分,前一部分包括一个消息增强器,后一部分采用了多层感知器
。4.
根据权利要求1所述的一种基于多模态的分子表示预测方法,其特征在于,
S3
中具体包括:将输入的分子转换为分子构象图,引入
GEMGNN
技术研发人员:宣琦,汪泽钰,蒋天依,王金焕,俞山青,
申请(专利权)人:杭州市滨江区浙工大网络空间安全创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。