【技术实现步骤摘要】
一种基于变分自编码器和Transformer模型的分子设计方法
[0001]本专利技术涉及深度学习和计算化学
,具体为一种基于变分自编码器和
Transformer
模型的分子设计方法
。
技术介绍
[0002]在药学数据化过程中,深度学习技术作为一种强大的工具,能够提供独特的方式来理解和解释这些数据
。
它已被应用到了许多不同的领域,包括自然语言处理
、
计算机视觉和医疗诊断等
。
[0003]计算化学是一门应用计算机模拟方法研究化学问题的学科,它可以模拟和预测分子的结构
、
性质以及反应过程
。
计算化学通过模拟实验提供了大量的信息和理论,这对于理解化学现象,预测未知化合物性质以及设计新的化学物质至关重要
。
然而,传统的计算化学方法往往需要大量的计算资源,且难以处理复杂的化学系统
。
[0004]随着计算机技术的发展,深度学习已经成功地应用于计算化学中,能够处理复杂的化学系统并进
【技术保护点】
【技术特征摘要】
1.
一种基于变分自编码器和
Transformer
模型的分子设计方法,其特征在于:该方法可以在高维潜在空间中表示分子,并生成具有所需特性的新分子,该方法的分子设计过程通过
TransMol
模型来实现,所述
TransMol
模型采用变分自编码器作为该方法的基础,所述变分自编码器包括一个编码器和一个解码器,该分子设计方法具体步骤包括:
S1.
数据预处理收集大量的化学分子数据并进行相应的预处理,将复杂的分子结构信息转换为适用于模型输入的形式;
S2.
训练变分自编码器编码器将输入的分子数据转换为潜在空间中的隐向量,而解码器则根据这些隐向量生成新的分子,生成化学分子库;在数学上,编码过程可以被表示为:
z
=
Encoder(x)
,解码过程可以被表示为:
x'
=
Decoder(z)
,其中
x
是输入的分子结构,
z
是隐向量,
x'
是生成的新分子结构;所述编码器结构选用
Transformer
模型,所述解码器结构选用
LSTM
,编码器和解码器均采用自注意力机制,自注意力机制在数学上可以被表示为:
Attention(Q,K,V)
=
softmax(QK^T)V/sqrt(d_k)
,其中
Q、K
和
V
分别是查询
、
键和值,
d_k
是键的维度
。2.
根据权利要求1所述的一种基于变分自编码器和
Transformer
模型的分子设计方法,其特征在于:步骤
S1
中的预处理方式为将分子转化为
SMILES
字符串
。3.
根据权利要求2所述的一种基于变分自编码器和
Transformer
模型的分子设计方法,其特征在于:所述
SMILES
字符串包括多个向量,且多个向量中包括一个加入噪音后的样本,一个
mask
样本,即人为添加掩码或遮挡的样本
。4.
根据权利要求1所述的一种基于变分自编码器和
Transformer
模型的分子设计方法,其特征在于:该方法中,针对每一个分子
xi
,都会有一个对应的潜在变量
z
,该潜在变量是通过编码器从分子
xi
中抽取出来的,在生成分子时,从这个潜在变量
z
出发,通过解码器生成分子,这一过程是基于条件概率
P
θ
(xi∣z)
,即在给定潜在变量
z
的条件下生成分子
xi
的概率;该方法中使用一个高斯先验
P(z)
=
N(0,I)
作为潜在空间的先验分布;该方法中还引入了一个
OT
空间,该空间用于约束生成过程中的拓扑结构,为保证生成的分子拥有正确的拓扑结构,通过优化
DKL T
Σ
t
=
1(T
π
(Ot∣xi)∣∣P(Ot))
来约束
OT
空间的分布与先验分布的接近程度
。5.
根据权利要求3所述的一种基于变分自编码器和
Transformer
模型的分子设计方...
【专利技术属性】
技术研发人员:周洋,谭峻东,刘天悦,王腾杨,叶酷南,邝泰维,杨凌智,江民川,黄圣杰,罗智轩,
申请(专利权)人:深度感知生物医学科技广州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。