药物分子筛选方法及系统技术方案

技术编号:26691860 阅读:28 留言:0更新日期:2020-12-12 02:44
一种药物分子筛选方法及系统,包括:采集与特定疾病相关药物分子数据,对数据进行预处理,计算其编码向量及药物理化性质;构建和训练基于条件变分自编码器的AI模型,将编码向量和分子的药物理化性质组合作为模型的输入层,通过模型的编码层转换为隐层编码向量,再经模型的解码层生成可能的药物分子结构,在模型训练过程中,通过梯度下降算法将模型损失函数最小化,不断更新迭代编码层和解码层的神经网络结构的权值参数;根据训练出的条件变分自编码器的模型,生成治愈特定疾病的潜在药物分子;上述药物分子筛选方法及系统将化合物分子的药物理化性质数据也利用起来,药物理化性质与该化合物是否最终能够成药有着较大相关性,提高其成药性。

【技术实现步骤摘要】
药物分子筛选方法及系统
本专利技术涉及筛选方法,特别涉及一种药物分子筛选方法及系统。
技术介绍
在药物研发领域,传统的方法是计算机模拟筛选再合成药物,随着AI医药的快速发展,人们开始尝试将各种AI算法模型应用在医药研发领域,以解决新药研发流程周期长的问题,目前很多疾病的靶点信息是未知的,导致从众多化合物库中寻找有效的药物分子的难度和成本都是极高的,而AI快速的计算能力和创新性的理论基础给药物分子的筛选过程带来了新的研究方式。譬如对抗生成网络,卷积神经网络,循环神经网络,强化学习等在药物分子生成上的尝试应用,这些AI模型可以快速从大批量的化学库分子中找到与目标分子相似的药物分子,从而极大的减少分子的搜索空间,同时生成一定程度上有效的药物分子用于后续的药物筛选和实验过程。目前利用AI模型生成药物分子的技术中,研究学者应用最多的方法基于自编码器的模型,譬如VAE和AAE模型等,这种基于对抗网络思想的模型能够探索出与现有药物分子相似的潜在药物分子,其缺陷在于生成的药物分子的有效性和准确度确并不高,同时存在所生成的潜在药物分子与训练集分子存在同一本文档来自技高网...

【技术保护点】
1.一种药物分子筛选方法,其特征在于,包括:/n预处理:采集与特定疾病相关药物分子数据,对数据进行预处理,计算其编码向量及相关的药物理化性质,形成结构数据并存入数据库;/n构建训练模型:构建和训练基于条件变分自编码器的AI模型,将编码向量和分子的药物理化性质组合作为模型的输入层,通过模型的编码层转换为隐层编码向量,再经模型的解码层生成可能的药物分子结构,在模型训练过程中,通过梯度下降算法将模型损失函数最小化,不断更新迭代编码层和解码层的神经网络结构的权值参数;/n生成潜在药物分子:根据训练出的条件变分自编码器的模型,生成治愈特定疾病的潜在药物分子。/n

【技术特征摘要】
1.一种药物分子筛选方法,其特征在于,包括:
预处理:采集与特定疾病相关药物分子数据,对数据进行预处理,计算其编码向量及相关的药物理化性质,形成结构数据并存入数据库;
构建训练模型:构建和训练基于条件变分自编码器的AI模型,将编码向量和分子的药物理化性质组合作为模型的输入层,通过模型的编码层转换为隐层编码向量,再经模型的解码层生成可能的药物分子结构,在模型训练过程中,通过梯度下降算法将模型损失函数最小化,不断更新迭代编码层和解码层的神经网络结构的权值参数;
生成潜在药物分子:根据训练出的条件变分自编码器的模型,生成治愈特定疾病的潜在药物分子。


2.根据权利要求1所述的药物分子筛选方法,其特征在于,所述编码向量为SMILES式编码向量,所述预处理包括:统计出SMILES式中所有字符,将SMILES式中每个字符都转换为one-hot向量,将每个药物分子的SMILES式数据处理为设定维度的编码向量。


3.根据权利要求1所述的药物分子筛选方法,其特征在于,所述计算药物分子的药物理化性质包括:计算分子质量、计算脂水分配系数、计算分子H键供体数、计算分子H键受体数、计算分子拓扑极性表面积中的一种或多种。


4.根据权利要求3所述的药物分子筛选方法,其特征在于,将计算分子质量、计算脂水分配系数、计算分子拓扑极性表面积三个指标的数据进行归一化处理,将数据统一映射到-1.0-1.0范围内,将每个药物分子的5个药物理化性质形成5维向量。


5.根据权利要求2所述的药物分子筛选方法,其特征在于,将SMILES式数据和药物理化性质数据共同组成药物分子总数据集并按照4:1的比例将总数据集随机划分为训练数据集和测试数据集,将每个SMILES式数据处理为一个120维编码向量,和5个代表不同药物理化性质的向量拼接组合形成一个125维向量数据,并作为模型的输入层。


6.根据权利要求1至5任意一项所述的药物分子筛选方法,其特征在于,所述AI模型结构包括:输入层、编码层、隐层、解码层、输出层,所述编码层输入输入层输出数据,输出到隐层,所述编码层为RNN网络结构,包含3层循环神经网络层,采用LSTM单元,每一层设置512个隐藏节点,所述解码层输入隐层的输出数据,输出到输出层,所述解码层为RNN网络结构,包含3层循环神经网络层,采用LSTM单...

【专利技术属性】
技术研发人员:汪念吴楚楠徐旻温书豪马健赖力鹏
申请(专利权)人:深圳晶泰科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1