自动药物设计方法、系统、计算设备及计算机可读存储介质技术方案

技术编号:26794858 阅读:35 留言:0更新日期:2020-12-22 17:11
本发明专利技术公开了一种自动药物设计方法、系统、计算设备及计算机可读存储介质。所述方法包括:将目标先导化合物分解为具有可合成模块的片段,依次将所述片段输入已经训练的药物设计机器学习模型进行采样;将所述药物设计机器学习模型输出的新片段重新组装,得到新的先导化合物。本发明专利技术的自动药物设计,在分子生成有效性、独特性方面性能有大幅提升,可以生成新颖性高、可合成性强、成药性强的分子;可以轻松地在高分子量区域生成分子;只需用特定数据集训练一次,即可重复用于不同的靶点先导化合物生成场景;可以很容易实现固定化合物局部结构,对其余部分进行优化。

【技术实现步骤摘要】
自动药物设计方法、系统、计算设备及计算机可读存储介质
本专利技术涉及计算机
,具体的,涉及一种自动药物设计方法、系统、计算设备及计算机可读存储介质。
技术介绍
设计具有理想性质的先导化合物是药物发现阶段的核心任务。在快速跟随(Fast-follow)和类似(Me-too)药物设计场景中,传统过程需要搜集大量论文和专利,在药物化学家阅读和理解的基础上,设计出结构新颖、可合成、成药性强的化合物,并通过化学合成和生物表征得到验证。分子生成(MolecularGeneration)是近几年发展迅速、基于深度生成学习(deepgenerativelearning)的自动药物设计方法。通过让模型学习输入化合物的SMILES(一种字符串形式表示的化合物结构)或者MolecularGraph(分子图表征的原子和化学键连接)数据,掌握统计规律后,自动产生新结构的化合物,可以极大地提高先导化合物设计工作效率。常见的分子生成算法有循环神经网络(RecurrentNeuralNetwork,RNN)、生成对抗网络(GenerativeAdversaria本文档来自技高网...

【技术保护点】
1.一种自动药物设计方法,其特征在于,包括:/n将目标先导化合物分解为具有可合成模块的片段,依次将所述片段输入已经训练的药物设计机器学习模型进行采样;/n将所述药物设计机器学习模型输出的新片段重新组装,得到新的先导化合物。/n

【技术特征摘要】
1.一种自动药物设计方法,其特征在于,包括:
将目标先导化合物分解为具有可合成模块的片段,依次将所述片段输入已经训练的药物设计机器学习模型进行采样;
将所述药物设计机器学习模型输出的新片段重新组装,得到新的先导化合物。


2.根据权利要求1所述的自动药物设计方法,其特征在于,所述药物设计机器学习模型的训练数据集通过如下方式获得:
以预定规则对CHEMBL25数据集中的活性化合物进行过滤,得到初始数据集;
将初始数据集中的每一个初始化合物分解为具有可合成模块的片段并去重,得到多个非冗余片段;
使用随机生成SMILES方法,将所述非冗余片段扩增预定倍数,以扩增后得到的多条SMILES字符串作为所述训练数据集。


3.根据权利要求2所述的自动药物设计方法,其特征在于,所述预定规则包括:
活性化合物作用靶点属于人属蛋白家族GPCRA,Hydrolase,Kinase,Ligand-gatedIonChannel,Oxidoreductase,Protease,Transferase,Transporter,Voltage-gatedIonChannel中的一种;
活性测试类型为SINGLEPROTEIN;
去除含有碎片的化合物;
去除分子量大于500的化合物;以及
去除PCHEMBL<6的低活性化合物。


4.根据权利要求2所述的自动药物设计方法,其特征在于,输入训练的SMILES字符串被转化为固定长度为120的字符串:如果SMILES字符串不足120,则用空格补齐;若长度超过120,则被过滤;以及,根据编码S...

【专利技术属性】
技术研发人员:黄韬金锋魏文娟
申请(专利权)人:深圳智药信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1