【技术实现步骤摘要】
自动药物设计方法、系统、计算设备及计算机可读存储介质
本专利技术涉及计算机
,具体的,涉及一种自动药物设计方法、系统、计算设备及计算机可读存储介质。
技术介绍
设计具有理想性质的先导化合物是药物发现阶段的核心任务。在快速跟随(Fast-follow)和类似(Me-too)药物设计场景中,传统过程需要搜集大量论文和专利,在药物化学家阅读和理解的基础上,设计出结构新颖、可合成、成药性强的化合物,并通过化学合成和生物表征得到验证。分子生成(MolecularGeneration)是近几年发展迅速、基于深度生成学习(deepgenerativelearning)的自动药物设计方法。通过让模型学习输入化合物的SMILES(一种字符串形式表示的化合物结构)或者MolecularGraph(分子图表征的原子和化学键连接)数据,掌握统计规律后,自动产生新结构的化合物,可以极大地提高先导化合物设计工作效率。常见的分子生成算法有循环神经网络(RecurrentNeuralNetwork,RNN)、生成对抗网络(Generative ...
【技术保护点】
1.一种自动药物设计方法,其特征在于,包括:/n将目标先导化合物分解为具有可合成模块的片段,依次将所述片段输入已经训练的药物设计机器学习模型进行采样;/n将所述药物设计机器学习模型输出的新片段重新组装,得到新的先导化合物。/n
【技术特征摘要】
1.一种自动药物设计方法,其特征在于,包括:
将目标先导化合物分解为具有可合成模块的片段,依次将所述片段输入已经训练的药物设计机器学习模型进行采样;
将所述药物设计机器学习模型输出的新片段重新组装,得到新的先导化合物。
2.根据权利要求1所述的自动药物设计方法,其特征在于,所述药物设计机器学习模型的训练数据集通过如下方式获得:
以预定规则对CHEMBL25数据集中的活性化合物进行过滤,得到初始数据集;
将初始数据集中的每一个初始化合物分解为具有可合成模块的片段并去重,得到多个非冗余片段;
使用随机生成SMILES方法,将所述非冗余片段扩增预定倍数,以扩增后得到的多条SMILES字符串作为所述训练数据集。
3.根据权利要求2所述的自动药物设计方法,其特征在于,所述预定规则包括:
活性化合物作用靶点属于人属蛋白家族GPCRA,Hydrolase,Kinase,Ligand-gatedIonChannel,Oxidoreductase,Protease,Transferase,Transporter,Voltage-gatedIonChannel中的一种;
活性测试类型为SINGLEPROTEIN;
去除含有碎片的化合物;
去除分子量大于500的化合物;以及
去除PCHEMBL<6的低活性化合物。
4.根据权利要求2所述的自动药物设计方法,其特征在于,输入训练的SMILES字符串被转化为固定长度为120的字符串:如果SMILES字符串不足120,则用空格补齐;若长度超过120,则被过滤;以及,根据编码S...
【专利技术属性】
技术研发人员:黄韬,金锋,魏文娟,
申请(专利权)人:深圳智药信息科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。