基于深度学习的靶标预测系统及其方法技术方案

技术编号:22724293 阅读:17 留言:0更新日期:2019-12-04 06:20
本发明专利技术是一种基于深度学习的靶标预测系统,其特征在于,该系统包括通过深度学习框架tensorflow进行算法的建模、通过使用RDkit、Numpy、Pandas进行数据处理的靶标预测模块,所述靶标预测模块包括靶标训练阶段和靶标预测阶段,所述靶标训练阶段通过对已知分子及其对应的靶标之间的关系的训练生成训练模型,靶标预测阶段通过将新的分子信息输入到训练模型中进行新的分子靶标概率的预测,通过对预测出的靶标概率的分析对比确定分子的靶标,其中,该系统通过原子之间的化学键作用进行拓扑相邻的卷积操作。通过将靶标预测模块采用深度学习框架tensorflow进行算法的建模、使用RDkit、Numpy、Pandas进行数据处理的方式使分子与靶标之间的关系的探索更高效准确,增加了分子靶标预测的准确率。

Target prediction system and method based on deep learning

The invention is a target prediction system based on deep learning, which is characterized in that the system includes a target prediction module which models the algorithm through the deep learning framework tensorflow, and processes the data by using rdkit, numpy and pandas. The target prediction module includes the target training stage and target prediction stage, and the target training stage includes the target training stage and the target prediction stage by analyzing the known molecules and In the target prediction stage, the new molecular information is input into the training model to predict the probability of the new molecular target, and the molecular target is determined through the analysis and comparison of the predicted probability of the target. In this system, the topological adjacent convolution operation is performed through the chemical bond between atoms. By using the deep learning framework tensorflow to model the target prediction module and rdkit, numpy and pandas to process the data, the exploration of the relationship between molecules and targets is more efficient and accurate, and the accuracy of molecular target prediction is increased.

【技术实现步骤摘要】
基于深度学习的靶标预测系统及其方法
本专利技术属于分子靶标领域,特别涉及基于深度学习的靶标预测系统及其方法。
技术介绍
据估计人类基因中应该有3000-5000个可以作为药物的分子靶标,而当前比较成熟的药靶仅500个左右。因此,分子靶标药物的研究不仅是必须的,而且有很大的研究探索空间。充分利用有效的靶标发现和功能研究验证技术,寻找出重大疾病治疗药物的关键靶分子并分析其对药物疗效和毒副作用的影响,为新药研究和开发提供靶标,并为临床安全用药提供理论依据,有利于保证人们安全有效用药,并且对推动我国药学、基础医学和生物信息学等相关学科的发展,具有重要的科学意义。分子靶标是以研究疾病发生、发展过程中细胞分子生物学上的差异(包括基因、酶、信号转导等不同特性)为基础,筛选和鉴定与疾病密切相关的蛋白质、核酸、酶、受体等生物分子作为药物作用的靶点,通过研究药物设计和构效关系得到靶向特异性生物分子的先导化合物,通过靶向给药控释系统实现有效靶向给药及个体化治疗。分子靶标新药研究的整个过程由疾病分子靶标筛选鉴定、新药设计、构效关系研究、靶向给药及个体化治疗等阶段组成。随着基因组学、蛋白质组学和结构生物学的飞速发展,疾病分子机制研究的不断深入,以及实验性药物靶标的识别和验证技术的突破,我国在分子靶标新药领域的研究有较大的发展空间。现有的通过计算机辅助进行反向找靶主要有三种方法:反向分子对接(TargetFishing)、药效团模型搜索(CompoundProfiling)及基于配体分子相似性分析(LignadSimilaritySearch),但是上述靶标预测方法,运算性能不高,预测的靶标准确率较低,而靶标的准确度是靶标预测最为重要的部分,如预测和筛选错误,将给后续的实验带来巨大量级的资金耗损。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种高效探索分子与靶标之间的关系、靶标预测准确率高的基于深度学习的靶标预测系统及其方法。本专利技术的另一个目的在于提供一种不依赖于分子的结构、输入的分子数据简单、成本较低、安全可靠的基于深度学习的靶标预测系统及其方法。为实现上述目的,本专利技术的技术方案如下。本专利技术是一种基于深度学习的靶标预测系统,其特征在于,该系统包括通过深度学习框架tensorflow进行算法的建模、通过使用RDkit、Numpy、Pandas进行数据处理的靶标预测模块,所述靶标预测模块包括靶标训练阶段和靶标预测阶段,所述靶标训练阶段通过对已知分子及其对应的靶标之间的关系的训练生成训练模型,靶标预测阶段通过将新的分子信息输入到训练模型中进行新的分子靶标概率的预测,通过对预测出的靶标概率的分析对比确定分子的靶标,其中,该系统通过原子之间的化学键作用进行拓扑相邻的卷积操作。通过靶标预测模块的靶标训练阶段实现对已知靶标的分子的分子信息的训练学习获得分子靶标预测的训练模型;靶标预测阶段通过将未知靶标的分子的信息输入该训练模型中,实现未知靶标的分子对应的靶标的预测。通过将靶标预测模块采用深度学习框架tensorflow进行算法的建模、使用RDkit、Numpy、Pandas进行数据处理的方式使分子与靶标之间的关系的探索更高效准确,增加了分子靶标预测的准确率。进一步地,所述靶标训练阶段和靶标预测阶段均包括分子预处理单元,所述靶标训练阶段还包括靶标训练单元,所述靶标预测阶段还包括靶标预测单元;在靶标训练阶段,所述分子预处理单元执行后,执行靶标训练单元,生成训练模型;在靶标预测阶段,所述分子预处理单元执行后,执行靶标预测单元,预测出分子对应的靶标。所述靶标训练单元对分子预处理单元处理后的已知靶标的分子的分子信息进行模拟训练后,获得分子对应的靶标概率得分的预测的训练模型。所述靶标预测单元对对分子预处理单元处理后的未知靶标的分子的分子信息作为训练模型的输入,预测出该分子对应的靶标概率得分。进一步地,所述分子预处理单元包括获得已知分子及其对应的靶标的信息,其中所述靶标分子的信息包括靶标分子的指纹、描述符、smiles信息、3D图、分子所包含的原子的基本属性和原子之间的化学键信息。其中已知分子及其对应的靶标信息的获取来源于zinc数据库、pubchem数据库等公开数据库。分子描述符可以分为定量描述符和定性描述符。前者包括基于分子图论、各种理论或实验光谱数据(如紫外光谱)、分子组成(如氢键供体数、化学键计数)、理化性质(如脂水分布系数)描述符、分子场描述符以及分子形状描述符等;定性描述符一般称为分子指纹,即将分子的结构、性质、片断或子结构信息用某种编码来表示,常用的分子指纹包括Daylightfingerprints、MACCSkeys,MDlpublickeys等。采用smiles简化已知分子的线性输入规范,用ASCII字符串明确描述已知的分子结构的字符序列,获取该已知分子的smiles信息。通过获得已知分子及其对应的靶标之间的关系,为靶标训练单元的模拟训练提供学习训练基础。把组成分子的所有原子的基本属性和原子之间的化学键信息作为分子特征输入到改进的CNN网络中学习,充分发挥神经网络强大的自动特征抽取能力。进一步地,所述靶标训练单元包括对已知分子及其对应的靶标信息进行训练,学习分子与其对应的靶标之间的关系,获得训练模型。通过靶标训练单元实现对已知分子及其对应的靶标信息的学习和训练,从而获得分子对应的靶标概率得分的预测,得到训练模型。进一步地,所述靶标训练单元还包括验证单元,所述验证单元对训练模型进行验证,获得较佳的训练模型。其中,通过对多组已知靶标的分子的分子信息的学习和训练,实现对训练模型的校验,通过验证单元的设置实现对训练模型的验证,确保能够获得较佳的训练模型,其中,验证单元还包括对靶标训练单元执行过程中参数的调节,进行选择到最优,保证了分子靶标预测的准确性,其中参数包括学习率、卷积层个数和BatchNormalization参数等。进一步地,所述靶标训练单元包括卷积神经网络系统,该卷积神经网络系统以分子中的每个原子为中心,以化学键相连接的原子构成的基团展开。其中第一层卷积层计算的是半径为1的较小的基团,第二层是计算半径为2的基团,以此类推,在我们的建立的模型上,一共有4种半径的卷积模块,半径分别是1、2、3、4,每种半径的卷积模块都有3层卷积层。每个卷积模块输出的特征合并后,供后面的全连接层预测概率。改变了传统的CNN网络在空间邻域上进行的卷积操作,根据原子之间的化学键作用进行拓扑相邻的卷积操作。进一步地,所述靶标预测阶段的分子预处理单元将新的药物分子信息进行处理,靶标预测单元将新的药物分子的信息作为训练模型的输入,以此预测新的药物分子在每种靶标的概率得分。通过将新的分子信息作为训练模型的输入,进而预测该分子对应的靶标的概率得分分布,实现对分子对应的靶标的预测。进一步地,所述靶标预测阶段还包括靶标筛选单元,所述靶标筛选单元对训练模型预测出的分子对应的靶标概率得分进行排序,实现对分子靶标概率的筛选,从而确定出较准确的分子靶标并导出系统。通过靶标筛选单元实现对训练模型得出的分子靶标本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的靶标预测系统,其特征在于,该系统包括通过深度学习框架tensorflow进行算法的建模、通过使用RDkit、Numpy、Pandas进行数据处理的靶标预测模块,所述靶标预测模块包括靶标训练阶段和靶标预测阶段,所述靶标训练阶段通过对已知分子及其对应的靶标之间的关系的训练生成训练模型,靶标预测阶段通过将新的分子信息输入到训练模型中进行新的分子靶标概率的预测,通过对预测出的靶标概率的分析对比确定分子的靶标,其中,该系统通过原子之间的化学键作用进行拓扑相邻的卷积操作。/n

【技术特征摘要】
1.一种基于深度学习的靶标预测系统,其特征在于,该系统包括通过深度学习框架tensorflow进行算法的建模、通过使用RDkit、Numpy、Pandas进行数据处理的靶标预测模块,所述靶标预测模块包括靶标训练阶段和靶标预测阶段,所述靶标训练阶段通过对已知分子及其对应的靶标之间的关系的训练生成训练模型,靶标预测阶段通过将新的分子信息输入到训练模型中进行新的分子靶标概率的预测,通过对预测出的靶标概率的分析对比确定分子的靶标,其中,该系统通过原子之间的化学键作用进行拓扑相邻的卷积操作。


2.如权利要求1所述的一种基于深度学习的靶标预测系统,其特征在于,所述靶标训练阶段和靶标预测阶段均包括分子预处理单元,所述靶标训练阶段还包括靶标训练单元,所述靶标预测阶段还包括靶标预测单元;在靶标训练阶段,所述分子预处理单元执行后,执行靶标训练单元,生成训练模型;在靶标预测阶段,所述分子预处理单元执行后,执行靶标预测单元,预测出分子对应的靶标。


3.如权利要求2所述的一种基于深度学习的靶标预测系统,其特征在于,所述分子预处理单元包括获得已知分子及其对应的靶标的信息,其中所述靶标分子的信息包括靶标分子的指纹、描述符、smiles信息、3D图、分子所包含的原子的基本属性和原子之间的化学键信息。


4.如权利要求3所述的一种基于深度学习的靶标预测系统,其特征在于,所述靶标训练单元通过对已知分子及其对应的靶标信息进行训练,学习分子与其对应的靶标之间的关系,获得训练模型。


5.如权利要求4所述的一种基于深度学习的靶标预测系统,其特征在于,所述靶标训练单元还包括验证单元,所述验证单元对训练模型进行验证,获得较佳的训练模型。


6.如权利要求1所述的一种基于深度学习的靶标预测系统,其特征在于,所述靶标训练单元包括卷积神经网络系统,该卷积神经网络系统以分子...

【专利技术属性】
技术研发人员:邓代国艾海涛雷曾荣
申请(专利权)人:广州费米子科技有限责任公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1