一种基于深度学习的蛋白质药物结合位点预测方法技术

技术编号:24965291 阅读:22 留言:0更新日期:2020-07-21 15:09
本发明专利技术提出了一种基于深度学习的蛋白质药物结合位点预测方法,包括如下步骤:步骤1、选取蛋白数据库中的若干蛋白质形成训练集,若干蛋白质形成验证集,若干蛋白质形成测试集,其中训练集用于训练模型的训练;步骤2、训练后的训练模型对蛋白质数据库进行特征提取和标签提取,获取数据,完成神经网络的训练,得到预测模型;步骤3、将新的蛋白质输入预测模型中,进行结合位点位置的定位和预测,借此,本发明专利技术具有综合考虑结合位点形成因素,基于深度学习进行结合位点的定位和预测的优点。

A protein drug binding site prediction method based on deep learning

【技术实现步骤摘要】
一种基于深度学习的蛋白质药物结合位点预测方法
本专利技术属于结合位点预测方法领域,特别涉及一种基于深度学习的蛋白质药物结合位点预测方法。
技术介绍
目前,随着新型疾病的出现以及病毒、细菌等病原体耐药性的提高,药物的研发面临着巨大的压力。药物的研发需要经历先导化合物的发现、临床试验、上市以及追踪等多个过程,需要耗费大量的人力、物力、财力以及时间。计算机辅助药物设计的出现一定程度上解决了部分问题,计算机辅助药物设计通过使用计算机模拟药物的代谢、筛选等过程,为药物研发提供帮助。在计算机辅助药物设计中,虚拟筛选是关键的步骤,其通过筛选能与靶点蛋白相结合的小分子化合物,为先导化合物的发现奠定基础。而结合位点的预测,是通过发现和预测靶点蛋白上与小分子结合的口袋,在虚拟筛选中具有重要的指导作用。结合位点(BindingSites),也称为口袋(Pockets),是蛋白质表面的空腔,是能与小分子化合物结合的作用位点。结合位点的定位,能为分子对接时的结合构象提供重要的指导作用,减少对接构象空间搜索区间,从而减少对接和虚拟筛选的时间。结合位点的筛选,主要通过影响结合位点形成的几个关键因素来预测。蛋白质的几何结构是形成结合位点的一个重要因素,其表面的空腔往往是结合位点形成的绝佳区域。通过查找蛋白质的空腔或者是凹陷部位来寻找蛋白质的结合位点称为基于几何结构的方法(geometry-basedmethod)。LIGSITECSC和LIGSITE通过将蛋白质离散为的网格,继而寻找那些符合特殊几何结构(protein-solvent-protein和surfacesolvent-surface)的网格点。而surfnet则是通过在蛋白质和小分子的原子对之间填充圆圈来发现所谓的表面缺口,也就是空腔。fpocket算法同样利用圆球,不同的是,其利用维诺划分算法过滤出在阈值范围内的球体,即那些蛋白质表面的空腔。bSiteFinder方法通过寻找与目标蛋白质三维结构相似并且已知结合位点的蛋白质作为模板,并对这些蛋白质的结合位点信息进行聚类等分析,以此得到目标蛋白质的结合位点。非键相互作用(Non-bondedInteractions)也是影响结合位点形成的重要因素,比如范德华力、氢键等,这类方法也成为基于能量的方法。基于能量的方法大多采用基团探针来不断计算各个位置与蛋白质的能量值,进而通过找出那些潜在的能量特异点来探索结合位点。Q-SiteFinder方法用-CH3探针来计算蛋白质网格的非键相互作用,并采用聚类算法对最终的能量分布进行聚类,预测出潜在的口袋。蛋白质的残基序列中包含了丰富的遗传信息,而残基序列也是决定蛋白质功能的关键因素。通过挖掘蛋白质残基序列中所蕴含的信息来寻找结合位点称为基于序列的方法。该类方法只对蛋白质的残基序列进行分析,寻找具有结合活性的残基,其往往需要借助序列分析中的方法或者工具来协助分析。OSML方法便是对蛋白质序列提取PSSM(positionspecificscoringmatrix)并构建SVM模型,其创新之处在于其构建模型的数据是根据输入的不同动态改变,也就是其所谓的Query-DrivenDynamic。随着机器学习尤其是深度学习在图形领域的广泛应用,其在药物设计领域也成为了研究的热点。比如DeepSite,该方法根据原子类型构建蛋白质三维结构的8通道特征作为输入,进行卷积神经网络的训练,最终预测口袋的位置。但是,基于几何结构的方法通过寻找蛋白质表面的空腔来寻找结合位点,也就是该方法只考虑蛋白质的几何结构。但在分子对接过程中,不少对接属于柔性对接,也就是在对接过程中,蛋白质与小分子接触时才产生口袋。因此,对于基于几何结构的方法来说,很难寻找适应于柔性对接的口袋,因而存在着局限性。基于能量的方法则通过不断放置探针位置,来寻找其与蛋白质的能量值。该方法有效克服了基于几何结构中的弊端,能探索到适应于柔性对接的口袋。但其也忽视了蛋白质的立体结构,同样存在着局限性。基于序列的方法对蛋白质的残基序列进行分析。蛋白质的序列蕴含了丰富的遗传信息,而序列同样也一定程度上决定了蛋白质的功能。但其忽视了蛋白质的几何结构和非键相互作用等影响蛋白质结合位点的重要因素。
技术实现思路
本专利技术提出一种基于深度学习的蛋白质药物结合位点预测方法,能够综合考虑结合位点形成因素,基于深度学习进行结合位点的定位和预测。本专利技术的技术方案是这样实现的:一种基于深度学习的蛋白质药物结合位点预测方法,包括如下步骤:步骤1、选取蛋白数据库中的若干蛋白质形成训练集,若干蛋白质形成验证集,若干蛋白质形成测试集,其中训练集用于训练模型的训练;步骤2、训练后的训练模型对蛋白质数据库进行特征提取和标签提取,获取数据,完成神经网络的训练,得到预测模型;步骤3、将新的蛋白质输入预测模型中,进行结合位点位置的定位和预测。作为一种优选的实施方式,步骤1中蛋白数据库包括sc-PDB和PDBBind,其中sc-PDB中的蛋白质按照3:1:1的比例随机抽取蛋白质分别形成训练集、验证集和测试集,PDBBind中的所有蛋白质作为测试集。作为一种优选的实施方式,步骤2中特征提取采用网格的多通道特征提取,对每个蛋白质进行计算,得到每个蛋白质的多通道网格。作为一种优选的实施方式,网格的多通道特征提取的步骤如下:步骤1、构建蛋白质的包围盒,并将蛋白质离散成的网格;步骤2、设置原子网格通道;步骤3、设置氨基酸网格通道;步骤4、设置疏水性网格通道;步骤5、设置能量通道网格;步骤6、通过对每个蛋白质进行上述5个对蛋白质包围盒网格的处理步骤之后,得到每个蛋白质的4通道蛋白质网格值。作为一种优选的实施方式,标签提取的步骤如下:步骤1、将蛋白质的4通道网格按照步长5埃米进行取样,得到取样块;步骤2、设定每个取样块的标签,若取样块的中心点位于结合位点中心半径3埃米以内的范围内,则该取样块的标签设置为正样本,否则设置为负样本。作为一种优选的实施方式,对单个蛋白质的负样本取样块按照其正样本取样块数量的2倍进行随机取样,最终使得每个蛋白质产生的取样块的正负样本比例为1:2。作为一种优选的实施方式,将新的蛋白质输入预测模型后,首先进行对新的蛋白质进行取样,得到新的取样块,并对每个新的取样块进行结合位点概率预测,其次对新的取样块进行阈值筛选和聚类分析。作为一种优选的实施方式,聚类分析包括对新的取样块进行聚类,在得到多个聚类类别之后,也就是多个结合位点之后,计算单个类别当中所有新的取样块的平均几何中心,将其视作该结合位点的最终中心。作为一种优选的实施方式,阈值的设定值为0.5,聚类分析采用DBSCAN聚类算法。采用了上述技术方案后,本专利技术的有益效果是:1、能准确地预测结合位点的位置,由于采用了聚类分析,模型最终能预测和定位多个结合位点。2、其综合考虑影响结合位点形成的因素,包括蛋白质的几何形状、氨基酸本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的蛋白质药物结合位点预测方法,其特征在于,包括如下步骤:/n步骤1、选取蛋白数据库中的若干蛋白质形成训练集,若干蛋白质形成验证集,若干蛋白质形成测试集,其中训练集用于训练模型的训练;/n步骤2、训练后的训练模型对蛋白质数据库进行特征提取和标签提取,获取数据,完成神经网络的训练,得到预测模型;/n步骤3、将新的蛋白质输入预测模型中,进行结合位点位置的定位和预测。/n

【技术特征摘要】
1.一种基于深度学习的蛋白质药物结合位点预测方法,其特征在于,包括如下步骤:
步骤1、选取蛋白数据库中的若干蛋白质形成训练集,若干蛋白质形成验证集,若干蛋白质形成测试集,其中训练集用于训练模型的训练;
步骤2、训练后的训练模型对蛋白质数据库进行特征提取和标签提取,获取数据,完成神经网络的训练,得到预测模型;
步骤3、将新的蛋白质输入预测模型中,进行结合位点位置的定位和预测。


2.根据权利要求1所述的一种基于深度学习的蛋白质药物结合位点预测方法,其特征在于,所述步骤1中蛋白数据库包括sc-PDB和PDBBind,其中sc-PDB中的蛋白质按照3:1:1的比例随机抽取蛋白质分别形成训练集、验证集和测试集,PDBBind中的所有蛋白质作为测试集。


3.根据权利要求1所述的一种基于深度学习的蛋白质药物结合位点预测方法,其特征在于,所述步骤2中特征提取采用网格的多通道特征提取,对每个蛋白质进行计算,得到每个蛋白质的多通道网格。


4.根据权利要求3所述的一种基于深度学习的蛋白质药物结合位点预测方法,其特征在于,所述网格的多通道特征提取的步骤如下:
步骤1、构建蛋白质的包围盒,并将蛋白质离散成的网格;
步骤2、设置原子网格通道;
步骤3、设置氨基酸网格通道;
步骤4、设置疏水性网格通道;
步骤5、设置能量通道网格;
步骤6、通过对每个蛋白质进行上述5个对蛋白质包围盒网格的处理步骤之后,...

【专利技术属性】
技术研发人员:魏志强李臻江明建张树刚孟美
申请(专利权)人:中国海洋大学青岛海洋科学与技术国家实验室发展中心
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1