一类人工智能辅助活性小分子构象和蛋白结合位点预测构建活性荧光探针方法技术

技术编号:34365581 阅读:93 留言:0更新日期:2022-07-31 08:40
本发明专利技术属于分子生物学、医学等领域,尤其涉及本发明专利技术涉及一类人工智能辅助活性小分子构象和蛋白结合位点预测方法方法及应用说明书。提供一种基于深度学习的方法,它能够预测配体与蛋白质靶标的结合构象,构建针对蛋白质的荧光探针并利用该方法模拟了小分子配体对蛋白的结合构建荧光探针进行荧光成像。蛋白的结合构建荧光探针进行荧光成像。

Artificial intelligence assisted prediction of conformation and protein binding sites of small active molecules and construction of active fluorescent probes

【技术实现步骤摘要】
一类人工智能辅助活性小分子构象和蛋白结合位点预测构建活性荧光探针方法


[0001]本专利技术属于分子生物学、医学等领域,尤其涉及本专利技术涉及一类人工智能辅助活性小分子构象和蛋白结合位点预测方法方法及应用说明书。

技术介绍

[0002]在过去的几年里,大量数据的可用性不断增加,导致了机器学习(MachineLearning)中一个子领域的发展,即深度学习(Deep Learning)领域。深度学习(Deep Learning)的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。基于深度学习的生物医学图像分析在人工智能与医疗保健的交叉领域发挥着重要作用。由于生物医学固有的复杂性,生物医学图像分析中的数据模式、数据集规模和任务可能高度多样化。通过调整传感器和成像协议,为特定目的设计了许多生物医学成像模式。近年来,人们越来越有兴趣将注意力整合到用于生物医学图像分割的深度学习架构中。DL在许多科学领域(计算机视觉)已经超越了更传统的ML方法)、自然语言处理等)并且最近已应用于各种结构生物信息学任务,例如虚拟筛选、结合亲和力预测或蛋白质结构预测。近年来,基于深度学习(DL)的人工智能 (AI)在全球引起了极大的兴趣。
[0003]神经网络(Neural Networks)是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。神经网络构成生命的多样性是生物学的核心原则,而保护生物多样性是实现更可持续生活的关键。监测生物多样性需要在可能的最低分类水平上识别活生物体。传统的识别方法使用已发布的形态二分键来识别收集的样本。这种识别涉及一个繁琐的过程,即手动评估一长串按层次排列的形态特征是否存在。分析通常由训练有素的人类分类学家在实验室环境中进行,难以大规模进行。
[0004]人工智能和机器学习技术在药物发现和开发中起着至关重要的作用。机器学习和深度学习算法已经在几个药物发现过程中得到应用,如肽合成、基于结构的虚拟筛选、基于配体的虚拟筛选、毒性预测、药物监测和释放、药物团建模、定量构效关系、药物重新定位、多药理学和理化交流过去的证据加强了人工智能和深度学习在该领域的实施。基于结构的药物发现主要依赖于小分子化合物在蛋白质结构上的潜在结合位点。了解配体与其分子靶标之间形成的相互作用是指导分子优化的关键。不同的实验和计算方法是更好地理解这些分子间相互作用的关键。基于几何深度学习的方法便能够预测配体与蛋白质靶标的结合构象。具体来说,该模型是为每个配体

目标对量身定制的。这种潜力可以与全局优化算法相结合,以重现配体的实验结合构象。该方法实现了如何使用人工智能来改进基于结构的药物设计。使用深度学习来学习这些潜力具有一些优势,例如考虑分子的较大部分或推断未包含在训练集中的原子组合的潜力。在最近用于蛋白质结构预测的深度学习潜力中也观察到了类似的优势。本专利技术中,我们表明基于距离似然的建议潜力在对接和筛选任务中的表现与完善的评分函数相似或更好。此外,它还可以与全局优化算法相结合,以重现配体的实
验结合构象。
[0005]计算结合位点预测(BSP)允许预测需要大量努力通过实验建立的计算机特性,并且可以显着增强药物发现过程。多年来,已经为基于结构的BSP任务提出了大量方法,它们可以大致分为三类:基于几何的、基于能量的和基于能量的。基于模板的方法。基于几何的方法仅基于几何预测结合腔分子表面;而基于能量的方法计算蛋白质原子和化学探针之间的相互作用能;另一方面,基于模板的方法旨在提取结合通过在蛋白质和一组预先存在的模板之间执行全局或局部结构比对来定位蛋白质上的位点。此外,已经提出了共识算法,将许多独立方法的结果结合起来。机器学习技术利用可用的标记数据量,并通过自动和迭代的学习过程,设法分析和提取最终与数据及其分配的标签。这种方法最近也被引入到基于结构的BSP任务中。
[0006]近年来,实验结构数据的爆炸式增长也使得机器学习和人工智能在研究配体

靶标相互作用方面的应用成为可能。例如,机器学习已成功应用于识别配体可以直接结合的蛋白质区域。此外,还开发了多种方法来从配体

靶标复合物的三维结构预测结合亲和力。其中许多方法利用工程描述子捕捉主要配体

目标相互作用,这些描述子可以输入预测算法,而其他方法直接使用卷积神经网络 (CNN)或图卷积神经网络(GNN用于预测任务。
[0007]尽管需要更高效的基于结构的设计方法,但很少有努力通过使用人工智能或机器学习来加速或改进结合配体的结构预测。目前应用于基于结构的药物发现的大多数人工智能方法依赖于先前通过实验或计算方法获得的配体

靶标复合物的3D结构。现有的BSP预测方法基于各种算法方法。传统上,方法根据其主要算法策略分为几何、能量、基于守恒、基于模板(后两种有时也称为进化)和基于机器学习/知识的方法。
[0008]在此,本专利技术专利技术了一种基于几何深度学习的方法,能够预测配体与蛋白质靶标的结合构象,以此来设计针对蛋白质的荧光探针进行成像。

技术实现思路

[0009]专利技术目的:
[0010]1.提供一种基于深度学习的方法,它能够预测配体与蛋白质靶标的结合构象。
[0011]2.提供一种基于深度学习的方法,构建针对蛋白质的荧光探针。
[0012]3.利用该方法模拟了小分子配体对蛋白的结合构建荧光探针进行荧光成像。
[0013]技术方案:一种基于几何深度学习的方法,它能够预测配体与蛋白质靶标的结合构象和位点以构建活性荧光探针。
[0014]其主要流程见图9。
[0015]首先我们对蛋白质的结构极性描述符提取,使用了一种用于预测蛋白质配体结合位点的纯机器学习方法DeepSite。
[0016]DeepSite:计算机视觉的角度处理蛋白质结构,就好像它们是3D图像一样。该3D图像的坐标被定义为跨越蛋白质的边界框加上的缓冲区,以解释靠近其边缘的口袋。然后将3D图像离散化为3大小的体素网格。对于每个所述体素,定义了基于原子的药效学特性的概要。体素占有率是根据蛋白质中的原子定义的,具体取决于它们的排除体积和其他七个原子特性:疏水性、芳香性、氢键受体或供体、正离子或负离子可电离和金属。这些被称为渠道,与计算机视觉进行比较,其中图像可以用三种不同的颜色阵列表
示:红色、绿色和蓝色。表1中的AutoDock 4原子类型与表2的规则一起使用,以将每个原子分配给特定通道。然后对这些阵列中16
×
16
×
16体素的子网格进行采样,定义具有局部特性的较小蛋白质区域。我们利用数据库中所有蛋白质的事实,我们知道其相应结合位点的位置,将每个子网格标记为正,如果其几何中心距口袋几何中心的距离小于否则为负。然后利用DCNN计算结合位点。
[0017]Table 1:AutoDock4中的原子类型(*为默认在gpf中存在的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于几何深度学习的方法,其特征是其主要流程如下:步骤1、对蛋白质的结构极性描述符提取,使用了一种用于预测蛋白质配体结合位点的纯机器学习方法DeepSite。步骤2、对蛋白质活性口袋进行预测,得到结果。并依照该结果进行探针设计。2.权利要求1所述的用于预测蛋白质配体结合位点的纯机器学习方法DeepSite,其特征是它由以下步骤组成:计算机视觉的角度处理蛋白质结构,就好像它们是3D图像一样。该3D图像的坐标被定义为跨越蛋白质的边界框加上的缓冲区,以解释靠近其边缘的口袋。然后将3D图像离散化为大小的体素网格。对于每个所述体素,定义了基于原子的药效学特性的概要。体素占有率是根据蛋白质中的原子定义的,具体取决于它们的排除体积和其他七个原子特性:疏水性、芳香性、氢键受体或供体、正离子或负离子可电离和金属。这些被称为渠道,与计算机视觉进行比较,其中图像可以用三种不同的颜色阵列表示:红色、绿色和蓝色。表1中的AutoDock 4原子类型与表2的规则一起使用,以将每个原子分配给特定通道。然后对这些阵列中16
×
16
×
16体素的子网格进行采样,定义具有局部特性的较小蛋白质区域。我们利用数据库中所有蛋白质的事实,我们知道其相应结合位点的位置,将每个子网格标记为正,如果其几何中心距口袋几何中心的距离小于否则为负。然后利用DCNN计算结合位点。3.权利要求1所述针对活性位点的探针设计,其特征是它由以下步骤组成:探针ADOP的合成路线如下:
化合物1:将2,5

二...

【专利技术属性】
技术研发人员:王忠长王学傲刘雅妮雷德维
申请(专利权)人:南京大学人工智能生物医药技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1