当前位置: 首页 > 专利查询>四川大学专利>正文

基于深度学习和计算模拟的蛋白质变构调节剂的识别方法技术

技术编号:37219966 阅读:7 留言:0更新日期:2023-04-20 23:06
本发明专利技术公开了基于深度学习和计算模拟的蛋白质变构调节剂的识别方法,获取结合内源性激动剂的蛋白质复合物的MD模拟轨迹;将MD模拟轨迹进行初步分类生成聚类标签;将MD模拟轨迹和聚类标签输入MDCNN中寻找到每个构象态的关键残基,挑选有价值的构象态输入FTSite进行变构位点预测,找到潜在的变构位点;针对预测得到的潜在的变构位点使用基于结构的虚拟筛选得到结合最稳定的潜在药物分子;借助动态网络分析揭示潜在药物分子的变构调控机制,确认潜在药物分子的性质。借助分子动力学模拟、深度学习、虚拟筛选和动态网络分析,以识别蛋白质潜在的变构位点、筛选出潜在的变构调节剂和研究其变构调节机制。究其变构调节机制。究其变构调节机制。

【技术实现步骤摘要】
基于深度学习和计算模拟的蛋白质变构调节剂的识别方法


[0001]本专利技术涉及G蛋白偶联受体变构调节剂的识别
,具体的说,是一种基于深度学习和计算模拟的蛋白质变构调节剂的识别方法。

技术介绍

[0002]变构机制提供了一种调节受体功能的新范例,因此变构调节剂的合理设计越来越受到关注。蛋白质的正构位点是内源性激活配体结合的位点。正构位点的强进化保守性导致正构配体的交叉反应性问题,这可能导致不良的治疗副作用。而变构调节剂结合到一个与正构位点在拓扑上不同的位点,因此不与正构配体竞争。变构位点的进化保守性低于正构位点,变构调节剂可能在亚型选择性和特异性方面表现出更优的特性,与正构配体相比可能会减少副作用。蛋白质的变构调节是相当精细的。例如,正变构调节剂可以通过四种不同的方式增强下游信号传导:(1)促进正构激动剂结合亲和力但不直接影响信号传导,(2)直接增强信号传导而不影响正构激动剂结合,(3)增加正构配体结合亲和力并同时增加自身的信号传导,以及(4)降低正构配体结合亲和力但自身增加信号传导。负变构调节剂可以使用类似的组合来减少下游信号。变构调节剂稳定了蛋白质集合的独特构象,为受体提供了新的药理学。因此,越来越多的变构调节剂被发现作为潜在的药物。
[0003]然而,由于发现过程非常具有挑战性,只有少数变构调节剂被批准作为药物或用于临床试验。这是因为从药理学实验中检测调节剂的变构行为是一个具有挑战性的过程,而且使用突变实验确定变构调节剂的结合位点经常观察到假阳性。自2013年以来,解析复合物结构一直是识别GPCR中变构调节剂结合位点和姿势的最成功方法,然而其耗费巨大。近年来,结构生物学和计算技术的发展已经揭示了大量靶点的变构机制,这使得合理设计变构调节剂成为药物发现的新途径。
[0004]变构位点的识别是基于结构的变构调节剂虚拟筛选的前提,然而变构位点通常是神秘的,在被解析的蛋白质结晶中难以被发现。未结合配体的apo结构中通常不存在变构口袋,并且只有在配体存在时,变构位点松弛状态才在构象集合中占主导地位。分子模拟是成为生成构象集合和探索这些位点的有效方法。将位点预测与基于MD的GPCR构象集合结合起来可能检测到静态实验结构中不明显的位点,这对于发现新的变构位点很有吸引力。
[0005]尽管计算机辅助变构调节剂的设计已经有了一些应用,但是仍旧存在以下问题:
[0006]变构效应通常通过微秒(μs,10
‑6)或毫秒(ms,10
‑3)时间尺度内发生,经典的常规分子动力学模拟(cMD)一般只能捕捉纳秒(ns,10
‑9)时间尺度的构象变化,因此可能难以捕捉到隐秘的变构位点。
[0007]为了捕捉到隐秘的变构位点需要进行广泛的分子动力学模拟,这将产生大量的模拟数据。以人工方式分析这些数据是非常困难耗时且带有一定的先验知识偏差。筛选获取有价值的构象中间态是快速有效预测变构位点的先决条件。
[0008]虚拟筛选可以筛选出结合得最稳定的小分子,但是无法确定该小分子的属性及其变构调节机制。而变构调节剂的作用机制则是相关研究中最为关心的一个课题,并且由于
其复杂性难以在实验中被揭示。

技术实现思路

[0009]本专利技术的目的在于提供一种基于深度学习和计算模拟的蛋白质变构调节剂的识别方法,识别蛋白质潜在的变构位点、筛选出潜在的变构调节剂,进而研究其变构调节机制。
[0010]本专利技术通过下述技术方案解决上述问题:
[0011]一种基于深度学习和计算模拟的蛋白质变构调节剂的识别方法,包括:
[0012]步骤S100、使用高斯加速分子动力学模拟获取结合内源性激动剂的蛋白质复合物的MD模拟轨迹;高斯加速分子动力学模拟是一种增强采样方式,通过添加势能降低能垒的方式,可以在纳秒的模拟时间尺度内采样到毫秒级别的构象变化特征,因此可以捕捉到处于毫秒时间尺度上的变构位点;
[0013]步骤S200、使用无监督聚类分析将蛋白质复合物的MD模拟轨迹进行初步分类,并且生成聚类标签;
[0014]步骤S300、将MD模拟轨迹和聚类标签输入基于CNN的分类模型MDCNN中,从MD模拟轨迹中识别出不同的构象态,MDCNN中的模型解释器LIME在识别功能状态的同时寻找到每个构象态的关键结构和关键残基,借助LIME反馈的关键残基辅助挑选有价值的构象态,用于后续变构位点预测;
[0015]步骤S400、将挑选出的构象态输入位点预测工具FTSite进行变构位点预测,除去正构位点之外得分最高的位点被认为是潜在的变构位点;
[0016]步骤S500、针对预测得到的潜在的变构位点使用基于结构的虚拟筛选得到结合最稳定的潜在药物分子;
[0017]步骤S600、借助动态网络分析揭示潜在药物分子的变构调控机制,确认潜在药物分子的性质,动态网络分析能够识别对结构信息传递起重要作用的变构路径和重要残基,从而揭示潜在药物分子的变构调节机制。
[0018]所述步骤S100具体包括:
[0019]步骤S110、获取目标蛋白质的非激活态晶体结构;
[0020]步骤S120、删除晶体结构中除了目标蛋白以外的其他组分,重新构建晶体结构中缺失的结构区域,使得目标蛋白质的结构完整;
[0021]步骤S130、获取蛋白质内源性激动剂的结构,然后使用分子对接并选取得分最高的合理对接位姿构建蛋白质

内源性激动剂的复合物结构;
[0022]步骤S140、在目标蛋白质的生理环境下对蛋白质和配体进行质子化,构建一个与生理环境类似的模拟体系,一般包括蛋白质复合物、溶剂分子、离子、(脂质膜成分);
[0023]步骤S150、针对构建完成的模拟体系,经过系统最小化和加热之后,在NPT系综下进行无约束的cMD将模拟体系运行至一个相对平衡的状态。cMD平衡后的最后一个结构作为高斯加速分子动力学模拟的起始结构,开始运行高斯加速分子动力学模拟程序。
[0024]所述步骤S200具体包括:
[0025]步骤S210、从蛋白质复合物GaMD轨迹中,间隔提取蛋白质的构象从而形成可以代表整段轨迹的蛋白质构象集。根据研究体系计算用于区分构象态的构象特征;
[0026]步骤S220、将构象特征作为聚类指标,使用无监督的聚类分析算法对蛋白质构象进行聚类,选出最佳的聚类结果后续作为蛋白质构象集的标签在MDCNN模型中使用。
[0027]所述步骤S300具体包括:
[0028]步骤S310、数据处理:使用S210中得到的蛋白质构象集,使用蛋白质Cα原子叠加以消除整体旋转和平移。删除所有的氢原子,然后将其他原子的坐标被转成RGB坐标,从而得到数据集;
[0029]步骤S320、添加标签:将S220中得到的蛋白质构象集聚类结果作为数据集的标签数据读入,数据集与数据标签一一对应,以标明数据集中的构象属于哪一类;
[0030]步骤S330、数据集划分:对数据进行分组以消除模拟时序的影响,然后按照一定的比例随机划分为训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习和计算模拟的蛋白质变构调节剂的识别方法,其特征在于,包括:步骤S100、使用高斯加速分子动力学模拟获取结合内源性激动剂的蛋白质复合物的MD模拟轨迹;步骤S200、使用无监督聚类分析将蛋白质复合物的MD模拟轨迹进行初步分类,并且生成聚类标签;步骤S300、将MD模拟轨迹和聚类标签用于训练基于卷积神经网络CNN的分类模型MDCNN,CNN模型从MD模拟轨迹中识别出不同的构象态,MDCNN中的模型解释器LIME在识别功能状态的同时寻找到每个构象态的关键结构和关键残基,借助LIME反馈的关键残基辅助挑选有价值的构象态,用于后续变构位点预测;步骤S400、根据MDCNN中各构象态的关键残基,挑选出有价值的构象态输入位点预测工具FTSite进行变构位点预测,除去正构位点之外得分最高的位点被认为是潜在的变构位点;步骤S500、针对预测得到的潜在的变构位点使用基于结构的虚拟筛选方法得到结合最稳定的潜在变构调节剂,输出蛋白质复合物结构;步骤S600、借助动态网络分析揭示潜在药物分子的变构调控机制,确认潜在药物分子的性质。2.根据权利要求1所述的基于深度学习和计算模拟的蛋白质变构调节剂的识别方法,其特征在于,所述步骤S100具体包括:步骤S110、获取目标蛋白质的非激活态晶体结构;步骤S120、删除晶体结构中除了目标蛋白以外的其他组分,重新构建晶体结构中缺失的结构区域,使得目标蛋白质的结构完整;步骤S130、获取蛋白质内源性激动剂的结构,然后使用分子对接并选取得分最高的合理对接位姿构建蛋白质

内源性激动剂的复合物结构;步骤S140、在目标蛋白质的生理环境下对蛋白质和配体进行质子化,构建与生理环境类似的模拟体系;步骤S150、针对构建完成的模拟体系,经过系统最小化和加热之后,在NPT系综下进行无约束的动力学模拟cMD将模拟体系运行至一个相对平衡的状态,cMD平衡后的最后一个结构作为高斯加速分子动力学模拟的起始结构,开始运行高斯加速分子动力学模拟程序。3.根据权利要求2所述的基于深度学习和计算模拟的蛋白质变构调节剂的识别方法,其特征在于,所述步骤S200具体包括:步骤S210、从蛋白质复合物高斯加速MD轨迹中,间隔提取蛋白质的构象从而形成代表整段轨迹的蛋白质构象集,计算用于区分构象态的构象特征;步骤S220、将构象特征作为聚类指标,使用无监督的聚类分析算法对蛋白质构象进行聚类,选出最佳的聚类结果作为蛋白质构象集的标签。4.根据权利要求3所述的基于深度学习和计算模拟的蛋白质变构调节剂的识别方法,其特征在于,所述步骤S300具体包括:步骤S310、数据处理:使用S210中...

【专利技术属性】
技术研发人员:蒲雪梅陈建芳陈欣毛俊刘静
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1