【技术实现步骤摘要】
基于混合神经网络的蛋白质与配体结合残基与口袋识别方法
[0001]本专利技术涉及的是一种生物工程领域的技术,具体是一种基于混合神经网络的蛋白质与配体结合残基与口袋识别方法。
技术介绍
[0002]现有通过解析蛋白质复合物结构来分析蛋白质与配体的相互作用机制的方法包括基于模板比对的方法和无需模板的方法。前者通常通过蛋白质序列或者结构的比对算法,首先从大量的模板数据库中搜索与查询蛋白质具有一定相似性的蛋白质来作为模板,随后将模板蛋白质上的结合位点映射到查询蛋白上。而后者利用机器学习模型,根据现有的已知结合数据集,学习特定的结合模式,再应用于新蛋白质的预测中。对比来说,当可以匹配到高相似性模板时,基于模板的方法可以实现高置信度的预测,并且具有更强的可解释性,另一方面,无需模板的方法更有可能发现为新的蛋白质发现新的结合位点。此外,基于模板的方法需要对大模板库进行的依次对比,其需要的预测时间往往会更长。
技术实现思路
[0003]本专利技术针对现有技术无法对某一类配体分子预测任一蛋白质受体与该配体的结合残基或结合口袋的 ...
【技术保护点】
【技术特征摘要】
1.一种基于混合神经网络的蛋白质与配体结合残基与口袋识别方法,其特征在于,通过提取待查询蛋白质的多个特征,将蛋白质的每个残基表示成三种表示,通过两种基于深度学习模型的基方法预测得到残基与配体的结合概率,再通过
①
平均两种基方法的预测分数得到高置信度的预测结果和
②
合并两种基方法的预测残基作为中置信度的预测结果,最后基于结合残基的空间坐标,通过空间聚类算法,将残基聚类得到最终的预测结合口袋;所述的提取待查询蛋白质的多个特征是指:蛋白质的进化信息、二级结构信息、物理化学性质信息、残基的空间位置信息、基于序列模板比对的残基预测概率;所述的残基的三种表示是指:将蛋白质表示为
①
残基的图表示,
②
残基的序列特征表示,
③
残基的距离矩阵。2.根据权利要求1所述的基于混合神经网络的蛋白质与配体结合残基与口袋识别方法,其特征是,所述的蛋白质的进化信息通过以下方式得到:对于长度为L的查询蛋白质,使用PSI
‑
BLAST和HHblits对蛋白质序列进行同源序列搜索,分别得到L
×
20和L
×
30的两组进化信息;蛋白质的二级结构信息通过以下方式得到:使用DSSP从蛋白质结构中计算蛋白质的L
×
14的二级结构信息,使用SCRATCH
‑
1D从蛋白质序列中预测L
×
5的二级结构信息;蛋白质的物理化学性质信息,对每个残基,使用SCRATCH
‑
1D预测残基的相对溶剂可及表面积,并计算7种残基的原子特征,包括原子平均质量、平均B
‑
factor、侧链原子数目、带电性、氢原子数量、环上原子数量、平均原子范德华力;残基的空间位置信息定义为残基的原子中心位置;基于序列模板比对的残基预测概率是将蛋白质序列输入基于序列模板的方法S
‑
SITE模型,得到L
×
2的预测结合概率。3.根据权利要求1所述的基于混合神经网络的蛋白质与配体结合残基与口袋识别方法,其特征是,所述的残基的图表示,通过以下方式得到:首先对于待查询的蛋白质,将蛋白质的进化信息、DSSP计算的二级结构信息、残基的原子特征进行拼接得到L
×
71的特征矩阵,随后对于每个目标残基,定义与目标残基距离小于15埃的残基为目标残基的邻居,并根据空间距离与夹角将残基的结构上下文建模为图,具体为:将这些邻居残基定义为节点,残基的特征定义为节点特征,残基对之间的距离若小于10埃则定义为边,将残基之间的距离和夹角余弦定义为边特征;所述的残基的序列特征表示,通过以下方式得到:首先对于待查询的蛋白质,将两组蛋白质的进化信息、SCRATCH
‑
1D预测的蛋白质二级结构、相对溶剂可及表面积、基于序列模板比对的残基预测概率拼接得到L
×
58的蛋白质特征,使用37个残基大小的滑动窗口,以每个残基为中心,将L
×
57的特征矩阵划分为L个37
×
57的特征矩阵,作为残基的序列特征表示;所述的残基的距离矩阵,通过以下方式得到:根据蛋白质残基的三维坐标信息,计算蛋白质的大小为L
×
L的距离矩阵,并使用双线性插值将其归一化为L
×
400,随后使用37个残基大小的滑动窗口,对每个残基提取其37
×
400的距离矩阵表示。4.根据权利要求1所述的基于混合神经网络的蛋白质与配体结合残基与口袋识别方法,其特征是,所述的两种基于深度学习模型的基方法是指:基...
【专利技术属性】
技术研发人员:夏莹,夏春秋,潘小勇,沈红斌,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。