基于结构的肽配基与靶蛋白平衡解离常数评估模型制造技术

技术编号:35578620 阅读:10 留言:0更新日期:2022-11-12 16:04
本发明专利技术提供一种基于结构的针对肽配基分子与靶蛋白的平衡解离常数评估模型,包括:肽配基平衡解离常数数据的获取;肽配基与其受体蛋白相互作用关系特征数据获取;用于算法系统构建的数据集:靶向IgG系列多肽特征库和靶向αβ42系列多肽特征库的构建,独立验证数据集的构建;使用靶向IgG系列多肽特征库构建机器学习算法分类器系统,优化相关参数并用靶向αβ42系列多肽特征库进行测试并评估系统性能;使用构建的相关独立数据集对系统实际预测性能进行评估。本发明专利技术利用虚拟筛选的方法对肽配基与靶标蛋白相互作用区域进行研究,将进一步提高药物筛选效率并降低相应成本。提高药物筛选效率并降低相应成本。提高药物筛选效率并降低相应成本。

【技术实现步骤摘要】
基于结构的肽配基与靶蛋白平衡解离常数评估模型


[0001]本专利技术涉及基础兽医学领域的肽配基筛选、抗畜禽病毒多肽、动物免疫学方向,具体涉及一种基于结构针对肽配基分子与靶蛋白的平衡解离常数评估模型。

技术介绍

[0002]病原体通常通过自身蛋白与寄主蛋白的互相作用实现入侵寄主第一步,通过对病毒互作蛋白相关区域肽段的深入研究能够深入了解病毒致病机理。这些互作区域通常是5到20个氨基酸残基(amino acid,aa)左右的肽段,在相关蛋白识别、调节、信号传导等过程中发挥作用。干扰病毒相关互作区域与寄主蛋白的相互作用能够起到减轻病毒载量、减缓病症的治疗效果,因此研究这些互作区域氨基酸肽段也成为抗病毒肽配基药物筛选、设计与研发的重要策略。免疫学上,主要利用生物展示技术来实现亲和肽配基的筛选,该方法成本高且耗时。因此,利用虚拟筛选的方法对病毒肽段与靶标蛋白相互作用区域进行研究,将进一步提高药物筛选的效率并降低相应的成本。目前针对靶蛋白特定功能区域进行多肽药物虚拟筛选的方法却未见系统报道。

技术实现思路

[0003]针对现有技术的不足,本专利技术的目的是提供一种基于结构针对肽配基分子与靶蛋白的平衡解离常数评估模型。利用实际实验数据和肽配基与靶标蛋白分子对接数据,构建一种基于机器学习算法的多肽筛选系统,为肽配基的靶向虚拟筛选提供新的方法,并为其他相关药物筛选系统的建立提供参考。
[0004]为了实现上述目的,本专利技术所采用的技术方案是:
[0005]基于结构针对肽配基分子与靶蛋白的平衡解离常数评估模型,包括以下步骤:
[0006]通过实验收集互作区域氨基酸肽配基与靶标蛋白反应性数据,同时解析该氨基酸肽段结构相关数据信息,根据氨基酸肽段与其受体实际平衡解离常数对整体数据进行分类,分为Active(A)和Unactive(UA)两类,结合分类信息和特征信息构建含有1940个样本和13个特征数据的1940
×
13数据矩阵。
[0007]对收集并分类的数据进行随机子数据集的构建,包括靶向IgG系列多肽特征库和靶向αβ42系列多肽特征库数据,利用靶向IgG系列多肽特征库对机器学习算法进行学习,利用靶向αβ42系列多肽特征库数据对系统预测性能进行初步评估,并根据机器学习算法提供的平均基尼系数降低量(MeanDecreaseGini)对重要特征进行选择。根据筛选后的重要特征,对机器学习算法进一步学习,并对相关参数进行调整,对系统进行相应优化。
[0008]构建针对PEDV S蛋白的包含重要特征数据的相关独立数据集,利用优化好的机器学习分类器进一步对收集的独立数据进行预测,将预测结果与实际肽段平衡解离常数分类进行比对,以评估该分类器在实际应用中的性能。
[0009]本方案中,所描述的用于系统构建的数据是利用rDock程序获得,包括氨基酸肽段分类数据和其相应的结构特征数据信息,包括INTER、INTER.POLAR、INTER.REPUL、
INTER.ROT、INTER.VDW、INTER.NORM、INTRA、INTRA.DIHEDRAL、INTRA.DIHEDRAL0、INTRA.POLAR、INTRA.POLAR0、INTRA.REPUL、INTRA.REPUL0、INTRA.VDW、INTRA.VDW0、INTRA.NORM、RESTRSR、RESTR.NORM、SYSTEM、SYSTEM.DIHEDRAL、SYSTEM.NORM、HEAVY、NORM等23个特征1940个样本组成的矩阵。移除多数样本得分为零的特征,包括INTER.POLAR、INTER.REPUL、INTRA.POLAR0、INTRA.REPUL、INTRA.REPUL0、RESTRSR、RESTR.NORM、SYSTEM、SYSTEM.DIHEDRAL、SYSTEM.NORM,整个数据集剩余13个特征。
[0010]本方案中,肽配基与受体平衡解离常数数据是利用SPR得到,根据实际ELISA实验反应结果设置KD=1
×
10
‑5为阈值,将所有样本分为A(KD≤1
×
10
‑5)和UA(KD>1
×
10
‑5)两组。
[0011]本方案中根据数据集中所有样本分别构建训练数据集和测试数据集,将靶向IgG系列多肽特征库导入机器学习算法进行学习训练,获取系统重要特征信息,并得到相应的训练参数,具体为:
[0012]利用构建的训练数据集并使用机器学习算法默认参数进行训练,根据平均节点不纯度降低值排名和显著性选择具有代表性的重要特征。根据得到的重要特征对构成机器学习中节点上使用的特征数量进行优化,并再次构建优化后的机器学习分类器系统。
[0013]本方案中,对系统进行性能评估,通过计算系统的敏感度(sensitivity)、特异性(specificity)、准确率(accuracy),Kappa值和马修相关系数(Matthews

s correlation coefficient,MCC)对系统进行评估,具体计算公式如下:
[0014][0015][0016][0017][0018]此外,receiver operating characteristic(ROC)用于评估Sensitivity和Specificity之间的关系,并且其线下面积Aera under the curve(AUC)也被计算用于评估系统性能。
[0019]本方案中,独立数据是根据病原体结构蛋白重新设计的一批多肽,经过ELISA、SPR实验验证按照以上分类标准进行分类,结合其相应的平衡解离常数数据信息,组合成新的独立数据集。该数据集用于对优化的机器学习分类器系统的预测准确性进一步验证,以评估该系统在实际应用中的性能。
[0020]本专利技术以IgG、αβ42、PEDV S等不同大小的蛋白质为研究对象,分别设计构建两个肽配基分子库,进行肽配基与靶蛋白的分子对接运算,借助表面等离子共振(Surface Plasmon Resonance,SPR)技术测定了其相互作用的平衡解离常数常数,酶联免疫吸附试验(ELISA)进行肽配基平衡解离常数的快速筛选验证,利用机器学习算法构建相关预测系统,并通过独立数据进行相关验证。本专利技术构建了通过肽配基

靶蛋白互作关键信息,进行实际
平衡解离常数常数的预测;为多肽虚拟筛选提供了快捷方法,为高平衡解离常数多肽的获取提供新的可靠途径。
[0021]本专利技术的有益效果:
[0022]针对肽配基与靶蛋白相互作用平衡解离常数预测方法的欠缺,本专利技术通过解析蛋白与其肽配基互相作用区域的氨基酸肽段信息,合成相应病毒蛋白肽段,收集肽段平衡解离常数数据和其结构特征得分数据构建数据集,构建了靶向蛋白特定区域与肽配基平衡解离常数评估模型。
[0023]本专利技术预测方法的建立可根据与配体结合的氨基酸肽段的结构信息特征,对未知病毒蛋白上与其配体的结合的肽段区域进行有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于结构的肽配基与靶蛋白平衡解离常数评估模型,其特征在于,该评估模型的构建包括以下步骤:(1)肽配基与其受体蛋白相互作用关系特征数据获取:以特定蛋白质为研究对象,设计系列肽配基分子,进行肽配基与靶蛋白的分子对接运算,获取肽配基与蛋白结合的特征信息;(2)肽配基平衡解离常数数据的获取:借助ELISA和SPR技术测定肽配基与靶蛋白相互作用的平衡解离常数;(3)算法系统数据集和独立验证数据集的构建;所述算法系统数据集包括靶向IgG系列多肽特征库和靶向αβ42系列多肽特征库;(4)使用靶向IgG系列多肽特征库构建机器学习算法分类器系统,筛选重要特征数据,优化相关参数用靶向αβ42系列多肽特征库进行测试,并评估系统性能;(5)使用构建的独立验证数据集对系统实际预测性能进行评估。2.如权利要求1所述的评估模型,其特征在于,所述步骤(3)的具体方法为:根据肽配基平衡解离常数实验可验证性和平衡解离常数的特征数据信息,构建数据集,以此构建靶向IgG系列多肽特征库和靶向αβ42系列多肽特征库,将所述数据集导入机器学习算法构建系统。3.如权利要求1所述的评估模型,其特征在于,所述步骤(4)的具体方法为:选择靶向IgG系列多肽特征库中的四个对应的重要特征,按照重要性大小分别选择4、3、2个...

【专利技术属性】
技术研发人员:王方雨冯华张改平孙雪峰邢广旭焦文强
申请(专利权)人:河南省农业科学院动物免疫学重点实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1