当前位置: 首页 > 专利查询>扬州大学专利>正文

基于融合生物与拓扑特征的关键蛋白质识别方法技术

技术编号:19320911 阅读:25 留言:0更新日期:2018-11-03 11:08
本发明专利技术属于生物信息技术领域,具体涉及一种基于融合生物与拓扑特征的关键蛋白质识别方法:对每一个蛋白质顶点赋予表示其重要程度的得分,所有顶点的得分构成一个n列的向量,给出得分的初始值,根据生物信息和拓扑特性的值,构成蛋白质顶点的属性值,并构成属性矩阵。最终按分值由大到小排列,输出分值对应的k个蛋白质即为最后结果。将蛋白质相互作用网络的拓扑特性与蛋白质生物属性相结合有助于提高识别关键蛋白质的准确性,提高了关键蛋白质识别的效率。

Key protein recognition method based on fusion of biological and topological features

The invention belongs to the field of biotechnology, and specifically relates to a key protein recognition method based on fusion of biological and topological features: each protein vertex is given a score indicating its importance degree, the score of all vertices constitutes a vector of n columns, the initial value of the score is given, and the score is based on biological information and topological characteristics. The value of sex constitutes the attribute value of protein vertex and constitutes the attribute matrix. Finally, according to the arrangement of the values from large to small, the K protein corresponding to the output value is the final result. Combining the topological characteristics of protein interaction network with the biological properties of protein can improve the accuracy of key protein recognition and improve the efficiency of key protein recognition.

【技术实现步骤摘要】
基于融合生物与拓扑特征的关键蛋白质识别方法
本专利技术属于生物信息
,主要是在蛋白质相互作用网络中通过融合生物与拓扑特征识别关键蛋白质的技术,特别涉及PPI网络中网络拓扑信息和蛋白质生物属性识别关键蛋白质的方法。
技术介绍
在生物细胞中,关键蛋白质是实现细胞功能不可缺少的,对生物体生存、药物标靶设计、疾病治疗及预测等方面有着重要的应用价值。因此,关于关键蛋白质的识别成为蛋白质组学领域的一项重要研究工作之一。虽然目前对于蛋白质相互作用网络中的关键蛋白质的识别取得了一些成果,但由于生命系统的高度复杂性和随机性,其他领域中卓有成效的方法往往在PPI网络分析中不一定取得理想的效果,导致识别出来的蛋白质准确率较低。在本专利技术作出之前,在已有的方法中,关键蛋白质识别方法都是根据PPI中的某一顶点的某种重要性指标,如顶点的各种中心度等来排序,取其中较大的k个作为关键蛋白质。然而,这类重要性指标往往很多,如度的中心性(DC)、介度中心性(BC)、聚类中心性(CC)、特征向量中心性(EC)、边聚类系数(NC)等。同时,Qin人提出了LBCC方法,通过结合局部密度、复杂程度和中心度来检测关键蛋白质;Li提出了基于拓扑特征与生物学特性相结合的关键蛋白质检测方法SON;Zhang等人提出了用于具有较高识别准确率的关键蛋白质识别方法CoEWC。这些方法识别关键蛋白质的缺点是:(1)对于某一蛋白质而言,其某种中心度较高,而其他中心度未必也很高,这将导致识别的关键蛋白质精确度低;(2)基于蛋白质拓扑特性的关键蛋白质预测方法,不但依赖于蛋白质相互作用网络的准确性,同时缺乏考虑关键蛋白质的生物特性。
技术实现思路
本专利技术的目的就在于克服上述缺陷,提供一种基于融合生物与拓扑特征的关键蛋白质识别方法。基于融合生物与拓扑特征的关键蛋白质识别方法使用整合生物信息和拓扑特性的思想,对每一个蛋白质顶点赋予表示其重要程度的得分,所有顶点的得分构成一个n列的向量,给出得分的初始值,根据生物信息和拓扑特性的值,构成蛋白质顶点的属性值,并构成属性矩阵。最终按分值由大到小排列,输出分值对应的k个蛋白质即为最后结果。本专利技术的目的是通过以下技术方案实现的,基于融合生物与拓扑特征的关键蛋白质识别方法,包括如下步骤:(1)输入PPI网络和生物信息;(2)根据蛋白质拓扑特性以及生物特性指标,构建属性矩阵;(3)将所有的属性值进行归一化,构建归一化后的属性矩阵;(4)根据蛋白质顶点之间的相互作用关系,构建邻接矩阵以及转移矩阵;(5)定义一个顶点重要性向量,根据PageRank算法使用随机游走计算重要性向量的迭代公式;(6)将属性矩阵赋予权重,构成权重向量;(7)根据顶点重要性向量、权重向量获得损失函数;(8)使用梯度下降法优化损失函数;(9)获得迭代后的顶点重要性向量的值由大到小排序,排序后最大的k个值为关键蛋白质。所述步骤(2)根据蛋白质拓扑特性以及生物特性指标,构建属性矩阵:通过步骤(1)输入PPI网络和生物信息,由拓扑值和生物特性值对每一个蛋白质顶点构成一个属性向量,其分量可以是拓扑重要性指标,也包括生物特性指标。设有m个指标(属性),构成了一个m维向量。设有n个顶点,就构成一个nxm的属性矩阵。所述步骤(5)定义一个顶点重要性向量,根据PageRank算法使用随机游走计算重要性向量的迭代公式:为了识别关键蛋白质,需对所有顶点按重要性排序,为此定义了一个顶点的重要性向量,向量的分量为顶点的排序分,并通过使用PageRank随机游走计算顶点重要性向量的迭代公式。本专利技术的优点和效果在于该方法整合了蛋白质相互作用网络的拓扑特性以及蛋白质的生物属性信息,进而克服数据的不完全性以及数据的噪声性所带来的负面影响。将蛋白质相互作用网络的拓扑特性与蛋白质生物属性相结合有助于提高识别关键蛋白质的准确性,提高了关键蛋白质识别的效率。扩展了该技术在生物信息领域的应用范围和实用性。附图说明图1——本专利技术融合生物与拓扑特征的关键蛋白质识别方法流程示意图。图2——在DIP数据集上Co-MTB和其他方法在六个水平识别的关键蛋白质的数量比较图。图2a是本专利技术的在DIP数据集上前100个蛋白质中关键蛋白质个数的比较图;图2b是本专利技术的在DIP数据集上前200个蛋白质中关键蛋白质个数的比较图;图2c是本专利技术的在DIP数据集上前300个蛋白质中关键蛋白质个数的比较图;图2d是本专利技术的在DIP数据集上前400个蛋白质中关键蛋白质个数的比较图;图2e是本专利技术的在DIP数据集上前500个蛋白质中关键蛋白质个数的比较图;图2f是本专利技术的在DIP数据集上前600个蛋白质中关键蛋白质个数的比较图;图3——在MIPS数据集上Co-MTB和其他方法在六个水平识别的关键蛋白质的数量比较图。图3a是本专利技术的在MIPS数据集上前100个蛋白质中关键蛋白质个数的比较图;图3b是本专利技术的在DIP数据集上前200个蛋白质中关键蛋白质个数的比较图;图3c是本专利技术的在MIPS数据集上前300个蛋白质中关键蛋白质个数的比较图;图3d是本专利技术的在MIPS数据集上前400个蛋白质中关键蛋白质个数的比较图;图3e是本专利技术的在MIPS数据集上前500个蛋白质中关键蛋白质个数的比较图;图3f是本专利技术的在MIPS数据集上前600个蛋白质中关键蛋白质个数的比较图;图4——几种典型算法在DIP数据集上的性能比较图。图5——几种典型算法在MIPS数据集上的性能比较图。具体实施方式本专利技术的技术思路是:将生物属性和拓扑特性相结合,构成属性矩阵和顶点间转移矩阵;对所有顶点按重要性进行排序,为此定义一个顶点的重要性向量,其中分量为蛋白质顶点的排序分,并使用PageRank使用随机游走计算顶点的重要性向量的迭代公式即首先根据PPI网络中顶点的拓扑重要性指标,例如,度中心性、介子图中心性,与PPI网络中顶点的生物特征相结合,例如,基因表达相似度、基因语义相似度,根据所有的顶点属性向量构成一个属性矩阵。其次,通过蛋白质相互作用关系获得顶点对之间的转移概率,由此获得转移矩阵。最终获得目标函数,并对目标函数进行优化,最终识别出关键蛋白质。融合生物属性和拓扑特性有助于理解未知蛋白质的功能,对于解释特定功能的分子机制有着重要意义,同时能够对药物靶细胞设计等提供重要的理论依据。所以基于生物与拓扑特征的关键蛋白质识别方法很自然地适用于关键蛋白质的探测。下面结合附图和具体实施方式对本专利技术进行详细说明。如图1所示,基于融合生物与拓扑特征的关键蛋白质识别方法,包括以下步骤:步骤1:输入PPI网络和生物信息步骤2:根据蛋白质拓扑特性以及生物特性指标,构建属性矩阵由多种重要性指标数据对每一个顶点(蛋白质)可以构成一个属性向量,其分量可以是拓扑重要性指标,也包括生物特性指标。设有m个指标(属性),构成了一个m维向量。设有n个顶点,就构成一个nxm的属性矩阵R=[rij]nxm步骤3:将所有的属性值进行归一化,构建归一化后的属性矩阵;由于各个属性具有不同的阈值,需要进行归一化处理,得到归一化后的属性矩阵B=[bij]nxm,其中其中rij表示第i行第j列顶点的属性值。步骤4:根据蛋白质顶点之间的相互作用关系,构建邻接矩阵以及转移矩阵给出PPI网络G=(V,E)以及其邻接矩阵A,已本文档来自技高网
...

【技术保护点】
1.基于融合生物与拓扑特征的关键蛋白质识别方法,其特征在于,所述识别方法包括如下步骤:(1)输入PPI网络和生物信息;(2)根据蛋白质拓扑特性以及生物特性指标,构建属性矩阵;(3)将所有的属性值进行归一化,构建归一化后的属性矩阵;(4)根据蛋白质顶点之间的相互作用关系,构建邻接矩阵以及转移矩阵;(5)定义一个顶点重要性向量,根据PageRank算法使用随机游走计算重要性向量的迭代公式;(6)将属性矩阵赋予权重,构成权重向量;(7)根据顶点重要性向量、权重向量获得损失函数;(8)使用梯度下降法优化损失函数;(9)获得迭代后的顶点重要性向量的值由大到小排序,排序后最大的k个值为关键蛋白质。

【技术特征摘要】
1.基于融合生物与拓扑特征的关键蛋白质识别方法,其特征在于,所述识别方法包括如下步骤:(1)输入PPI网络和生物信息;(2)根据蛋白质拓扑特性以及生物特性指标,构建属性矩阵;(3)将所有的属性值进行归一化,构建归一化后的属性矩阵;(4)根据蛋白质顶点之间的相互作用关系,构建邻接矩阵以及转移矩阵;(5)定义一个顶点重要性向量,根据PageRank算法使用随机游走计算重要性向量的迭代公式;(6)将属性矩阵赋予权重,构成权重向量;(7)根据顶点重要性向量、权重向量获得损失函数;(8)使用梯度下降法优化损失函数;(9)获得迭代后的顶点重要性向量的值由大到小排序,排序后最大的k个值为关键蛋白质。2.根据权利要求1所述的基于融合生物与拓扑特征的关键蛋白质识别方法,其特征在于,所述步骤(2)根据蛋白质拓扑特性以及生物特性指标,构建属性矩阵的方法为:通过步骤(1)输入PPI网络和生物信息,由拓扑值和生物特性值对每一个蛋白质顶点构成一个属性向量,设有m个指标或属性,构成了一个m维向量;设有n个顶点,就构成一个nxm的属性矩阵。3.根据权利要求1所述的基于融合生物与拓扑特征的关键蛋白质识别方法,其特征在于,所述步骤(3)将所有的属性值进行归一化,构建属性矩阵的具体方法为:由于各个属性具有不同的阈值,需要进行归一化处理,得到归一化后的属性矩阵B=[bij]nxm,其中,其中rij表示第i行第j列顶点的属性值。4.根据权利要求1所述的基于融合生物与拓扑特征的关键蛋白质识别方法,其特征在于,所述步骤(4)根据蛋白质顶点之间的相互作用关系,构建邻接矩阵以及转移矩阵的的具体方法为:给出PPI网络G=(V,E)以及其邻接矩阵A,已知顶点的属性矩阵B=[bij]为nxm阶,n为顶点个数,m为属性个数,要在n个顶点蛋白质中选取k个关键蛋白质,k<n;定义一个顶点间的转移矩阵P=[Pij]Pij为顶点Vi向Vj转移的概率,也反映了Vi对Vj的影响力的大小。aij表示顶点Vi到顶点Vj之间的长度。5...

【专利技术属性】
技术研发人员:刘维马良玉陈昕
申请(专利权)人:扬州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1