The invention belongs to the field of biotechnology, and specifically relates to a key protein recognition method based on fusion of biological and topological features: each protein vertex is given a score indicating its importance degree, the score of all vertices constitutes a vector of n columns, the initial value of the score is given, and the score is based on biological information and topological characteristics. The value of sex constitutes the attribute value of protein vertex and constitutes the attribute matrix. Finally, according to the arrangement of the values from large to small, the K protein corresponding to the output value is the final result. Combining the topological characteristics of protein interaction network with the biological properties of protein can improve the accuracy of key protein recognition and improve the efficiency of key protein recognition.
【技术实现步骤摘要】
基于融合生物与拓扑特征的关键蛋白质识别方法
本专利技术属于生物信息
,主要是在蛋白质相互作用网络中通过融合生物与拓扑特征识别关键蛋白质的技术,特别涉及PPI网络中网络拓扑信息和蛋白质生物属性识别关键蛋白质的方法。
技术介绍
在生物细胞中,关键蛋白质是实现细胞功能不可缺少的,对生物体生存、药物标靶设计、疾病治疗及预测等方面有着重要的应用价值。因此,关于关键蛋白质的识别成为蛋白质组学领域的一项重要研究工作之一。虽然目前对于蛋白质相互作用网络中的关键蛋白质的识别取得了一些成果,但由于生命系统的高度复杂性和随机性,其他领域中卓有成效的方法往往在PPI网络分析中不一定取得理想的效果,导致识别出来的蛋白质准确率较低。在本专利技术作出之前,在已有的方法中,关键蛋白质识别方法都是根据PPI中的某一顶点的某种重要性指标,如顶点的各种中心度等来排序,取其中较大的k个作为关键蛋白质。然而,这类重要性指标往往很多,如度的中心性(DC)、介度中心性(BC)、聚类中心性(CC)、特征向量中心性(EC)、边聚类系数(NC)等。同时,Qin人提出了LBCC方法,通过结合局部密度、复杂程度和中心度来检测关键蛋白质;Li提出了基于拓扑特征与生物学特性相结合的关键蛋白质检测方法SON;Zhang等人提出了用于具有较高识别准确率的关键蛋白质识别方法CoEWC。这些方法识别关键蛋白质的缺点是:(1)对于某一蛋白质而言,其某种中心度较高,而其他中心度未必也很高,这将导致识别的关键蛋白质精确度低;(2)基于蛋白质拓扑特性的关键蛋白质预测方法,不但依赖于蛋白质相互作用网络的准确性,同时缺乏考虑关键 ...
【技术保护点】
1.基于融合生物与拓扑特征的关键蛋白质识别方法,其特征在于,所述识别方法包括如下步骤:(1)输入PPI网络和生物信息;(2)根据蛋白质拓扑特性以及生物特性指标,构建属性矩阵;(3)将所有的属性值进行归一化,构建归一化后的属性矩阵;(4)根据蛋白质顶点之间的相互作用关系,构建邻接矩阵以及转移矩阵;(5)定义一个顶点重要性向量,根据PageRank算法使用随机游走计算重要性向量的迭代公式;(6)将属性矩阵赋予权重,构成权重向量;(7)根据顶点重要性向量、权重向量获得损失函数;(8)使用梯度下降法优化损失函数;(9)获得迭代后的顶点重要性向量的值由大到小排序,排序后最大的k个值为关键蛋白质。
【技术特征摘要】
1.基于融合生物与拓扑特征的关键蛋白质识别方法,其特征在于,所述识别方法包括如下步骤:(1)输入PPI网络和生物信息;(2)根据蛋白质拓扑特性以及生物特性指标,构建属性矩阵;(3)将所有的属性值进行归一化,构建归一化后的属性矩阵;(4)根据蛋白质顶点之间的相互作用关系,构建邻接矩阵以及转移矩阵;(5)定义一个顶点重要性向量,根据PageRank算法使用随机游走计算重要性向量的迭代公式;(6)将属性矩阵赋予权重,构成权重向量;(7)根据顶点重要性向量、权重向量获得损失函数;(8)使用梯度下降法优化损失函数;(9)获得迭代后的顶点重要性向量的值由大到小排序,排序后最大的k个值为关键蛋白质。2.根据权利要求1所述的基于融合生物与拓扑特征的关键蛋白质识别方法,其特征在于,所述步骤(2)根据蛋白质拓扑特性以及生物特性指标,构建属性矩阵的方法为:通过步骤(1)输入PPI网络和生物信息,由拓扑值和生物特性值对每一个蛋白质顶点构成一个属性向量,设有m个指标或属性,构成了一个m维向量;设有n个顶点,就构成一个nxm的属性矩阵。3.根据权利要求1所述的基于融合生物与拓扑特征的关键蛋白质识别方法,其特征在于,所述步骤(3)将所有的属性值进行归一化,构建属性矩阵的具体方法为:由于各个属性具有不同的阈值,需要进行归一化处理,得到归一化后的属性矩阵B=[bij]nxm,其中,其中rij表示第i行第j列顶点的属性值。4.根据权利要求1所述的基于融合生物与拓扑特征的关键蛋白质识别方法,其特征在于,所述步骤(4)根据蛋白质顶点之间的相互作用关系,构建邻接矩阵以及转移矩阵的的具体方法为:给出PPI网络G=(V,E)以及其邻接矩阵A,已知顶点的属性矩阵B=[bij]为nxm阶,n为顶点个数,m为属性个数,要在n个顶点蛋白质中选取k个关键蛋白质,k<n;定义一个顶点间的转移矩阵P=[Pij]Pij为顶点Vi向Vj转移的概率,也反映了Vi对Vj的影响力的大小。aij表示顶点Vi到顶点Vj之间的长度。5...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。