一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法技术

技术编号:24097550 阅读:54 留言:0更新日期:2020-05-09 11:10
本发明专利技术涉及一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法,该方法的具体步骤为先利用边聚集系数描述蛋白质相互作用网络成簇的特性;再通过设置阈值参数来设定基因活性表达,并采用布尔值描述;基于基因活性表达的布尔值定义了计算方法,利用Jaccard系数来计算活性共表达的得分;最后基于蛋白质成簇特性和活性共表达得出的关键性综合得分并输出排序结果,top排序后关键性综合得分高的蛋白质(取top N作为阈值)为关键蛋白质。本发明专利技术的关键蛋白质识别方法消除基因表达数据噪声的影响,并且在识别的准确性、特异性和敏感性等性能上要优于中心性度量方法及拥有相同输入数据集的关键蛋白质预测方法。

A key protein recognition method based on protein clustering and active coexpression

【技术实现步骤摘要】
一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法
本专利技术属于生物信息
,涉及一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法。
技术介绍
生物体的生命活动往往需要蛋白质的深度参与。关键蛋白质一般存在于蛋白质的复合物中,它的缺失会造成生物体内某些功能的丧失,甚至会导致生物体无法存活。关键蛋白质对于生命的生理活动和存活都是必不可少的。因此,如何准确的预测关键蛋白质成为了蛋白质组学领域的研究重点。早期研究关键蛋白质时,生物学家主要通过生物实验来观察生物在丢失了某些蛋白质时对生物的影响,并以此来判断该蛋白质是否为关键蛋白质。虽然取得了不错的效果,但是存在耗时长,耗费大等局限。为此,部分研究人员以计算机的思维来解决此类问题,再加上高通量蛋白质组技术的快速发展和蛋白质相互作用数据日益完善,这就使得使用计算方法识别关键蛋白质成为了可能。Jeong等人提出了“中心性-致死性”法则,该法则将蛋白质网络结构中的度数即相邻蛋白质节点比较多的节点称为hub点,hub点通常处于网络中心的位置,对于整个网络的拓扑结构更具有影响。而hub点的缺失对于整个网络可能是毁灭性的,这也在一定程度上暗示着hub点的缺失如同关键蛋白质缺失一样,可能会对生物活动产生巨大的影响。基于该“中心性-致死性”法则和蛋白质相互作用数据的完善,衍生了一批基于蛋白质网络的节点拓扑的中心性度量方法。包括节点的度中心性(Degreecentrality,DC)指的是网络中节点的领域的个数,该方法简单易用,但是预测出的关键蛋白质数量较少。节点的介数中心性(Betweennesscentrality,BC)指某节点出现在其他节点之间的最短路径的个数,它反映了节点位置的枢纽程度,但计算的复杂度高。节点的接近中心性(Closenesscentrality,CC)考察的是节点对于其他节点信息传播的依赖程度,但此方法很大程度上依赖于网络的拓扑结构。节点的子图中心性(Subgraphcentrality,SC)利用了网络中某节点与别的节点形成的闭合回路的总数来衡量蛋白质的节点的关键性。节点的特征向量中心性(Eigenvectorcentrality,EC)是利用在网络邻接矩阵的主向量中每个顶点的分量来衡量对应蛋白质节点的关键性。节点的信息中心性(Informationcentrality,IC)是利用每个顶点为端点的路径的平均总和来衡量每个蛋白质节点的关键性。这些中心性度量方法虽然考虑了PPI网络的拓扑特性,但是却忽略了蛋白质相互作用中可能会存在一些假阴性和假阳性数据,从而影响了关键蛋白质的预测。为了更好地预测关键蛋白质,Li和Tang等人结合蛋白质相互作用网络和基因表达信息提出了名为PeC和WDC的关键蛋白质预测方法;Peng等人提出了UDoNC方法和ION方法,通过蛋白质的域特征之间的相关性和同源蛋白质信息,结合PPI网络的一些拓扑特性来对关键蛋白质进行预测。同时,又有一部分的研究采用有监督的学习方法,运用机器学习算法,如SVM、决策树、朴素贝叶斯等来进行预测关键蛋白质。Gustafson等人通过将具有不同预测能力的基因组特征和蛋白质特征组合,并采用朴素贝叶斯进行关键蛋白质预测。Hwang等人基于ORF、ST、PHY等生物学特征和DC、BD、CC等一些PPI网络特征构建了一种SVM分类器来进行关键蛋白质预测。Zhong等人通过整合PPI网络拓扑特性(DC、BC、CC、EC、IC、SC、NC)和基于生物学计算出来的特征(PeC、WDC和ION),提出了一种基于GEP的关键蛋白质预测方法。公开号为104156634A的专利技术专利公开了一种基于亚细胞定位特异性的关键蛋白质识别方法,其核心思想是在蛋白质相互作用网络的基础上加入亚细胞定位信息构建了11个蛋白质亚细胞定位相互作用子网,并计算各个子网的蛋白质的关键性得分,再根据蛋白质得分的可信度从高到低依次更新蛋白质的关键性综合得分。这种方法虽然简单易用,能一定程度上的提高预测的精准度。但是由于其是在迭代的基础上进行的,计算复杂度较大。公开号为108733976A的专利技术专利公开了一种基于融合生物与拓扑特征的关键蛋白质识别方法,其核心思想是根据蛋白质拓扑特征和生物特性指标构建归一化的属性矩阵,对属性矩阵赋予权重,迭代得到的损失函数并优化,得到最终的关键蛋白质。这种方法能够较好的识别关键蛋白质。然而此种方法引用了大量的数据源且计算较为复杂。公开号为109166604A的专利技术专利公开了一种融合多数据的关键蛋白质的计算方法。其核心思想是结合蛋白质相互作用网络的边聚集系数、基因表达值的皮尔逊相关系数、基因本体属于的语义相似性指数以及蛋白质亚细胞定位统计特征设计了一种新的关键蛋白质预测方法。这种方法的好处是结合了多种数据源有效的减少了单个数据源中噪声的影响,但是这种方法需要获取多种数据源,带来了收集数据难度和计算复杂度等困难。公开号为110400599A的专利技术专利公开了一种基于鸽子优化算法识别关键蛋白质的计算方法。其核心思想是在蛋白质相互作用网络、亚细胞定位信息和功能注释信息的基础上,通过鸽群优化算法,不断的迭代适应度值,得出最终的关键蛋白质得分排序。这种方法能够将鸽子算法的优化特性与蛋白质的拓扑特性与生物特性结合起来识别关键蛋白质,提高了关键蛋白质的识别准确率。但是由于亚细胞定位信息和功能注释信息存在噪声,可能会使的预测结果出现偏差。同时在融入了多种数据集后也增加了计算复杂度。在上述的这些方法和公开文件中,基于PPI网络数据的关键蛋白质预测方法由于高通量蛋白质相互作用数据中存在许多假阳性和假阴性数据,从而可能会影响预测的准确性;基于PPI网络数据和基因表达数据的关键蛋白质预测方法虽然在一定程度上消除了蛋白质相互作用数据的假阳性和假阴性,但是忽略了基因表达数据中的噪声带来的影响。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于蛋白质相互作用数据和基因表达数据,以蛋白质往往成簇的特性为前提,通过基因表达在不同时刻具有“活性”和“非活性”的发现来消除基因表达数据噪声的影响,识别性准确、特异性好的关键蛋白质识别方法。为达到上述目的,本专利技术提供如下技术方案:1.一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法,具体包括以下步骤:a.利用边聚集系数描述蛋白质相互作用网络成簇的特性;b.通过设置阈值参数来设定基因活性表达,并采用布尔值描述;c.基于基因活性表达的布尔值定义了计算方法,利用Jaccard系数来计算活性共表达的得分;d.基于蛋白质成簇特性和活性共表达得出的关键性综合得分并输出排序结果。进一步,所述边聚集系数的公式如下:其中表示的是PPI网络中由边(i,j)参与形成的实际三角形的个数,ki和kj表示的是蛋白质i和蛋白质j的度的个数,min(ki-1,kj-1)表示的是蛋白质i和蛋白质j的度的最小数决定的可能形成的三角形的个数。进一步,步骤b中阈值参数根据基因表达数据的均值和标准差来计算的,阈值参数来设定基因本文档来自技高网
...

【技术保护点】
1.一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法,其特征在于,包括以下步骤:/na.利用边聚集系数描述蛋白质相互作用网络成簇的特性;/nb.通过设置阈值参数来设定基因活性表达,并采用布尔值描述;/nc.基于基因活性表达的布尔值定义了计算方法,利用Jaccard系数来计算活性共表达的得分;/nd.基于蛋白质成簇特性和活性共表达得出的关键性综合得分并输出排序结果。/n

【技术特征摘要】
1.一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法,其特征在于,包括以下步骤:
a.利用边聚集系数描述蛋白质相互作用网络成簇的特性;
b.通过设置阈值参数来设定基因活性表达,并采用布尔值描述;
c.基于基因活性表达的布尔值定义了计算方法,利用Jaccard系数来计算活性共表达的得分;
d.基于蛋白质成簇特性和活性共表达得出的关键性综合得分并输出排序结果。


2.根据权利要求1所述的基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法,其特征在于,所述边聚集系数的公式如下:



其中表示的是PPI网络中由边(i,j)参与形成的实际三角形的个数,ki和kj表示的是蛋白质i和蛋白质j的度的个数,min(ki-1,kj-1)表示的是蛋白质i和蛋白质j的度的最小数决定的可能形成的三角形的个数。


3.根据权利要求1所述的基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法,其特征在于,步骤b中阈值参数根据基因表达数据的均值和标准差来计算的,阈值参数来设定基因活性表达为大于阈值参数的基因活性为1,小于等于阈值参数的基因活性为0。


4.根据权利要求3所述的基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法,其特征在于,阈值参数计算公式如下:
S(i)=U(i)+σ(i)×V(i),其中U(i)表示的是基因i表达数据的平均表达程度,σ(i)表示的是基因i表达数据的标准差,...

【专利技术属性】
技术研发人员:钟坚成唐超孙瑜穗杨家红
申请(专利权)人:湖南师范大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利