【技术实现步骤摘要】
一种动态蛋白质复合物识别方法
本专利技术涉及生物信息学
,具体而言,尤其涉及一种动态蛋白质复合物识别方法。
技术介绍
随着高通量技术的进步,生成了大规模蛋白质相互作用(Protein-ProteinInteraction,PPI)数据。蛋白质很少单独起作用,它们通常结合在一起形成复合物实现生物学功能。蛋白质复合物在理解大多数细胞功能的基本机制中起着重要作用。从PPI网络中识别蛋白质复合物有助于预测蛋白质功能并阐明多种疾病的细胞机制。在细胞周期的不同阶段,细胞对外部刺激有一种快速反应机制,真实的PPI网络一直在变化。因此,将真实的PPI网络建模为动态的PPI网络可以准确地识别出更多的蛋白质复合物。现有的许多研究都是针对静态PPI数据的不能提供准确的生物学结果。
技术实现思路
根据上述提出的技术问题,而提供一种动态蛋白质复合物识别方法。本专利技术方法首先结合基因表达数据和静态PPI网络构建动态蛋白质相互作用网络;基于马尔可夫聚类对每一时刻的动态蛋白质相互作用网络进行聚类,通过核心附着结构对聚类结果进行优 ...
【技术保护点】
1.一种动态蛋白质复合物识别方法,其特征在于,包括如下步骤:/nS1、结合基因表达数据和静态PPI网络构建动态蛋白质相互作用网络;/nS2、基于马尔可夫聚类对每一时刻的动态蛋白质相互作用网络进行聚类;/nS3、通过核心附着结构对步骤S2中的聚类结果进行优化,合并具有核心蛋白质的聚类和包含附着蛋白质的聚类;/nS4、滤除高度重叠的蛋白质复合物,输出最终蛋白质复合物集合。/n
【技术特征摘要】
1.一种动态蛋白质复合物识别方法,其特征在于,包括如下步骤:
S1、结合基因表达数据和静态PPI网络构建动态蛋白质相互作用网络;
S2、基于马尔可夫聚类对每一时刻的动态蛋白质相互作用网络进行聚类;
S3、通过核心附着结构对步骤S2中的聚类结果进行优化,合并具有核心蛋白质的聚类和包含附着蛋白质的聚类;
S4、滤除高度重叠的蛋白质复合物,输出最终蛋白质复合物集合。
2.根据权利要求1所述的动态蛋白质复合物识别方法,其特征在于,所述步骤S1具体为:
S11、静态PPI网络建模为无向图G=(V,E),其中V表示蛋白质节点集合,E表示蛋白质节点之间边的集合;
S12、基于基因表达数据判断蛋白质的活跃度,将N个蛋白质在T个时间点的基因表达数据表示为N×T的矩阵H;在时间点t,假设一个蛋白质i的基因表达式值大于或等于其激活阈值ACT(i),则该蛋白质i被认为是活跃的;其激活阈值ACT(i)的表达式如下:
ACT(i)=u(i)+3σ(i)(1-F(i))
其中,表示蛋白质i从时刻1到T的平均值,σ(i)表示蛋白质i从时刻1到T的标准差;F(i)=1/(1+σ2(i))为权重方程,反映了蛋白质i表达值的波动;
S13、基于步骤S11和步骤S12构建动态蛋白质相互作用网络,具体为:
GT={G1,G2,…,GT}
其中,GT=(V,ET),ET表示T时刻蛋白质节点之间边的集合、如果eij∈E,并且Hit≥ACT(i),Hjt≥ACT(j),那么eij∈ET;即蛋白质i和j在时刻t的活跃度都大于等于阈值时,eij在动态蛋白质相互作用网络GT中存在;eij表示蛋白质节点i和蛋白质节点j之间的边、Hit表示蛋白质i在t时刻的基因表达数据、Hjt表示蛋白质j在t时刻的基因表达数据。
3.根据权利要求1所述的动态蛋白质复合物识别方法,其特征在于,所述步骤S2具体为:
S21、建立邻接矩阵,公式如下:
其中,(vi,vj)表示蛋白质节点i和j之间的边,wij表示边(vi,vj)的权值,wix表示边(vi,vx)的权值,maxx≠iwix表示所有与i相连的边中权值的最大值;
S22、标准概率矩阵,公式如下:
其中,M表示在图上随机游走的转移概率,M(i,j)表示节点vi转移到节点vj的概率,M(k,j)表示节点vk转移到节点vj的概率,k表示蛋白质节点的序号,n表示蛋白质节点的个数;
S23、扩展操作,对所述概率矩阵进行e次幂运算,公式如下:
Mexp=M×M
S24、膨胀操作对所述概率矩阵内元素进行r次幂运算,再进行标准化,公式如下:
其中,Mr(i,j)表示矩阵内元素M(i,j)进行r次幂运算...
【专利技术属性】
技术研发人员:梁冰,吕嘉庆,张益嘉,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。