一种针对多视图数据融合的蛋白质功能模块挖掘方法技术

技术编号：9642644 阅读：317 留言：0更新日期：2014-02-07 01:30

本发明专利技术属于数据挖掘领域，公开了一种针对多视图数据融合的蛋白质功能模块挖掘方法。首先，量化多个数据源对蛋白质相互作用的强弱描述，形成多视图数据；进而，利用本发明专利技术提出的聚合非负矩阵算法对多视图数据进行一致矩阵分解，通过得到对多视图信息的最优近似，确定蛋白质的功能模块。本发明专利技术提出一种针对多视图数据融合的蛋白质功能模块挖掘方法，着眼于同时分析多生物数据，包括基因共表达、GO注释和PPIN，从多视图中提取聚合特征最为一致的蛋白质功能模块。本发明专利技术尤其适用于蛋白质相互作用网络和生物数据，同时可应用于社交复杂网络、通讯网络的社区挖掘问题。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术属于数据挖掘领域，公开了。首先，量化多个数据源对蛋白质相互作用的强弱描述，形成多视图数据；进而，利用本专利技术提出的聚合非负矩阵算法对多视图数据进行一致矩阵分解，通过得到对多视图信息的最优近似，确定蛋白质的功能模块。本专利技术提出，着眼于同时分析多生物数据，包括基因共表达、GO注释和PPIN，从多视图中提取聚合特征最为一致的蛋白质功能模块。本专利技术尤其适用于蛋白质相互作用网络和生物数据，同时可应用于社交复杂网络、通讯网络的社区挖掘问题。【专利说明】
本专利技术属于数据挖掘领域，涉及一种融合多种生物数据源和蛋白质相互作用网络(Protein-protein interaction network, PPIN)的蛋白质功能模块检测方法。
技术介绍
基于蛋白质相互作用网络分析蛋白质的具体功能是目前生物信息学研究中的一大热点。蛋白质相互作用(Protein-protein interaction, PPI)描述的是两个蛋白质间的物理直接连接，或者具有一致功能的两个蛋白质的间接连系。PPIN以每个蛋白质为结点，两个蛋白质间的相互关系作为两结点的边，形成一无向图。在生物体内，多数蛋白质通过相互作用形成功能意义上紧密联系的集合，也就是功能模块，从而共同执行相应的一种或多种生命活动，因此分析PPI功能意义是了解和掌握生命活动的分子机制的基础。至今，学术各界已提出多种聚类方法用来检测PPIN中的功能模块，其中基于非监督学习的聚类方法是最常用的PPI模块挖掘方法。然而，由于PPI数据的高噪声和不完整性，聚类结果大多不能令人满意。有学者证实酵母双...

【技术保护点】
一种针对多视图数据融合的蛋白质功能模块挖掘方法，其特征在于包括以下步骤：步骤1：构建蛋白质相互作用网络PPIN的邻接矩阵A；每个结点顺序编号并标记为(1,2,…,N)，N为结点总数；结点i、j间的边记为eij，且0S(ci,cj)=maxc∈Pa(ci,cj)2×[log(p(c))]log(p(ci))+log(p(cj))其中，Pa(ci,cj)是ci,cj共有父条目的集合；步骤6：计算任意两个蛋白质的功能相似度；挑选该基因i所具有的任一注释cu，并找到另一基因j所对应的注释集Θj中与cu具有最大相似度的注释cw，cu与cw间的相似度代表了该注释条目下的最大相似度；累计Θi和Θj中所有注释条目的最大相似度并取均值，得到两基因的功能相似度，即两蛋白质的相似度S(pi,pj)：S(pi,pj)=1UW(Σu∈Θimax)(Sw∈Θj(cu,cw))+Σw∈Θjmax(Su∈Θi(cu,cw)))其中，Θj，Θi是两个蛋白质所...

【技术特征摘要】

【专利技术属性】
技术研发人员：贾克斌，张媛，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人