一种针对多视图数据融合的蛋白质功能模块挖掘方法技术

技术编号:9642644 阅读:317 留言:0更新日期:2014-02-07 01:30
本发明专利技术属于数据挖掘领域,公开了一种针对多视图数据融合的蛋白质功能模块挖掘方法。首先,量化多个数据源对蛋白质相互作用的强弱描述,形成多视图数据;进而,利用本发明专利技术提出的聚合非负矩阵算法对多视图数据进行一致矩阵分解,通过得到对多视图信息的最优近似,确定蛋白质的功能模块。本发明专利技术提出一种针对多视图数据融合的蛋白质功能模块挖掘方法,着眼于同时分析多生物数据,包括基因共表达、GO注释和PPIN,从多视图中提取聚合特征最为一致的蛋白质功能模块。本发明专利技术尤其适用于蛋白质相互作用网络和生物数据,同时可应用于社交复杂网络、通讯网络的社区挖掘问题。

【技术实现步骤摘要】
【专利摘要】本专利技术属于数据挖掘领域,公开了。首先,量化多个数据源对蛋白质相互作用的强弱描述,形成多视图数据;进而,利用本专利技术提出的聚合非负矩阵算法对多视图数据进行一致矩阵分解,通过得到对多视图信息的最优近似,确定蛋白质的功能模块。本专利技术提出,着眼于同时分析多生物数据,包括基因共表达、GO注释和PPIN,从多视图中提取聚合特征最为一致的蛋白质功能模块。本专利技术尤其适用于蛋白质相互作用网络和生物数据,同时可应用于社交复杂网络、通讯网络的社区挖掘问题。【专利说明】
本专利技术属于数据挖掘领域,涉及一种融合多种生物数据源和蛋白质相互作用网络(Protein-protein interaction network, PPIN)的蛋白质功能模块检测方法。
技术介绍
基于蛋白质相互作用网络分析蛋白质的具体功能是目前生物信息学研究中的一大热点。蛋白质相互作用(Protein-protein interaction, PPI)描述的是两个蛋白质间的物理直接连接,或者具有一致功能的两个蛋白质的间接连系。PPIN以每个蛋白质为结点,两个蛋白质间的相互关系作为两结点的边,形成一无向图。在生物体内,多数蛋白质通过相互作用形成功能意义上紧密联系的集合,也就是功能模块,从而共同执行相应的一种或多种生命活动,因此分析PPI功能意义是了解和掌握生命活动的分子机制的基础。至今,学术各界已提出多种聚类方法用来检测PPIN中的功能模块,其中基于非监督学习的聚类方法是最常用的PPI模块挖掘方法。然而,由于PPI数据的高噪声和不完整性,聚类结果大多不能令人满意。有学者证实酵母双杂交实验(Yeast Two-Hybrid)所检测到的PPI的误报率(False Positive)可达50%。基于如此大噪声比例的数据,单纯依据PPIN的拓扑特征不能保证得到可靠的功能模块检测结果。。这也是之前一些传统功能模块挖掘方法,如MC0DE, CFinder,马尔科夫聚类(Markov Clustering, MCL)等方法的一大掣肘。近年来生物数据收集方法日新月异,结合多种数据对PPI进行研究成为可能。首先,基因表达数据被用于寻找共表达的基因和基因产物。这一方法的基本假设是,在一段生命过程中表达模式相似的基因(或基因产物)倾向具有相同的功能,同时在PPIN中也更倾向于相互联系形成密集功能模块。Segal等人依据基因共表达的模式特征来提取功能模块;Li和Wu将基因共表达作为PPIN权重进行网络分析。另一方面,Cho等人利用基因本体注释信息(Gene Ontology, GO)计算蛋白质相似度,并据此构建了蛋白质功能流在网络中的传输模型,功能流所到之处被划分为同一功能模块。这一方法体现了蛋白质功能在网络中的动态传递概念,并解决了多功能蛋白质的多功能模块从属,即功能模块的重叠问题。这些方法均达到一定程度的成功。然而不同的数据各有倾向:基因共表达倾向于检测细胞生命过程中表达模式一致的蛋白质群,而GO则是静态描述的功能信息。同时,二者各有弊端:首先,基因表达数据在收集过程中,实验本身引入的噪声不可避免;其次,由于人类技术所限,还有丰富的基因功能特质依然未知,GO注释信息也仍在不断完善。将每个角度所获得的数据看做一个视图。如何从多视图中提取出最准确的信息是生物信息学及数据挖掘界一直面临的难题。
技术实现思路
针对蛋白质相互作用数据的高噪声问题,提出。本方法着眼于同时分析多生物数据,包括基因共表达、GO注释和PPIN,从多视图中提取聚合特征最为一致的蛋白质功能模块。该方法尤其适用于蛋白质相互作用网络和多生物数据的融合分析,同时可应用于社交复杂网络、通讯网络的社区挖掘问题。本专利技术所采取的技术方案是:首先,量化多个数据源对蛋白质相互作用的强弱描述,形成多视图数据;进而,利用本专利技术提出的聚合非负矩阵算法对多视图数据进行一致矩阵分解,通过得到对多视图信息的最优近似,确定蛋白质的功能模块。—种针对多视图数据融合的蛋白质功能模块挖掘方法,包括以下步骤:步骤1:构建蛋白质相互作用网络的邻接矩阵A。 每个结点顺序编号并标记为(1,2,…,N) ,N为结点总数。结点1、j间的边记为eg,且0〈1〈队0〈」^;忽略自相关关系,4的对角线元素全部设定为0。由于相互作用无方向指向,因此A为对称矩阵。 步骤2:计算基因表达模式的相似程度。采用Pearson相关系数计算基因表达模式的相似程度,并归一化至。步骤3:计算基因表达谱上的相似矩阵。将基因共表达相关系数作为eij的权重,与PPIN结合,获得基因表达谱上的相似矩阵 wCO:WCOij = CoExpijXAij其中,CoExp为基因共表达相关系数;X代表元素相乘。步骤4:提取蛋白质所对应的基因本体标注。选择GO的三个不同知识体系当中的生物过程(Biological Process, BP)体系,并选择在BP标注体系中每个蛋白质的GO注释条目,用以计算步骤5、6中基因及基因生成物的相似度。步骤5:计算两注释条目的功能相似度。采用基于信息量(Information Content, IC)的方法,即测量比较任意两条目间共同的信息量大小,计算两注释条目的功能相似度,方法如下:给定BP注释体系中任一个条目(:,Φ为BP中从属于c的所有子条目的集合,p(C)表示一个基因被Φ中任一条目所注释的概率,并以负对数形式表示该条目所包含的信息量,即-log (p (c))。计算两个条目的功能相似度,即二者最低层的共有父条目结点的信息量大小,公式如下:【权利要求】1.,其特征在于包括以下步骤: 步骤1:构建蛋白质相互作用网络PPIN的邻接矩阵A ; 每个结点顺序编号并标记为(1,2,…,N),N为结点总数;结点1、j间的边记为,且.0〈i〈N,0〈j〈N ;忽略自相关关系,A的对角线元素全部设定为O ;相互作用无方向指向,A为对称矩阵; 步骤2:计算基因表达模式的相似程度; 采用Pearson相关系数计算基因表达模式的相似程度,并归一化至; 步骤3:计算基因表达谱上的相似矩阵; 将基因共表达相关系数作为的权重,与PPIN数据结合,获得基因表达谱上的相似矩阵 wCO: WCOij = CoExpij X Aij 其中,CoExp为基因共表达相关系数;X代表兀素相乘; 步骤4:提取蛋白质所对应的基因本体标注; 选择基因本体注释信息GO的三个不同知识体系当中的生物过程体系,并选择在生物过程标注体系中每个蛋白质的GO注释条目,用以计算步骤5、6中基因及基因生成物的相似度; 步骤5:计算两注释条目的功能相似度; 给定生物过程BP注释体系中任一个条目C,Φ为BP中从属于c的所有子条目的集合,P(c)表示一个基因被Φ中任一条目所注释的概率,并以负对数形式表示该条目所包含的信息量,即_log(p(C));计算两个条目的功能相似度,即二者最低层的共有父条目结点的信息量大小,公式如下:【文档编号】G06F19/24GK103559426SQ201310545984【公开日】2014年2月5日 申请日期:2013年11月6日 优先权日:2013年11月6日 【专利技术者】贾克斌, 张媛 申请人:北京工业大学本文档来自技高网
...

【技术保护点】
一种针对多视图数据融合的蛋白质功能模块挖掘方法,其特征在于包括以下步骤:步骤1:构建蛋白质相互作用网络PPIN的邻接矩阵A;每个结点顺序编号并标记为(1,2,…,N),N为结点总数;结点i、j间的边记为eij,且0S(ci,cj)=maxc∈Pa(ci,cj)2×[log(p(c))]log(p(ci))+log(p(cj))其中,Pa(ci,cj)是ci,cj共有父条目的集合;步骤6:计算任意两个蛋白质的功能相似度;挑选该基因i所具有的任一注释cu,并找到另一基因j所对应的注释集Θj中与cu具有最大相似度的注释cw,cu与cw间的相似度代表了该注释条目下的最大相似度;累计Θi和Θj中所有注释条目的最大相似度并取均值,得到两基因的功能相似度,即两蛋白质的相似度S(pi,pj):S(pi,pj)=1UW(Σu∈Θimax)(Sw∈Θj(cu,cw))+Σw∈Θjmax(Su∈Θi(cu,cw)))其中,Θj,Θi是两个蛋白质所对应的注释集,U=|Θi|,W=|Θi|,分别代表注释集的注释条目数量;步骤7:融合PPIN数据,得到视图wGO;将基因功能相似系数S(pi,pj)作为PPIN数据的另一权重,与其邻接矩阵结合获得另一PPIN视图wGO:wGOij=Sij×Aij步骤8:初始化优化目标函数;基于聚类非负矩阵分解的方法,具体优化目标函数为:min12Σi=1I||A(i)-H(i)S(i)(H(i))T||F2+α2Σi=1I||H(i)-H*||F2,S.t.H(i)≥0,S(i)≥0,其中,α≥0,i∈(1,...,I),代表视图个数,I为视图总数;H*代表同时最终拟合多个视图的最优统一解;H(i)是每个视图的基础分解矩阵,S代表一个仅对角元素非零的方阵,H(i)≥0,S(i)≥0,表示矩阵中所有元素都为非负值;两视图wCO和wGO作为蛋白质相似度矩阵输入,即优化目标函数中的A(i);初始化聚类矩阵H、H*为非负随机矩阵,初始化S为对角线元素为非负随机值、非对角线元素全为0的矩阵;步骤9:循环迭代H,H*,S,直至目标函数收敛,迭代公式如下:Hnk(i)←Hnk(i)(2(A(i)H(i)S(i))nk+αHnk*2(H(i)S(i)(H(i))TH(i)S(i))nk+αHnk(i))14S(i)←((H(i))H(i))-1(H(i))TA(i)H(i)((H(i))TH(i))-1H*←1IΣi=1IH(i)步骤10:将迭代结果H*归一化至[0,1],并以一定阈值λ取舍,即如果矩阵H*中元素hij*>λ,则蛋白质i属于模块j;通过设置不同的阈值得到具有重叠性质的功能模块结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:贾克斌张媛
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1