本发明专利技术公开了基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法。其步骤如下:A、根据生物分子的序列特征,构建网络T(Gt)和B(GB)中生物分子的初始相似矩阵。B、根据生物分子在网络中的拓扑的相似特征,计算生物分子的相似矩阵S。C、构建专家知识字典。D、基于专家知识,以邻居优先策略进行搜索,获得结果子网。E、计算结果子网R(Gr)与目标子网T(Gt)的相似得分。F、计算p值。G、结果子网可视化。与同类方法相比,该方法计算准确度更高,具有更高的稳定性,能更好地处理生物分子网络间的“空隙”(Gap),获得更多的保守边和节点,且能较好地反映生物分子网络之间的变化情况。
【技术实现步骤摘要】
本专利技术涉及计算机领域,提出了基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法。
技术介绍
生物分子网络是复杂网络。在复杂网络中搜索与目标子网最相似的子网是一个局部网络比较问题,涉及到大量的计算,已被证实是一个NP完全问题(Non-deterministicPolynomial的问题,也即是多项式复杂程度的非确定性问题)。目前,研究人员普遍采用图来表示复杂网络,并以图论的方法来研究它们。对于生物分子网络而言,图中的节点表示生物分子,边表示生物分子之间的调控、相互作用等各种关系。由于生物分子网络特有的生物学意义,仅用图论的方法来研究它们是不够的,其 搜索还面临着更多的问题,主要包括(1)每个生物分子都有其生物学意义,要明确一个网络中的某个生物分子和另外一个网络中的哪个生物分子最相似,不仅要考虑生物分子本身的序列,还要考虑它在网络中的拓扑位置;(2)无论是国际公开的数据库中的数据,还是自己通过生物实验获得的数据都存在假阳性和假阴性现象,目前只能通过这些不完全准确和不完整的数据研究生物分子网络;(3)对于要研究的不同的具体问题,网络中各个分子的地位并不是完全平等的,计算过程中要合理利用专家知识,以贴近生物学的实际应用背景。目前,已有一些研究小组在进行这方面的研究,也开发了少量的工具。这些方法各有其优点,但也各有其局限性,无法满足系统生物学的需要。而这些局限性主要体现在对具有相对复杂的拓扑结构的网络搜索上,对于生物分子网络而言,为了能获得不同物种间的最相似网络,计算的准确度必须得到提高。同时,考虑到生物分子网络的进化和变异,不同物种的网络虽然不同,却有一定的保守性,算法应能在变异后的网络中找到原始的保守信息,能较好地体现网络拓扑的变化情况,且具有较高的稳定性。
技术实现思路
本专利技术的目的在于,为了解决上述问题而提供基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,该方法能在复杂的生物分子网络中搜索到与目标子网最相似的结果子网,避免了以往算法不能合理利用专家知识而带来的计算的盲目性,并降低因原始信息缺失带来的误差,从而具有较高的稳定性。随着生物分子网络的进化和变异,该方法较少受到Gap的影响,从而可以搜索得到更多的保守边和节点,而变异的边数往往与未匹配边数一致,即方法能较好地体现拓扑的变化情况。为达到上述目的,本专利技术的构思是首先结合生物分子的序列特征及其在网络中的拓扑相似特征,计算各个生物分子之间的相似系数,其中拓扑相似特征主要考虑目标生物分子的邻居/非邻居分子之间的平均相似性,以降低原始信息缺失和不准确带来的误差,并提高其稳定性;然后根据具体问题和专家知识字典,将目标子网中的生物分子分类,确定K类分子的最相似分子;最后,根据生物分子之间的关系特点,如“与相似的蛋白质发生相互作用的那些蛋白质之间往往具有更高的相似度”,对N类分子采用邻居优先的策略进行搜索,获得结果子网。根据上述专利技术构思,对于网络A (GA)、网络B (Gb)及网络A中的目标子网T (Gt),本专利技术采用下述技术方案A、计算 G t和 G B的初 始相 似矩 阵S0 :根据生物分子的序列特征,构建网络T (Gt)和B (Gb)中生物分子的初始相似矩阵Se,其中的每个元素Sfc〕表示节点a. e Gt和节点I E Gs之间的序列相似系数b); B、计算Gt和Gb的相似矩阵S:根据生物分子在各自网络中的拓扑相似特征,计算生物分子的相似矩阵S,矩阵中的每个元素Sb, b)为节点a G Gt和节点fc G Gs之间的相似系 数; C、构建专家知识字典字典中包含了网络T(Gt)和B (Gb)中由专家确定的最相似的生物分子对; D、采用邻居节点优先策略进行网络搜索利用专家知识,基于相似矩阵&以邻居优先策略进行搜索,获得结果子网; E、计算结果子网(GJ与目标子网(Gt)的相似得分; F、计算/7值,分析目标子网的统计学意义; G、结果子网(4)可视化。本专利技术的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,与现有技术相比较,具有以下突出的实质性特点和显著优点 I.该方法建立专家知识字典,避免了以往算法不能合理利用专家知识而带来的计算的盲目性。2.该方法结合生物分子本身的序列特征及其在网络中的拓扑特征计算生物分子的相似系数,实现了图论方法和生物学应用背景的有机结合。3.该方法在计算生物分子拓扑结构相似的时候,强调生物分子在网络拓扑结构上的平均相似性,而弱化它们的不相似性,有效降低了因为原始数据的不准确和不完整带来的误差。提高了算法的稳定性,且算法较少受到Gap的影响,能较好地体现网络的变化情况。4.该方法采用邻居节点优先进行网络搜索,符合生物分子网络的生物学意义,并降低了计算复杂度。附图说明图I是本专利技术的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法的流程图。图2是图I中步骤B所述的根据生物分子在各自网络中的拓扑相似特征,对无向图计算生物分子的相似矩阵的具体流程图,对有向图的计算与此类似。图3是图I中步骤D所述的基于专家知识进行搜索的流程图。图4是图3中步骤D3所述的对N类生物分子根据邻居优先的策略进行搜索配对的流程图。图5是图I中步骤F所述的计算/7值的流程图。图6是图5中步骤Fl所述的生成随机网络的流程图。图7是本专利技术与同类方法对经典示例的计算结果对比。图8是为了不失一般性,对图7算例的f 7条边各进行100次拓扑变换后,本专利技术与同类方法的计算结果对比图。图9是为了不失一般性,各以最多100种方式删除图7算例的f 6个节点后,本发 明与同类方法的计算结果对比图。图10是为了不失一般性,对图7算例增加节点后,本专利技术与同类方法的计算结果对比图。图11是对果蝇和人类网络搜索比对时,采用或不采用专家知识的结果对比。具体实施例方式以下结合附图对本专利技术的优选实施例进一步详细说明。本实施例中,本专利技术的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法的实验在上海大学系统生物技术研究所的集群计算机上完成,该集群由14台IBMHS21刀片服务器和2台X3650服务器组成计算和管理节点,网络连接采用千兆以太网和infiniband 2. 5G网。每个节点配置两个双核CPU和4GB内存,每个CPU为intel xeon 51502.66GMhz主频,两台图形工作站作为前端机,可以进行科学数据可视化。对于网络A (GA)、网络B (Gb)及网络A (Ga)中的目标子网T (Gt),本专利技术的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,如图I 一图6所示,包括以下步骤A、根据生物分子的序列特征,构建网络T(Gt)和B (Gb)中生物分子的初始相似矩阵S13,其中的每个元素5(}〔£1,1)表示节点£1 e Gf和节点I £ Gs之间的序列相似系数。具体步骤包括 Al、取E-VaMe < I,其余参数取缺省值,用BLAST计算Gt中所有分子在Gs的序列相似分子。A2、按以下公式计算这些生物分子之间的相似系数本文档来自技高网...
【技术保护点】
基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,其特征在于,对于网络A(GA)、网络B(GB)及A中的目标子网T(Gt),基于专家知识,同时考虑网络中生物分子及其在网络中的拓扑相似属性,以邻居节点优先的策略进行网络搜索,以在网络B(GB)中获得与网络T(Gt)在生物意义上最相似的结果子网R(Gr);具体操作步骤如下:A、计算Gt和GB的初始相似矩阵????????????????????????????????????????????????:根据生物分子的序列特征,构建网络T(Gt)和网络B(GB)中生物分子的初始相似矩阵,其中的每个元素表示节点和节点之间的序列相似系数,其具体步骤如下:A1、取,其余参数取缺省值,用BLAST计算中所有分子在的序列相似分子;A2、按以下公式计算这些生物分子之间的相似系数:B、计算Gt和GB的相似矩阵S:根据生物分子在各自网络中的拓扑相似特征,计算生物分子的相似矩阵S,矩阵中的每个元素为节点和节点之间的相似系数;C、构建专家知识字典:字典中包含了网络T(Gt)和网络B(GB)中由专家确定的最相似的生物分子对;D、采用邻居节点优先策略进行网络搜索:利用专家知识,基于相似矩阵S,以邻居优先策略进行搜索,获得结果子网;E、计算结果子网(Gr)与目标子网(Gt)的相似得分;其相似得分定义如下:设目标子网为,结果子网为,其中,,分别代表网络,的节点集合,且1,2,即网络中有1个节点,网络2个节点;表示节点存在于网络中,,分别表示结果子网中与对应的节点;、分别代表网络、的边集合,表示边的两个端点是节点,表示边是网络的一条边;表示边的权重;表示网络的节点和结果子网中与其对应的节点的序列相似系数;则结果子网相对于目标子网的得分为在无向图中:其中?在有向图中:其中F、计算p值,分析目标子网的统计学意义,p值反映了计算结果有多大概率是由两个无关网络随机计算的结果,p值越接近于0,说明所得到的结果越显著越不可能是随机出现的结果,因此越可能具有生物学意义;反之,p值越接近于1,则所对应的结果就越不显著,越可能是由于无意义的随机计算得到的;其具体步骤如下:F1、生成网络B(GB)的n个随机网络;F2、在每个随机网络中用同样的方法搜索同一个目标子网的相似子网,得到n个结果子网;F3、用T检验计算p值;?G、结果子网(Gr)可视化。2012103586699100001dest_path_image001.jpg,316652dest_path_image001.jpg,335424dest_path_image002.jpg,2012103586699100001dest_path_image003.jpg,59535dest_path_image004.jpg,2012103586699100001dest_path_image005.jpg,149851dest_path_image006.jpg,2012103586699100001dest_path_image007.jpg,331434dest_path_image008.jpg,786686dest_path_image010.jpg,2012103586699100001dest_path_image011.jpg,233979dest_path_image003.jpg,800089dest_path_image004.jpg,101758dest_path_image012.jpg,2012103586699100001dest_path_image013.jpg,790228dest_path_image014.jpg,2012103586699100001dest_path_image015.jpg,911768dest_path_image007.jpg,593154dest_path_image016.jpg,2012103586699100001dest_path_image017.jpg,811645dest_path_image018.jpg,608700dest_path_image007.jpg,2012103586699100001dest_path_image019.jpg,217536dest_path_image020.jpg,2012103586699100001dest_path_image021.jpg,938498dest_path_image022.jpg,949180dest_path_image007.jpg,...
【技术特征摘要】
1.基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,其特征在于,对于网络A (GA)、网络B (Gb)及A中的目标子网T (Gt),基于专家知识,同时考虑网络中生物分子及其在网络中的拓扑相似属性,以邻居节点优先的策略进行网络搜索,以在网络B (Gb)中获得与网络T (Gt)在生物意义上最相似的结果子网R (GJ ;具体操作步骤如下 A 、 计算 G t和 G B的初 始相 似矩 阵S0 :根据生物分子的序列特征,构建网络T (Gt)和网络B (Gb)中生物分子的初始相似矩阵5D,其中的每个元素S°(α 表示节点a e Gi和节点I £ Gs之间的序列相似系数,其具体步骤如下 AllE—Vaiue < I,其余参数取缺省值,用BLAST计算Gt中所有分子在Gs的序列相似分子; A2、按以下公式计算这些生物分子之间的相似系数2.根据权利要求I所述的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,其特征在于,所述步骤B的根据生物分子在各自网络中的拓扑相似特征,计算生物分子的相似矩阵,其计算是依赖于步骤A的初始相似矩阵5 ,即生物分子的序列相似矩阵,具体步骤如下 BI、计算生物分子a E Gt和1) G Gs在网络拓扑结构上的平均相似性,其相似性的各个方面在有向网络中分别由AJatD)、A2(a,b)、43(a,o)和A.(a,b)表示,在无向网络中则由Wi (a,b)和V2 {a, b)表示; B2、在生物分子a E GjPI E Gb的序列相似系数基础上增加它们在网络拓扑结构上的平均相似性,迭代,直至一致收敛或振荡收敛;具体公式如下,其中上标々和々W代表迭代次数,5(G,fc)代表α和fc的相似系数,4( 、42(o,fc) > 43(fl,&〕和A,.(atb)表示有向网络中α和I出/入邻居节点和非邻居节点之间的平均相似性,N1 (a,b)和iV2(a,i)表示无向网络中β和的邻居节点和非邻居节点之间的平均相似性表示和“的序列 相似系数 在有向网络中3.根据权利要求2所述的基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法,其特征在于,上述步骤BI中所述的计算生物分子a和6在网络拓扑结构上的平均相似性,其具体方法为 B11、在有向网络中,表示节点a和6的入邻居(即有边从这些邻居节点指向a或办)之间的平均相似性表示节点a和6的出邻居(即有边从a或6指向这些邻居节点)之间的平均相似性,b)表示节点a和6的非入邻居节点(指那些没有边进入a和b的节点)之间的平均相似性表示a和6的非出邻居节点(指那些没有边从a和办指向它的节点)之间的平均相似性;由degin (a)表示进入节点a的边的条数,即a的入度,degDJt(a.)表示从节点<3引出的边...
【专利技术属性】
技术研发人员:谢江,谭军,马进,张武,文铁桥,
申请(专利权)人:上海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。