当前位置: 首页 > 专利查询>安徽大学专利>正文

基于多目标进化算法的大规模蛋白质功能模块识别方法技术

技术编号:19141071 阅读:69 留言:0更新日期:2018-10-13 08:48
本发明专利技术公开了基于多目标进化算法的大规模蛋白质功能模块识别方法:定义蛋白质网络表征,并鉴别蛋白质网络中的核心蛋白质节点;基于每一个核心蛋白质节点建立子种群,并对子种群内的每一个个体进行初始化操作;S3、对完成初始化操作的个体进行交叉变异操作得到新个体;对新子种群内的个体进行交叉变异操作得到新个体,且计算每一个新个体的模块度,并寻找模块度最大的新个体且记录下最大模块度;按照最大模块度进行增益,合并蛋白质模块中重叠度超过预设值的蛋白质模块。本发明专利技术提高了多目标进化算法的搜索能力,让算法更加关注围绕核心节点进行蛋白质模块搜索,使挖掘出的蛋白质模块更加精细与准确,从而保证的蛋白质模块挖掘的有效性。

Recognition method of large scale protein functional modules based on multi-objective evolutionary algorithm

The invention discloses a large-scale protein functional module recognition method based on multi-objective evolutionary algorithm: defines the protein network representation and identifies the core protein nodes in the protein network; establishes a sub-population based on each core protein node, and initializes each individual in the sub-population; S3, pairs New individuals are obtained by crossover mutation of the individuals who complete the initialization operation; new individuals are obtained by crossover mutation of the individuals in the new sub-population, and the modularity of each new individual is calculated, and new individuals with the largest modularity are searched and the maximum modularity is recorded; gain according to the maximum modularity, merging proteins. A protein module whose overlap degree exceeds the preset value in the quality module. The invention improves the searching ability of the multi-objective evolutionary algorithm, makes the algorithm pay more attention to searching protein modules around the core nodes, makes the extracted protein modules more precise and accurate, and ensures the effectiveness of protein module mining.

【技术实现步骤摘要】
基于多目标进化算法的大规模蛋白质功能模块识别方法
本专利技术涉及蛋白质网络功能模块识别
,尤其涉及基于多目标进化算法的大规模蛋白质功能模块识别方法。
技术介绍
研究蛋白质功能模块对于理解生物学系统的组织结构具有十分重要的意义。在生物体内蛋白质模块繁复多样,并且在后基因时代,蛋白质网络的规模一般都在十万百万的数量级。如何快速、有效的识别各种具有生物学功能的模块是蛋白质组学的一项关键的科学问题。而当前存在的方案不能有效的解决蛋白质功能模块识别问题,这些方案有的得到的结果单一,有的方案需要大量的计算时间,无法为用户提供能多样的实用性分析。目前蛋白质网络功能模块识别领域中的问题包含两类研究方法:一是利用生物数据库总蛋白质注释数据的功能模块定义方法,但该方法对生物数据库的质量很高,有时还必须依靠生物实验技术提供数据。过去这样传统检测方法在检测费用、时间和质量上的局限性,难以满足后基因时代对生命科学研究的实际需要;二是利用蛋白质相互作用网络的网络拓扑结构来发现功能模块,研究发现PPI网络中那些紧密联系的蛋白质区域通常会与功能模块相对应,利用已有的蛋白质相互作用数据库构建蛋白质相互作用后利用机器学习和数据挖掘的算法和思想识别蛋白质功能模块。此类方法能快速满足用户的需求,但蛋白质网络在不同时间和不同空间阶段组成功能种类繁多的蛋白质模块,此类方法对某个蛋白质网络只能挖掘出一组蛋白质模块,无法满足用户多样的需求。基于多目标进化算法来挖掘蛋白质功能模块,能够更好的挖掘出更为丰富的蛋白质模块,此类算法无需知道网络社团的数目,最后得到的是一组解集,能供决策者提供更多的选择,而多目标进化算法对于大规模蛋白质网络的计算复杂度较高,无法实现快速高效的蛋白质模块的挖掘。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了基于多目标进化算法的大规模蛋白质功能模块识别方法。本专利技术提出的基于多目标进化算法的大规模蛋白质功能模块识别方法,包括以下步骤:S1、定义蛋白质网络表征,并鉴别蛋白质网络中的核心蛋白质节点,且将核心蛋白质节点加入核心蛋白质节点集合内;S2、基于核心蛋白质节点集合内的每一个核心蛋白质节点建立子种群,并对子种群内的每一个个体进行个体初始化操作以及个体领域初始化操作;S3、对完成初始化操作的个体进行交叉变异操作得到新个体,并将新个体整合为新子种群;S4、对新子种群内的个体进行交叉变异操作得到新个体,且计算每一个新个体的模块度,并寻找模块度最大的新个体且记录下最大模块度;S5、将蛋白质网络中未出现在模块度最大的新个体中的核心蛋白质节点列入剩余节点集合,且将剩余节点集合中的核心蛋白质节点分派至预设蛋白质模块中,并按照最大模块度进行增益,合并蛋白质模块中重叠度超过预设值的蛋白质模块。优选地,步骤S1具体包括:S11、定义蛋白质网络表征为G(V,E);其中,V={v1,v2…vi…vn,},E={eij|i=1,2…n,j=1,2…n},V表示蛋白质网络中所有蛋白质节点,vi为第i个蛋白质节点,n为蛋白质节点的总数,E表示任意两个蛋白质节点之间的联系的集合,eij表示第i个蛋白质节点vi与第j个蛋白质节点vj之间的联系,eij=1表示第i个蛋白质节点vi与第j个蛋白质节点vj互为邻居节点,eij=0表示第i个蛋白质节点vi与第j个蛋白质节点vj之间不存在联系,蛋白质节点vi的邻居节点的数目为蛋白质节点vi的度;S12、计算蛋白质网络中每一个蛋白质节点的度d,并将所有蛋白质节点按照度从大到小的顺序列入集合cc内;S13、提取当前集合cc内度最大的蛋白质节点D加入核心蛋白质节点集合CN内,并删除集合cc中与D相邻的蛋白质节点;S14、重复步骤S13,直至集合cc为空,记录核心蛋白质节点集合CN,CN={CN1…CNi…CNk};其中,CNi表示第i个核心蛋白质节点。优选地,步骤S2具体包括:S21、为核心蛋白质节点集合内的每一个核心蛋白质节点初始化k个子种群;S22、定义最大迭代次数为gene、子种群个体的数目为pop、邻域大小为NS、权重向量λ={λ1,λ2…λg…λpop};S23、利用向量p={x1…xi…xr}来表示子种群中的每个个体,且将个体向量p包含的蛋白质节点标签作为一个蛋白质模块;其中,xi为一个蛋白质节点标签;S24、初始化第i个核心蛋白质节点CNi所对应的子种群个体,从CNi的邻居蛋白质节点中随机选择蛋白质节点利用步骤S23进行个体的初始化;S25、执行步骤S24pop次,初始化产生有pop个个体的子种群P,记为P={p1…pg…ppop};S26、按照步骤S23对步骤S25得到的子种群P中的每个个体进行初始化,得到每个个体的蛋白质模块C,并利用下述公式计算蛋白质模块C的两个目标函数,所述公式为:CN_num;其中,Cond(C)表示个体对应的蛋白质模块C在蛋白质网络的传导率,links(C,V\C)表示蛋白质模块C与除了C以外的蛋白质节点的连边,links(C,V)表示蛋白质模块C与所有蛋白质节点的连边,links(V\C,V)表示除去蛋白质模块C以外所有蛋白质节点的连边,CN_num表示个体对应的蛋白质模块C包含的核心蛋白质节点的数目;S27、执行步骤S26pop次,得到pop个个体对应的蛋白质模块传导率Cond和蛋白质模块的中心点数目CN_num,并从pop个个体对应的蛋白质模块传导率Cond和蛋白质模块的中心点数目CN_num中分别选取最小值记为f1*和构成参考点S28、根据第g个个体的权重向量λg计算第g个个体的权重向量λg与其他个体的权重向量之间的欧式距离,并选取欧式距离最小的前NS个个体作为第g个个体的邻居Ng,以得到pop个个体的邻居域N,记为N=(N1…Ng…Npop)。优选地,步骤S3具体包括:S31、初始化gen=1,j=1;S32、从个体j的邻居Nj中随机的选取两个个体,通过交叉变异操作产生新个体p_new;其中,交叉操作具体包括:选取两个个体中维度较小的个体为p_new,求解两个个体的差集X={x1,...,xt},利用下述公式向p_new中概率性的加入X中的蛋白质节点,所述公式为:其中,Ein表示X中的某个蛋白质节点与p_new个体所对应蛋白质模块的内部连边数目,Eout表示X中的某个蛋白质节点与p_new个体所对应蛋白质模块的外部连边数目;所述变异操作具体包括:随机挑选p_new中除核心蛋白质节点外的部分蛋白质节点直接从p_new中删除,或在蛋白质节点的邻居中随机挑选满足Ein>Eout的蛋白质节点加入到p_new中;S33、利用下述公式计算p_new的两个目标函数值Cond和CN_num,所述公式为:CN_num;S34、根据第gen代个体j的两个目标函数以及参考点Z*计算第gen代第j个个体在其邻居个体对应的权重向量上的切比雪夫值QN={QN1,...,QNl,...QNNS},再根据p_new的两个目标函数和参考点Z*计算出个体p_new在邻居个体Nj对应的权重向量的切比雪夫值Q={Q1,...Ql,...QNS},判断邻居个体Nj对应权重向量上的切比雪夫值QNl是否有大于p_new在邻居个体Nj对应的权重向量上的切比雪夫值Ql,若存在第l个邻居个体满足本文档来自技高网
...

【技术保护点】
1.基于多目标进化算法的大规模蛋白质功能模块识别方法,其特征在于,包括以下步骤:S1、定义蛋白质网络表征,并鉴别蛋白质网络中的核心蛋白质节点,且将核心蛋白质节点加入核心蛋白质节点集合内;S2、基于核心蛋白质节点集合内的每一个核心蛋白质节点建立子种群,并对子种群内的每一个个体进行个体初始化操作以及个体领域初始化操作;S3、对完成初始化操作的个体进行交叉变异操作得到新个体,并将新个体整合为新子种群;S4、对新子种群内的个体进行交叉变异操作得到新个体,且计算每一个新个体的模块度,并寻找模块度最大的新个体且记录下最大模块度;S5、将蛋白质网络中未出现在模块度最大的新个体中的核心蛋白质节点列入剩余节点集合,且将剩余节点集合中的核心蛋白质节点分派至预设蛋白质模块中,并按照最大模块度进行增益,合并蛋白质模块中重叠度超过预设值的蛋白质模块。

【技术特征摘要】
1.基于多目标进化算法的大规模蛋白质功能模块识别方法,其特征在于,包括以下步骤:S1、定义蛋白质网络表征,并鉴别蛋白质网络中的核心蛋白质节点,且将核心蛋白质节点加入核心蛋白质节点集合内;S2、基于核心蛋白质节点集合内的每一个核心蛋白质节点建立子种群,并对子种群内的每一个个体进行个体初始化操作以及个体领域初始化操作;S3、对完成初始化操作的个体进行交叉变异操作得到新个体,并将新个体整合为新子种群;S4、对新子种群内的个体进行交叉变异操作得到新个体,且计算每一个新个体的模块度,并寻找模块度最大的新个体且记录下最大模块度;S5、将蛋白质网络中未出现在模块度最大的新个体中的核心蛋白质节点列入剩余节点集合,且将剩余节点集合中的核心蛋白质节点分派至预设蛋白质模块中,并按照最大模块度进行增益,合并蛋白质模块中重叠度超过预设值的蛋白质模块。2.根据权利要求1所述的基于多目标进化算法的大规模蛋白质功能模块识别方法,其特征在于,步骤S1具体包括:S11、定义蛋白质网络表征为G(V,E);其中,V={v1,v2…vi…vn,},E={eij|i=1,2…n,j=1,2…n},V表示蛋白质网络中所有蛋白质节点,vi为第i个蛋白质节点,n为蛋白质节点的总数,E表示任意两个蛋白质节点之间的联系的集合,eij表示第i个蛋白质节点vi与第j个蛋白质节点vj之间的联系,eij=1表示第i个蛋白质节点vi与第j个蛋白质节点vj互为邻居节点,eij=0表示第i个蛋白质节点vi与第j个蛋白质节点vj之间不存在联系,蛋白质节点vi的邻居节点的数目为蛋白质节点vi的度;S12、计算蛋白质网络中每一个蛋白质节点的度d,并将所有蛋白质节点按照度从大到小的顺序列入集合cc内;S13、提取当前集合cc内度最大的蛋白质节点D加入核心蛋白质节点集合CN内,并删除集合cc中与D相邻的蛋白质节点;S14、重复步骤S13,直至集合cc为空,记录核心蛋白质节点集合CN,CN={CN1…CNi…CNk};其中,CNi表示第i个核心蛋白质节点。3.根据权利要求2所述的基于多目标进化算法的大规模蛋白质功能模块识别方法,其特征在于,步骤S2具体包括:S21、为核心蛋白质节点集合内的每一个核心蛋白质节点初始化k个子种群;S22、定义最大迭代次数为gene、子种群个体的数目为pop、邻域大小为NS、权重向量λ={λ1,λ2…λg…λpop};S23、利用向量p={x1…xi…xr}来表示子种群中的每个个体,且将个体向量p包含的蛋白质节点标签作为一个蛋白质模块;其中,xi为一个蛋白质节点标签;S24、初始化第i个核心蛋白质节点CNi所对应的子种群个体,从CNi的邻居蛋白质节点中随机选择蛋白质节点利用步骤S23进行个体的初始化;S25、执行步骤S24pop次,初始化产生有pop个个体的子种群P,记为P={p1…pg…ppop};S26、按照步骤S23对步骤S25得到的子种群P中的每个个体进行初始化,得到每个个体的蛋白质模块C,并利用下述公式计算蛋白质模块C的两个目标函数,所述公式为:CN_num;其中,Cond(C)表示个体对应的蛋白质模块C在蛋白质网络的传导率,links(C,V\C)表示蛋白质模块C与除了C以外的蛋白质节点的连边,links(C,V)表示蛋白质模块C与所有蛋白质节点的连边,links(V\C,V)表示除去蛋白质模块C以外所有蛋白质节点的连边,CN_num表示个体对应的蛋白质模块C包含的核心蛋白质节点的数目;S27、执行步骤S26pop次,得到pop个个体对应的蛋白质模块传导率Cond和蛋白质模块的中心点数目CN_num,并从pop个个体对应的蛋白质模块传导率Cond和蛋白质模块的中心点数目CN_num中分别选取最小值记为f1*和f2*构成参考点S28、根据第g个个体的权重向量λg计算第g个个体的权重向量λg与其他个体的权重向量之间的欧式距离,并选取欧式距离最小的前NS个个体作为第g个个体的邻居Ng,以得到pop个个体的邻居域N,记为N=(N1…Ng…Npop)。4.根据权利要求3所述的基于多目标进化算法的大规模蛋白质功能模块识别方法,其特征在于,步骤S3具体包括:S31、初始化gen=1,j=1;S32、从个体j的邻居Nj中随机的选取两个个体,通过交叉变异操作产生新个体p_new;其中,交叉操作具体包括:选取两个个体中维度较小的个体为p_new,求解两个个体的差集X={x1,...,xt},利用下述公式向p_new中概率性的加入X中的蛋白质节点,所述公式为:其中,Ein表示X中的某个蛋白质节点与p_new个体所对应蛋白质模块的内部连边数目,Eout表示X中的某个蛋白质节点与p_new个体所对应蛋白质模块的外部连边数目;所述变异操作具体包括:随机挑选p_new中除核心蛋白质节点外的部分蛋白质节点直接从p_new中删除,或在蛋白质节点的邻居中随机挑选满足Ein>Eout的蛋白质节点加入到p_new中;S33、利用下述公式计算p_new的两个目标函数值Cond和CN_num,所述公式为:CN_num;S34、根据第gen代个体j的两个目标函数以及参考点Z*计算第gen代第j个个体在其邻居个体对应的权重向量上的切比雪夫值QN={QN1,...,QNl,...QNNS},再根据p_new的两个目标函数和参考点Z*计算出个体p_new在邻居个体Nj对应的权重向量的切比雪夫值Q={Q1,...Ql,...QNS},判断邻居个体Nj对应权重向量上的切比雪夫值QNl是否有大于p_new在邻居个体Nj对应的权重向量上的切比雪夫值Ql,若存在第l个邻居个体满足条件,则用个体p_new替代第j个个体的邻居个体l;S35、判断个体p_new所对应蛋白质模块的目标函数Cond值是否小于参考点Z*内的f1*,若满足条件,则将p_new所对应的蛋白质模块的目标函数Cond值赋给f1*,否则,f1*值不变;判断个体p_new所对应的CN_num是否小于参考点Z*内的f2*,若满足条件,则将p_new所对应的CN_num赋给f2*,否则,f2*值不变;S36、将j+1赋给j,重新执行步骤S32,直到j等于pop为止;S37、将gen+1赋给gen,重新执行步骤S32,直到gen大于gene为止,输出最后一代得到的子种群,并将该子种群作为新子种群;其中,gene为最大迭代次数。5.根据权利要求4所述的基于多目标进化算法的大规模蛋白质功能模块识别方法,其特征在于,步骤S4具体包括:S41、从新子种群中得到其非支配解集,k个子种群得到k组非支配解集;S42、对每个新子种群的非支配解集按顺序编号,从各个非支配解集中随机选出个体对应的编号组成长度为k的基因位,即得到一个个体p'={x'1,...,x'i,...,x'k},并执行操作pop次,得到初始化种群P'={p'1,...,p'pop};其中,x'i表示从第i个子种群的非支配解中选取的个体编号;S43、初始化gen=1,最大迭代次数为gene;从种群P'中随机选取两个个体进行交叉变异操作产生两个新个体;其中,所述交叉操作具体包括:在个体中随机的选取某个点,并以此分为左右两个部分,将两个个体的左右部分互换基因序列;所述变异操作具体包括:随机选取两个个体的基因位,从基因位对应的非支配解集中随机选取个体进行替换;记录交叉变异操作产生两个新个体中模块度值Q较大的为p'_new,其中,模块度Q为:其中,K为网络中蛋白质模块的数目,m为蛋白质网络中边的数目,ei表示蛋白质模块i内部边的数目,di表示第i个蛋白质模块中所有节点度数之和;用p'_new随机替换种群中模块度值Q小于p'_new的个体;将gen+1赋给gen,重新执行交叉变异操作,直到gen大于gene为止,输出最后一代得到的种群中模块度Q最大的个体pbest。6.根据权利要求5所述的基于多目标进化算法的大规模蛋白质功能模块识别方法,其特征在于,步骤S5具体包括:S51、找到蛋白质网络中未出现在pbest中的核心蛋白质节点,并将上述蛋白质节点列入剩余节点集合rest;S52、分别将rest集合中的核心蛋白质节点分派至预设蛋白质模块中;S53、按照最大模块度Q增益,合并蛋白质...

【专利技术属性】
技术研发人员:张兴义刘春龙周克飞
申请(专利权)人:安徽大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1