当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于属性优化蛋白质网络的功能模块挖掘方法技术

技术编号:20426439 阅读:25 留言:0更新日期:2019-02-23 08:56
本发明专利技术公开了一种基于属性优化蛋白质网络的功能模块挖掘方法,包括:S1、提取蛋白质候选节点对;S2、通过蛋白质候选节点对的提取初始化种群及种群中每个个体的功能模块集合并计算每个个体的适应度值;S3、种群个体间进行交叉变异,产生子代种群;S4、子代个体继承父代个体的功能模块集合,并根据每一个子代个体和父代个体基因值之间的差异,调整子代个体的功能模块,得到子代种群每个个体的功能模块集合并计算每个个体的适应度值;S5、根据父代种群和子代种群个体的适应度值进行环境选择得到新的种群;S6、重复执行步骤S3‑S5,直到执行到最大迭代次数时,输出种群的帕累托最优解集中每个个体的功能模块集合。

【技术实现步骤摘要】
一种基于属性优化蛋白质网络的功能模块挖掘方法
本专利技术涉及功能模块识别
,尤其涉及一种基于属性优化蛋白质网络的功能模块挖掘方法。
技术介绍
生物体内成千上万种蛋白质,在不同时间和不同空间阶段组成功能种类繁多的蛋白质模块,在具有生物意义的细胞功能中,蛋白质功能模块是其最基本的组成单位之一,它在结合各个基因产物的过程中起着非常重要的作用,如何从蛋白质的相互作用数据中挖掘与生物功能密切相关的蛋白质功能模块,成为人们揭开蛋白质相互作用与探测生物功能联系的重要突破口,而当前存在的方案只是利用蛋白质网络结构,对于一些不完整的蛋白质网络可能导致检测结果不够准确,所以提出属性信息优化蛋白质网络的功能模块识别方法能有效的挖掘更好的蛋白质模块组合,并且能提供更多的蛋白质模块选择组合。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了一种基于属性优化蛋白质网络的功能模块挖掘方法;本专利技术提出的一种基于属性优化蛋白质网络的功能模块挖掘方法,包括:S1、提取蛋白质候选节点对;S2、通过蛋白质候选节点对的提取初始化种群及种群中每个个体的功能模块集合并计算每个个体的适应度值;S3、种群个体间进行交叉变异,产生子代种群;S4、子代个体继承父代个体的功能模块集合,并根据每一个子代个体和父代个体基因值之间的差异,调整子代个体的功能模块,得到子代种群每个个体的功能模块集合并计算每个个体的适应度值;S5、根据父代种群和子代种群个体的适应度值进行环境选择得到新的种群;S6、重复执行步骤S3、S4、S5,直到执行到最大迭代次数时,输出种群的帕累托最优解集中每个个体的功能模块集合,个体的功能模块集合即为蛋白质功能模块划分集合。优选地,步骤S1,具体包括:S11、定义所述蛋白质网络表征为G=(V,E,A),V={v1,v2,…,vi,…,vn}表示蛋白质网络中所有蛋白质节点的集合,vi表示第i个蛋白质节点;n为蛋白质节点的总数;S12、计算任意两个蛋白质节点的属性相似度Au和Av分别表示蛋白质节点u和蛋白质节点v具有的属性集合;S13、将蛋白质节点对按属性相似度加入范围在[0,1],梯度为0.01的100个桶中,计算每个桶中蛋白质节点对的个数Bucki;S14、依据Bucki对桶进行降序排列,第一个桶对应[0,1]之间的值为Value1,第二个桶对应[0,1]之间的值为Value2,Value1和Value2的平均值T作为属性相似度的阈值;S15、从蛋白质节点对集合中取出一个节点对(u,v),如果Suv≥T,则将节点对(u,v)加入侯选蛋白质节点对集合Nodepair中,从蛋白质节点对集合中移除节点对(u,v);S16、对剩余的蛋白质节点重复步骤S15,得到提取后的候选蛋白质节点对集合Nodepair={P1,P2,...,Pk},其中Pr表示第r个蛋白质节点对。优选地,步骤S2,具体包括:S201、定义最大迭代次数为maxgen,初始迭代次数为t=1,种群个体的数目为pop,种群中有pop个个体{X1,X2,…,Xg,…,Xpop},Xg表示第g个个体;S202、从Nodepair中取出一个蛋白质节点对(u,v),随机产生一个0-1之间的随机数R,计算第i位基因系数ζi=0.5+Suv-Avg(S),若R≤ζi,个体第i位基因值为1,反之为0,其中,Suv表示蛋白质节点对(u,v)的属性相似度,Avg(S)表示候选蛋白质节点对的平均属性相似度,;S203、对Nodepair中剩下的蛋白质节点对重复执行步骤S202,直到得到个体的编码为X={g1,g2,...,gi,...,gm};S204、重复执行pop次步骤S202和S203,得到初始种群编码{X1,X2,...,XPOP};S205、获取{X1,X2,...,XPOP}中一个个体,令i=1,如果该个体的第i位基因值gi=1,在蛋白质网络G中节点u和节点v之间建立连边,其中,个体第i位基因对应候选蛋白质集合中第i个侯选蛋白质节点对(u,v);S206、将令i=i+1,重复执行步骤S205,直到i>m为止,从而得到一个新的蛋白质网络Gn,m表示个体编码长度;S207、对种群{X1,X2,...,XPOP}中的剩下个体重复执行步骤S205、S206,得到相应的蛋白质网络G={G1,G2,...,GPOP};S208、从G={G1,G2,...,GPOP}中选取一个网络Gi={V,E,A},计算网络中每个节点的节点优先性其中,ni表示蛋白质节点i邻居节点间连接的边数,k表示蛋白质节点i的邻居个数;S209、从V中选取节点优先性最大的蛋白质节点v,计算蛋白质节点v与各个邻居节点的相似度选择具有最大相似度的邻居节点u,u,v和u,v的共同邻居组成功能模块Ci,将u,v和u,v的共同邻居从V中移除,计算V中节点的节点优先性,其中,Nr表示蛋白质节点r的邻居节点;S210、重复执行步骤S209,直到得到该网络的功能模块划分;S211、对于G={G1,G2,...,GPOP}中剩下的网络重复执行步骤S208、S209和S210,得到pop个蛋白质功能模块划分集合;S212、计算初始化父代种群中第g个个体Xg的两个目标函数:模块度其中,lk表示第k个功能模块内的连接边数,dk表示第k个功能模块内的总度数;L表示第g个蛋白质网络Gg内的总边数;属性密度其中,S(i,j)表示蛋白质节点i和蛋白质节点j的属性相似度;rk表示第k个蛋白质模块内的蛋白质节点数;S213、对pop个蛋白质功能模块划分集合均执行步骤S212,得到父代种群的功能模块集合模块度和属性密度。优选地,步骤S3,具体包括:S31、令t=1,以二进制锦标赛的方式的从种群P中选取个体g和个体j,对个体g和个体j进行交叉变异得到子代个体child;S32、执行pop次步骤S31,得到子代种群O={X1,X2,...,XPOP}。优选地,步骤S4,具体包括:S41、从子代种群O={X1,X2,...,XPOP}中获取一个个体XK,将个体XK和对应的父代个体进行比较,在候选蛋白质节点对中找到基因值发生变化的基因位所对应的蛋白质节点对,提取蛋白质节点对中的蛋白质节点得到蛋白质节点集合Vcg;S42、对于个体XK,其个体编码XK={g1,g2,...,gi,...,gm}令i=1,如果该个体的第i位基因值gi=1,在蛋白质网络G中节点u和节点v之间建立连边,其中,个体第i位基因对应候选蛋白质集合中第i个侯选蛋白质节点对(u,v);S43、将令i=i+1,重复执行步骤S42,直到i>m为止,从而得到一个新的蛋白质网络Gn,m表示个体编码长度;S44、提取蛋白质网络Gn中由Vcg中的蛋白质节点组成的子图Subgraph;S45、依照Subgraph节点邻居个数递增的方式对Vcg中的蛋白质节点进行排序,选取第一个蛋白质节点v,计算v从当前所在的功能模块i移到任意一个功能模块j的模块度变化将蛋白质节点v加入到具有最大模块度变化所对应的模块k中,将蛋白质节点从Vcg中移除,其中,L表示子代种群第k个蛋白质网络内的总边数,表示蛋白质节点v在第r个蛋白质功能模块内邻居个数,kv表示蛋白质节点v的邻居个数,Kr表示第r个蛋白质功能模块的总度数;S46、执行|Vc本文档来自技高网...

【技术保护点】
1.一种基于属性优化蛋白质网络的功能模块挖掘方法,其特征在于,包括:S1、提取蛋白质候选节点对;S2、通过蛋白质候选节点对的提取初始化种群及种群中每个个体的功能模块集合并计算每个个体的适应度值;S3、种群个体间进行交叉变异,产生子代种群;S4、子代个体继承父代个体的功能模块集合,并根据每一个子代个体和父代个体基因值之间的差异,调整子代个体的功能模块,得到子代种群每个个体的功能模块集合并计算每个个体的适应度值;S5、根据父代种群和子代种群个体的适应度值进行环境选择得到新的种群;S6、重复执行步骤S3、S4、S5,直到执行到最大迭代次数时,输出种群的帕累托最优解集中每个个体的功能模块集合,个体的功能模块集合即为蛋白质功能模块划分集合。

【技术特征摘要】
1.一种基于属性优化蛋白质网络的功能模块挖掘方法,其特征在于,包括:S1、提取蛋白质候选节点对;S2、通过蛋白质候选节点对的提取初始化种群及种群中每个个体的功能模块集合并计算每个个体的适应度值;S3、种群个体间进行交叉变异,产生子代种群;S4、子代个体继承父代个体的功能模块集合,并根据每一个子代个体和父代个体基因值之间的差异,调整子代个体的功能模块,得到子代种群每个个体的功能模块集合并计算每个个体的适应度值;S5、根据父代种群和子代种群个体的适应度值进行环境选择得到新的种群;S6、重复执行步骤S3、S4、S5,直到执行到最大迭代次数时,输出种群的帕累托最优解集中每个个体的功能模块集合,个体的功能模块集合即为蛋白质功能模块划分集合。2.根据权利要求1所述的基于属性优化蛋白质网络的功能模块挖掘方法,其特征在于,步骤S1,具体包括:S11、定义所述蛋白质网络表征为G=(V,E,A),V={v1,v2,…,vi,…,vn}表示蛋白质网络中所有蛋白质节点的集合,vi表示第i个蛋白质节点;n为蛋白质节点的总数;S12、计算任意两个蛋白质节点的属性相似度Au和Av分别表示蛋白质节点u和蛋白质节点v具有的属性集合;S13、将蛋白质节点对按属性相似度加入范围在[0,1],梯度为0.01的100个桶中,计算每个桶中蛋白质节点对的个数Bucki;S14、依据Bucki对桶进行降序排列,第一个桶对应[0,1]之间的值为Value1,第二个桶对应[0,1]之间的值为Value2,Value1和Value2的平均值T作为属性相似度的阈值;S15、从蛋白质节点对集合中取出一个节点对(u,v),如果Suv≥T,则将节点对(u,v)加入侯选蛋白质节点对集合Nodepair中,从蛋白质节点对集合中移除节点对(u,v);S16、对剩余的蛋白质节点重复步骤S15,得到提取后的候选蛋白质节点对集合Nodepair={P1,P2,...,Pk},其中Pr表示第r个蛋白质节点对。3.根据权利要求2所述的基于属性优化蛋白质网络的功能模块挖掘方法,其特征在于,步骤S2,具体包括:S201、定义最大迭代次数为maxgen,初始迭代次数为t=1,种群个体的数目为pop,种群中有pop个个体{X1,X2,…,Xg,,Xpop},Xg表示第g个个体;S202、从Nodepair中取出一个蛋白质节点对(u,v),随机产生一个0-1之间的随机数R,计算第i位基因系数ζi=0.5+Suv-Avg(S),若R≤ζi,个体第i位基因值为1,反之为0,其中,Suv表示蛋白质节点对(u,v)的属性相似度,Avg(S)表示候选蛋白质节点对的平均属性相似度,;S203、对Nodepair中剩下的蛋白质节点对重复执行步骤S202,直到得到个体的编码为X={g1,g2,...,gi,...,gm};S204、重复执行pop次步骤S202和S203,得到初始种群编码{X1,X2,...,XPOP};S205、获取{X1,X2,...,XPOP}中一个个体,令i=1,如果该个体的第i位基因值gi=1,在蛋白质网络G中节点u和节点v之间建立连边,其中,个体第i位基因对应候选蛋白质集合中第i个侯选蛋白质节点对(u,v);S206、将令i=i+1,重复执行步骤S205,直到i>m为止,从而得到一个新的蛋白质网络Gn,m表示个体编码长度;S207、对种群{X1,X2,...,XPOP}中的剩下个体重复执行步骤S205、S206,得到相应的蛋白质网络G={G1,G2,...,GPOP};S208、从G={G1,G2,...,GPOP}中选取一个网络Gi={V,E,A},计算网络中每个节点的节点优先性其中,ni表示蛋白质节点i邻居节点间连接的边数,k表示蛋白质节点i的邻居个数;S209、从V中选取节点优先性最大的蛋白质节点v,计算蛋白质节点v与各个邻居节点的相似度选择具有最大相似度的邻居节点u,u,v和u,v的共同邻居组成功能模块Ci,...

【专利技术属性】
技术研发人员:张兴义刘振杰田野程凡
申请(专利权)人:安徽大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1