当前位置: 首页 > 专利查询>山西大学专利>正文

一种蛋白质互作网络功能模块挖掘方法及系统技术方案

技术编号:32973145 阅读:31 留言:0更新日期:2022-04-09 11:44
本发明专利技术涉及生物组织蛋白质功能模块研究技术领域,提出了一种蛋白质互作网络功能模块挖掘方法及系统。所述方法包括蛋白质互作网络数据预处理环节、蛋白质互作网络功能模块挖掘模型构建及优化环节、蛋白质互作网络功能模块挖掘结果输出环节三个主要组成部分。所述系统包括计算机处理器和内存、蛋白质互作网络数据预处理单元、蛋白质互作网络功能模块模型训练单元、蛋白质互作网络功能模块结果输出单元。本发明专利技术保留了蛋白质互作网络的蛋白质互作信息和特征信息,有助于获得更准确的蛋白质模块挖掘结果。此外,利用图自编码器构建蛋白质互作网络节点分类模型,将标签信息加入到蛋白质节点网络表示的学习过程中,提高了蛋白质功能模块挖掘的准确性。模块挖掘的准确性。模块挖掘的准确性。

【技术实现步骤摘要】
一种蛋白质互作网络功能模块挖掘方法及系统


[0001]本专利技术涉及生物组织蛋白质功能模块研究
,特别涉及一种蛋白质互作网络功能模块挖掘方法及系统。

技术介绍

[0002]蛋白质作为组成人体一切细胞、组织的重要成分,在人体的生长发育、基因表达等生命过程中起着至关重要的作用,蛋白质的相互碰触或者功能相关的蛋白质之间的相互作用产生了庞大的蛋白质互作网络。蛋白质互作网络的研究,不仅有助于了解细胞内的结构体系,还有助于理解生物功能的运行机制,为疾病的诊断提供了理论依据,提高疾病的治愈率。研究大规模的蛋白质互作网络对于理解生命过程十分必要,在蛋白质互作网络中,相同类别的蛋白质具有相同或相似的生物功能,构成了不同的蛋白质功能模块,蛋白质功能模块的挖掘为医治相关病症、定向开发药物提供了依据,因此从蛋白质互作网络中挖掘出具有特定生物功能的蛋白质模块已成为当前生物信息学领域中的研究热点。

技术实现思路

[0003]针对上述问题,同时为了促进蛋白质的研究以及在医学领域的应用,本专利技术提供了一种蛋白质互作网络功能模块挖掘方法及系统。采用了节点分类的方法,对蛋白质互作网络中的蛋白质节点进行有效的分类,实现对蛋白质互作网络中功能模块的挖掘。
[0004]为了达到上述目的,本专利技术采用了下列技术方案:
[0005]本专利技术提供一种蛋白质互作网络功能模块挖掘方法,该方法包含三个主要环节,步骤S10为蛋白质互作网络数据预处理环节,步骤S20~S40为蛋白质互作网络功能模块挖掘模型构建及优化环节,步骤S50为蛋白质互作网络功能模块挖掘结果输出环节。
[0006]具体步骤如下:
[0007]S10、对采集到的蛋白质互作网络数据进行预处理,降低噪声数据对结果的影响;
[0008]S20、由步骤S10获得的蛋白质互作网络数据,抽取蛋白质特征信息和蛋白质相互作用信息,得到蛋白质互作网络结构;
[0009]S30、基于步骤S20蛋白质互作网络结构,构建蛋白质互作网络功能模块挖掘模型;
[0010]S40、基于步骤S30构建的蛋白质互作网络功能模块挖掘模型,对模型进行训练,通过迭代计算,使得模型收敛,确定模型中的待定参数;
[0011]S50、利用步骤S30构建的蛋白质互作网络功能模块挖掘模型,以及步骤S40确定的模型参数,将蛋白质节点进行分类,得到功能模块挖掘结果并输出。
[0012]进一步,所述步骤S10包含以下具体步骤:
[0013]S11、从蛋白质互作数据库中收集人类相关数据,作为实验数据集;
[0014]S12、利用基因本体论数据分析工具注释蛋白质,为每个蛋白质建立生物过程BP注释短语集合,第i个蛋白质的BP注释集合用D
BP
(i)表示,假设第i个蛋白质被5个BP注释短语注释,则D
BP
(i)={D1,D2,D3,D4,D5},假设第j个蛋白质被4个BP注释短语注释,则D
BP
(j)=
{D1,D2,D3,D4},从而建立两个蛋白质所包含的注释短语的5
×
4注释短语矩阵;
[0015]S13、计算蛋白质注释短语矩阵中的每一对短语的语义相似值,用来表示两个蛋白质注释短语之间的相似性SimD
BP
(i,j)=MAX
D1,D2
(

logp(D));
[0016]S14、取相似性值中最大的一个作为蛋白质之间的相似值;
[0017]S15、设定阈值,如果蛋白质之间的相似值大于阈值,则认为蛋白质之间存在相互作用,保留蛋白质之间的相互作用数据,否则删除,以此减少蛋白质互作网络数据中的假阳性噪声数据,增加数据的可靠性。
[0018]进一步,所述步骤S20包括以下具体步骤:
[0019]S21、根据S10预处理后的蛋白质互作网络数据构建一个蛋白质互作网络模型G(V,E,C),将蛋白质互作网络中的蛋白质抽象为节点,其中V={v1,v2,...,v
N
}表示蛋白质节点集合,N表示蛋白质节点的数量,E=[e
ij
]表示蛋白质节点相互作用矩阵,如果两个蛋白质节点之间存在相互作用,则e
ij
=1,否则e
ij
=0,矩阵C为所有蛋白质节点特征向量矩阵;
[0020]S22、构建蛋白质互作网络标签矩阵来保存网络的类别信息,将标签矩阵记为B=[b
ij
],标签矩阵定义如下:对于任意两个蛋白质节点v
i
和v
j
,若类别相同b
ij
=1,否则b
ij
=0;如果蛋白质节点v
i
或v
j
的类别未知则b
ij
=0。
[0021]进一步,所述步骤S30中的蛋白质互作网络功能模块挖掘模型包含编码器、解码器、分类器三个部分,编码器用于将蛋白质节点编码得到网络表示向量;解码器用于将编码器得到的网络表示向量解码重构为蛋白质相互作用矩阵;节点分类器用于最后挖掘蛋白质功能模块。
[0022]进一步,步骤S30包含以下步骤:
[0023]S31、进一步的,使用图卷积网络作为编码器将蛋白质互作网络G(V,E,C)编码为网络表示向量,其编码过程的形式化表示如式(1)所示:
[0024][0025]其中,为编码后的网络表示向量构成的集合,r
i
表示由蛋白质节点v
i
编码得到的网络表示空间中的表示向量,W0和W1是待学习的参数;这里的输入包括两个部分:蛋白质相互作用矩阵E和蛋白质节点特征矩阵C;编码器激活函数由式(2)定义:
[0026][0027]S32、进一步的,使用内积函数作为解码器将网络表示向量集合R解码重构为蛋白质相互作用矩阵解码器定义如式(3)所示:
[0028][0029]其中,δ为内积函数;
[0030]S33、进一步的,分类器用于将蛋白质互作网络中蛋白质节点的网络表示向量划分到相应功能模块当中,将分类器划分后的功能模块结果记为P
*
={P1,P2,

,P
K
},其中,P为蛋白质功能模块,K为功能模块数量,使用多个支持向量机SVM作为分类预测模型,分类器的目标函数如式(4)所示:
[0031][0032]其中,θ和ρ是待确定参数,ξ
i
是第i个蛋白质节点的松弛系数,是惩罚系数,A=0.5是权重,r
i
是蛋白质节点v
i
编码得到的网络表示空间中的表示向量,y
i
是蛋白质节点v
i
的类标记。
[0033]进一步,所述步骤S40包含以下具体步骤:
[0034]S41、为S30建立的蛋白质互作网络功能模块挖掘模型建立式(5)所示的联合目标函数:
[0035]L=L
r
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种蛋白质互作网络功能模块挖掘方法,其特征在于,包括以下步骤:S10、对采集到的蛋白质互作网络数据进行预处理,降低噪声数据对结果的影响;S20、由步骤S10获得的蛋白质互作网络数据,抽取蛋白质特征信息和蛋白质相互作用信息,得到蛋白质互作网络结构;S30、基于步骤S20蛋白质互作网络结构,构建蛋白质互作网络功能模块挖掘模型;S40、基于步骤S30构建的蛋白质互作网络功能模块挖掘模型,对模型进行训练,通过迭代计算,使得模型收敛,确定模型中的待定参数;S50、利用步骤S30构建的蛋白质互作网络功能模块挖掘模型,以及步骤S40确定的模型参数,将蛋白质节点进行分类,得到功能模块挖掘结果并输出。2.根据权利要求1所述的一种蛋白质互作网络功能模块挖掘方法,其特征在于,所述步骤S10包含以下具体步骤:S11、从蛋白质互作数据库中收集人类相关数据,作为实验数据集;S12、利用基因本体论数据分析工具注释蛋白质,为每个蛋白质建立生物过程BP注释短语集合,第i个蛋白质的BP注释集合用D
BP
(i)表示,假设第i个蛋白质被5个BP注释短语注释,则D
BP
(i)={D1,D2,D3,D4,D5},假设第j个蛋白质被4个BP注释短语注释,则D
BP
(j)={D1,D2,D3,D4},从而建立两个蛋白质所包含的注释短语的5
×
4注释短语矩阵;S13、计算蛋白质注释短语矩阵中的每一对短语的语义相似值,用来表示两个蛋白质注释短语之间的相似性SimD
BP
(i,j)=MAX
D1,D2
(

logp(D));S14、取相似性值中最大的一个作为蛋白质之间的相似值;S15、设定阈值,如果蛋白质之间的相似值大于阈值,则认为蛋白质之间存在相互作用,保留蛋白质之间的相互作用数据,否则删除,以此减少蛋白质互作网络数据中的假阳性噪声数据,增加数据的可靠性。3.根据权利要求1所述的一种蛋白质互作网络功能模块挖掘方法,其特征在于,所述步骤S20包括以下具体步骤:S21、根据S10预处理后的蛋白质互作网络数据构建一个蛋白质互作网络模型G(V,E,C),将蛋白质互作网络中的蛋白质抽象为节点,其中V={v1,v2,...,v
N
}表示蛋白质节点集合,N表示蛋白质节点的数量,E=[e
ij
]表示蛋白质节点相互作用矩阵,如果两个蛋白质节点之间存在相互作用,则e
ij
=1,否则e
ij
=0,矩阵C为所有蛋白质节点特征向量矩阵;S22、构建蛋白质互作网络标签矩阵来保存网络的类别信息,将标签矩阵记为B=[b
ij
],标签矩阵定义如下:对于任意两个蛋白质节点v
i
和v
j
,若类别相同b
ij
=1,否则b
ij
=0;如果蛋白质节点v
i
或v
j
的类别未知则b
ij
=0。4.根据权利要求1所述的一种蛋白质互作网络功能模块挖掘方法,其特征在于,所述步骤S30中的蛋白质互作网络功能模块挖掘模型包含编码器、解码器、节点分类器三个部分,编码器用于将蛋白质节点编码得到网络表示向量;解码器用于将编码器得到的网络表示向量解码重构为蛋白质相互作用矩阵;节点分类器用于最后挖掘蛋白质功能模块。5.根据权利要求1所述的一种蛋白质互作网络功能模块挖掘方法,其特征在于,所述步骤S30包含以下步骤:S31、进一步的,使用图卷积网络作为编码器将蛋白质互作网络G(V,E,C)编码为网络表示向量,其编码过程的形式化表示如式(1)所示:
其中,为编码后的网络表示向量构成的集合,r
i
表示由蛋白质节点v
i
编码得到的网络表示空间中的表示向量,W0和W1是待学习的参数;这里的输入包括两个部分:蛋白质相互作用矩阵E和蛋白质节点特征矩阵C;编码器激活函数由式(2)定义:S32、进一步的,使用内积函数作为解码器将网络表示向量集合R解码重构为蛋白质相互作用矩阵解码器定义如式(3)所示:其中,δ为内积函数;S33、进一...

【专利技术属性】
技术研发人员:杜航原郝思聪王文剑
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1