System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于蛋白质相互作用关系预测的解耦图网络算法制造技术_技高网

一种用于蛋白质相互作用关系预测的解耦图网络算法制造技术

技术编号:40867260 阅读:4 留言:0更新日期:2024-04-08 16:32
本发明专利技术提供了一种蛋白质相互关系预测的解耦图网络算法,涉及蛋白质相互关系预测技术领域,包括如下步骤:构建蛋白质相互作用图,计算在任意一种蛋白质相互关系存在的情况下同时存在另一种相互关系的条件概率以获得条件概率矩阵,对蛋白质节点进行初始词嵌入得到蛋白质向量表征,将蛋白质向量表征分别通过N个多层感知机得到不同蛋白质向量在各个类别的蛋白质向量表征,利用图神经网络在具体类别的蛋白质向量表征上进行更新,将蛋白质对的这N个类别的特征表示进行点积运算得到蛋白质相关关系并用条件概率矩阵进行约束,从而通过边的类别信息做分类预测。本发明专利技术将蛋白质的类别信息解耦出来进行分类预测并用条件概率进行约束,提高了预测的效果。

【技术实现步骤摘要】

本专利技术涉及蛋白质相互作用关系预测,具体涉及一种用于蛋白质相互作用关系预测的解耦图网络算法


技术介绍

1、蛋白质相互作用(ppis,protein-protein interactions)关系预测占据关键地位,其广泛应用包含但不限于工业生产,医疗保健,疾病诊疗,药物设计等。这些领域都涉及蛋白质大分子及其属性,对这些属性进行01预测和多标签预测都至关重要。除了直接的物理结合外,ppis还有许多其他间接的合作和相互调节方式,或共同促进特定的生物体功能,可以说,ppis及其相互作用类型的研究对于理解正常和疾病状态下的细胞生物学过程至关重要,这反过来又有助于治疗靶点的识别和新型药物的设计。

2、多型蛋白—蛋白相互作的研究从系统角度理解生物过程和揭示疾病机制的基础。目前,蛋白质相互作用关系的多标签预测上还存在一定的困难。当在新的数据集中进行测试时,现有的方法性能会显著下降。

3、目前,《learning unknown from correlations:graph neural network forinter-novel-protein interaction prediction》一文公开了一种蛋白质相互作用关系预测的方法,设计了一个新的评估框架,包括蛋白质的随机数据划分起点,即bfs和dfs,并提出了一种基于gnn的方法gnn-ppi来模拟ppis之间的相关性,此种方法能够更好地预测新蛋白间的相互作用。然后,该论文的方法只是将ppis看成图,利用gnn来聚合邻居节点的信息,将所有的蛋白质类别信息糅合在一起,再对蛋白质特征做更新,就直接用于分类预测,无法单独的识别每一个特定的作用关系,没有很好的把融合在一起的标签信息解耦出来,因此,没有达到更好的效果。


技术实现思路

1、为了解决
技术介绍
中提出的问题,进一步提高蛋白质相互作用关系预测的性能,本申请提供一种用于蛋白质相互作用关系预测的解耦图网络算法,包括如下步骤:

2、构建蛋白质相互作用图;

3、遍历数据集,计算在任意一种蛋白质相互关系存在的情况下同时存在另一种相互关系的条件概率,组成n*n的条件概率矩阵,其中,n为蛋白质的相互作用关系类型数;

4、对蛋白质节点进行初始词嵌入得到蛋白质向量表征;

5、将蛋白质向量表征分别通过n个多层感知机得到不同蛋白质向量在各个类别的特征向量表示,从而将蛋白质向量表征中的n个类别信息解耦出来;

6、利用图神经网络在具体类别的蛋白质向量表征上进行更新;

7、通过边索引提取边对应两端更新后的两个蛋白质节点的n个类别的蛋白质向量表征,分别将两个蛋白质对这n个类别的蛋白质向量表征进行点积运算得到蛋白质相关关系并用条件概率矩阵进行约束,从而通过边的类别信息做分类预测。

8、具体地,所述对蛋白质节点进行初始词嵌入得到蛋白质向量表征包括:

9、对蛋白质节点进行词嵌入编码,得到第一蛋白质向量表征;对第一蛋白质向量表征通过独立编码模块进行编码得到第二蛋白质向量表征,将第二蛋白质向量表征作为此步骤最终得到的蛋白质向量表征。

10、优选地,所述独立编码模块包括第一卷积层、归一化层、第一池化层、lstm层、第二池化层和全连接层。

11、具体地,所述利用图神经网络在具体类别的蛋白质向量表征上进行更新具体为,对n种不同类别的特征向量表示分别通过gin进行卷积操作,根据蛋白质相互作用图,聚合邻居蛋白质节点的信息,再更新不同蛋白质节点的n个类别的特征表示。

12、具体地,所述再更新不同蛋白质节点的n个类别的特征表示具体为,将特征表示输入到第一线性层中,再分别经过relu层、dropout层和第二线性层。

13、具体地,所述通过边索引提取边对应两端更新后的两个蛋白质节点的n个类别的蛋白质向量表征,分别将两个蛋白质对这n个类别的蛋白质向量表征进行点积运算得到蛋白质相关关系并用条件概率矩阵进行约束,从而通过边的类别信息做分类预测具体为:通过边索引提取对应两端更新后的两个蛋白质节点的n个类别的特征表示;分别将两个蛋白质这n个类别的特征表示进行点积运算后再进行线性变换得到n个融合后的特征;将n个融合后的特征进行拼接后输入fc层进行特征压缩,降维后的结果与n*n条件概率矩阵相乘,获得预测结果。

14、优选地,所述算法对应模型的损失函数为交叉熵损失,公式如下:

15、

16、其中,xtrain表示训练集,表示蛋白质对xij的相互作用关系的预测结果。

17、优选地,所述算法在训练过程和测试过程中,对数据集的划分采用随机划分、深度优先划分或广度优先划分中的任意一种方式。

18、同时,本专利技术还公开一种用于蛋白质相互作用关系预测的解耦图网络系统,包括:

19、蛋白质相互作用图构建模块,用于将数据集中的蛋白质对构建成图,其中,图的节点为蛋白质,图的边为蛋白质对的相互作用关系;

20、条件概率矩阵计算模块,用于遍历数据集获得条件概率矩阵,条件概率据则很难为在任意一种蛋白质相互关系存在的情况下同时存在另一种相互关系的条件概率;其中,n为蛋白质的相互作用关系类型数;

21、词嵌入模块,用于对蛋白质节点进行初始词嵌入得到蛋白质向量表征;

22、解耦模块,用于将蛋白质向量表征分别通过n个多层感知机得到不同蛋白质向量在各个类别的特征向量表示,从而将蛋白质向量表征中的n个类别信息解耦出来;

23、蛋白质向量表征更新模块,用于通过图神经网络在具体类别的蛋白质向量表征上进行更新;

24、预测模块,用于通过边索引提取边对应两端更新后的两个蛋白质节点的n个类别的蛋白质向量表征,分别将两个蛋白质对这n个类别的蛋白质向量表征进行点积运算得到蛋白质相关关系并用条件概率矩阵进行约束,从而通过边的类别信息做分类预测。

25、进一步地,本专利技术还公开一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的用于蛋白质相互作用关系预测的解耦图网络算法。

26、进一步地,本专利技术还公开一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的用于蛋白质相互作用关系预测的解耦图网络算法。

27、采用上述方案后,本专利技术的有益效果在于:

28、(1)本专利技术的方法能够单独的识别每一个特定类别的作用关系,将融合在一起的信息解耦出来,通过解耦实现对蛋白质信息的独特类别表征,增强类别之间的的相关性,再利用n*n的条件概率矩阵的先验信息去约束蛋白质相互关系。因此,采用本专利技术的方法后效果比现有技术取得的效果更好。

29、(2)由于蛋白质序列之间存在序列相关性,本专利技术在编码模块中加入了lstm模块,通过lstm的序列化表征来提取蛋白质序列之间的关系,能够提高预测准确性。<本文档来自技高网...

【技术保护点】

1.一种用于蛋白质相互作用关系预测的解耦图网络算法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种用于蛋白质相互作用关系预测的解耦图网络算法,其特征在于:所述对蛋白质节点进行初始词嵌入得到蛋白质向量表征包括:

3.根据权利要求2所述的一种用于蛋白质相互作用关系预测的解耦图网络算法,其特征在于,所述独立编码模块包括第一卷积层、归一化层、第一池化层、LSTM层、第二池化层和全连接层。

4.根据权利要求1所述的一种用于蛋白质相互作用关系预测的解耦图网络算法,其特征在于,所述利用图神经网络在具体类别的蛋白质向量表征上进行更新具体为,

5.根据权利要求4所述的一种用于蛋白质相互作用关系预测的解耦图网络算法,所述再更新不同蛋白质节点的N个类别的特征表示具体为,将特征表示输入到第一线性层中,再分别经过Relu层、Dropout层和第二线性层。

6.根据权利要求1所述的一种用于蛋白质相互作用关系预测的解耦图网络算法,其特征在于,所述通过边索引提取边对应两端更新后的两个蛋白质节点的N个类别的蛋白质向量表征,分别将两个蛋白质对这N个类别的蛋白质向量表征进行点积运算得到蛋白质相关关系并用条件概率矩阵进行约束,从而通过边的类别信息做分类预测具体为,

7.根据权利要求1所述的一种用于蛋白质相互作用关系预测的解耦图网络算法,其特征在于,所述算法对应模型的损失函数为交叉熵损失,公式如下:

8.根据权利要求1所述的一种用于蛋白质相互作用关系预测的解耦图网络算法,其特征在于,所述算法在训练过程和测试过程中,对数据集的划分采用随机划分、深度优先划分或广度优先划分中的任意一种方式。

9.一种用于蛋白质相互作用关系预测的解耦图网络系统,其特征在于,包括:

10.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的用于蛋白质相互作用关系预测的解耦图网络算法。

...

【技术特征摘要】

1.一种用于蛋白质相互作用关系预测的解耦图网络算法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种用于蛋白质相互作用关系预测的解耦图网络算法,其特征在于:所述对蛋白质节点进行初始词嵌入得到蛋白质向量表征包括:

3.根据权利要求2所述的一种用于蛋白质相互作用关系预测的解耦图网络算法,其特征在于,所述独立编码模块包括第一卷积层、归一化层、第一池化层、lstm层、第二池化层和全连接层。

4.根据权利要求1所述的一种用于蛋白质相互作用关系预测的解耦图网络算法,其特征在于,所述利用图神经网络在具体类别的蛋白质向量表征上进行更新具体为,

5.根据权利要求4所述的一种用于蛋白质相互作用关系预测的解耦图网络算法,所述再更新不同蛋白质节点的n个类别的特征表示具体为,将特征表示输入到第一线性层中,再分别经过relu层、dropout层和第二线性层。

6.根据权利要求1所述的一种用于蛋白质相互作用关系预测的解耦图网络算法,其特...

【专利技术属性】
技术研发人员:李平李翊付鑫李雅杰王泓淏张洪瑞周静沈雅文朱鑫鹏
申请(专利权)人:西南石油大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1