基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统技术方案

技术编号：30324706 阅读：25 留言：0更新日期：2021-10-10 00:02

本发明专利技术提出了一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统，包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块，通过综合考量蛋白质相互作用网络中蛋白质间的相互作用关系和蛋白质间的基因本体语义相似性来实现蛋白质复合物识别。本发明专利技术直接作用于蛋白质相互作用网络，能够识别网络中的可重叠蛋白质复合物，效果准确度高，能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。互作用网络中的蛋白质复合物识别问题。互作用网络中的蛋白质复合物识别问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统

[0001]本专利技术涉及计算机数据处理
和计算生物学领域，特别涉及基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统。

技术介绍

[0002]目前，现有的蛋白质复合物识别方法主要是基于蛋白质相互作用网络中的拓扑结构来完成复合物识别工作，即根据网络中蛋白质之间是否存在相互作用，来识别出具有某些特定结构的簇作为蛋白质复合物。描述蛋白质复合物拓扑特性的典型结构包括稠密结构、 k
‑
cliques结构和核心附着结构。然而，仅基于特定拓扑结构的蛋白质复合物识别方法忽视了蛋白质相互作用网络中与蛋白质相关联的大量的基因本体语义信息，这些信息从三个方面描述了蛋白质的功能，即分子功能、细胞组分和生物过程。对基因本体信息的忽视会使得更具有生物学意义的蛋白质复合物无法被发现。此外，一些已知的蛋白质复合物是彼此重叠的，如果不能考虑蛋白质复合物间的重叠性，则所识别出的蛋白质复合物在准确性方面可能会有所不足。
[0003]尽管目前已经提出了一些考虑蛋白质语义信息的蛋白质复合物识别方法，但它们均未考虑基因本体语义信息中所固有的完整有向无环图关系，因此所识别的蛋白质复合物在准确性上表现欠佳。

技术实现思路

[0004]本专利技术的目的在于，针对现有技术中的缺陷和不足，提供一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统，包括网络构建模块、数据预处理模块、参数定义模块、模型...

【技术保护点】

【技术特征摘要】
1.一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法，其特征在于按下列步骤进行：a、对蛋白质相互作用数据和蛋白质基因本体语义信息构建成带有属性的蛋白质相互作用网络，其中包括：将蛋白质抽象为网络中的节点，蛋白质间若存在相互作用，则相应节点间存在边，并在此基础上统计与蛋白质相关的基因本体信息，获得包括所有节点构成的集合、节点之间边构成的集合以及与节点相关联的所有基因本体信息的集合；b、根据步骤a所构建网络的拓扑信息，计算并获得网络所对应的邻接矩阵；c、应用一种集成的基因本体语义相似性度量方法，计算蛋白质间的基因本体语义相似性，构建蛋白质的语义相似性矩阵；d、初始化蛋白质复合物数量，初始化蛋白质复合物集合，并随机初始化蛋白质与复合物之间的隶属度矩阵；e、初始化模型参数和蛋白质复合物重叠程度参数，基于步骤b所得节点的邻接矩阵、步骤c所得语义相似性矩阵和步骤d所得隶属度矩阵，构建关于隶属度矩阵的目标函数；f、求解步骤e所得目标函数的最优解，即最佳的隶属度矩阵；g、根据步骤f所得最佳的隶属度矩阵，结合步骤e所得蛋白质复合物重叠程度参数，将每个蛋白质划分到某个或某几个蛋白质复合物中，最后剔除空的...

【专利技术属性】
技术研发人员：胡伦，潘翔宇，周喜，蒋同海，苏小芮，
申请(专利权)人：中国科学院新疆理化技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人