基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统技术方案

技术编号:30324706 阅读:25 留言:0更新日期:2021-10-10 00:02
本发明专利技术提出了一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统,包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块,通过综合考量蛋白质相互作用网络中蛋白质间的相互作用关系和蛋白质间的基因本体语义相似性来实现蛋白质复合物识别。本发明专利技术直接作用于蛋白质相互作用网络,能够识别网络中的可重叠蛋白质复合物,效果准确度高,能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。互作用网络中的蛋白质复合物识别问题。互作用网络中的蛋白质复合物识别问题。

【技术实现步骤摘要】
基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统


[0001]本专利技术涉及计算机数据处理
和计算生物学领域,特别涉及基于模糊聚类和基 因本体语义相似性的可重叠蛋白质复合物识别方法和系统。

技术介绍

[0002]目前,现有的蛋白质复合物识别方法主要是基于蛋白质相互作用网络中的拓扑结构来 完成复合物识别工作,即根据网络中蛋白质之间是否存在相互作用,来识别出具有某些特 定结构的簇作为蛋白质复合物。描述蛋白质复合物拓扑特性的典型结构包括稠密结构、 k

cliques结构和核心附着结构。然而,仅基于特定拓扑结构的蛋白质复合物识别方法忽 视了蛋白质相互作用网络中与蛋白质相关联的大量的基因本体语义信息,这些信息从三个 方面描述了蛋白质的功能,即分子功能、细胞组分和生物过程。对基因本体信息的忽视会 使得更具有生物学意义的蛋白质复合物无法被发现。此外,一些已知的蛋白质复合物是彼 此重叠的,如果不能考虑蛋白质复合物间的重叠性,则所识别出的蛋白质复合物在准确性 方面可能会有所不足。
[0003]尽管目前已经提出了一些考虑蛋白质语义信息的蛋白质复合物识别方法,但它们均未 考虑基因本体语义信息中所固有的完整有向无环图关系,因此所识别的蛋白质复合物在准 确性上表现欠佳。

技术实现思路

[0004]本专利技术的目的在于,针对现有技术中的缺陷和不足,提供一种基于模糊聚类和基因本 体语义相似性的可重叠蛋白质复合物识别方法和系统,包括网络构建模块、数据预处理模 块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示 模块,通过综合考量蛋白质相互作用网络中蛋白质间的相互作用关系和蛋白质间的基因本 体语义相似性来实现蛋白质复合物识别。本专利技术直接作用于蛋白质相互作用网络,能够识 别网络中的可重叠蛋白质复合物,效果准确度高,能够有效解决蛋白质相互作用网络中的 蛋白质复合物识别问题。
[0005]本专利技术所述的基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法, 按下列步骤进行:
[0006]a、对蛋白质相互作用数据和蛋白质基因本体语义信息构建成带有属性的蛋白质相互 作用网络,其中包括:将蛋白质抽象为网络中的节点,蛋白质间若存在相互作用,则相应 节点间存在边,并在此基础上统计与蛋白质相关基因本体信息,获得包括所有节点构成的 集合、节点之间边构成的集合以及与节点相关联的所有基因本体信息的集合;
[0007]b、根据步骤a所构建网络的拓扑信息,计算并获得网络所对应的邻接矩阵;
[0008]c、应用一种集成的基因本体语义相似性度量方法来计算蛋白质间的基因本体语义相 似性,构建出蛋白质的语义相似性矩阵;
[0009]d、初始化蛋白质复合物数量,初始化蛋白质复合物集合,并随机初始化蛋白质与复 合物之间的隶属度矩阵;
[0010]e、初始化模型参数和蛋白质复合物重叠程度参数,基于步骤b所得节点的邻接矩阵、 步骤c所得语义相似性矩阵和步骤d所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
[0011]f、求解步骤e所得目标函数的最优解,即最佳的隶属度矩阵;
[0012]g、根据步骤f所得最佳的隶属度矩阵,结合步骤e所得蛋白质复合物重叠程度参数, 将每个蛋白质划分到某个或某几个蛋白质复合物中,最后剔除空的蛋白质复合物,余下的 复合物即为识别出的蛋白质复合物。
[0013]一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别系统,该系统是 由网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白 质复合物识别模块和结果展示模块组成,其中:
[0014]网络构建模块:将包含了蛋白质相互作用信息和蛋白质基因本体语义信息构建成为一 个带属性的蛋白质相互作用网络;
[0015]数据预处理模块:根据结果展示模块中得到的网络进行数据预处理,获得蛋白质的邻 接矩阵和蛋白质的语义相似性矩阵;
[0016]参数定义模块:定义并初始化模型参数,初始化蛋白质复合物重叠程度参数,初始化 蛋白质复合物数量,初始化蛋白质对于复合物的隶属度矩阵;
[0017]模型构建模块:根据模型参数和数据预处理模块得到的邻接矩阵、语义相似性矩阵和 参数定义模块所得隶属度矩阵,构建关于隶属度矩阵的目标函数;
[0018]模型求解模块:对模型构建模块中所得目标函数进行求解,获得最佳的隶属度矩阵;
[0019]蛋白质复合物识别模块:根据模型求解模块所得的最佳的隶属度矩阵和参数定义模块 初始化的蛋白质复合物重叠程度参数,进行蛋白质复合物识别;
[0020]结果展示模块:将蛋白质复合物识别模块识别出的蛋白质复合物进行输出。
[0021]本专利技术所述的一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方 法和系统,包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求 解模块、蛋白质复合物识别模块以及结果展示模块,其中,所述网络构建模块将蛋白质相 互作用数据构建为蛋白质相互作用网络,数据预处理模块执行服务器计算指令,获得该网 络的邻接矩阵和语义相似性矩阵,参数定义模块定义模型参数和蛋白质复合物重叠程度参 数,构建并初始化隶属度矩阵,模型构建模块获取模型参数后在服务器构建关于隶属度矩 阵的目标函数,模型求解模块在得到模型构建模块构建完成的指令后开始对目标函数进行 迭代求解,计算获得最优的隶属度矩阵,蛋白质复合物识别模块在得到最优的隶属度矩阵 后执行蛋白质复合物识别指令,最后将识别结果通过结果展示模块进行输出展示。本专利技术 直接作用于蛋白质相互作用网络,能够识别网络中的可重叠蛋白质复合物,效果准确度高, 能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。
[0022]与现有技术相比,本专利技术具有以下有益的技术效果:
[0023]本专利技术所述的一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别 方法和系统,在算法设计过程中,考虑了网络的拓扑结构和蛋白质的基因本体语义信
息来 完成复合物识别任务,通过构建模糊聚类模型,将复合物识别问题转化为最优化问题来提 高蛋白质复合物识别的准确性。以解决现有技术在蛋白质相互作用网络中识别复合物时的 缺陷:
[0024]本专利技术所述的一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别 方法和系统,该系统功能主要由以下七个部分组成:网络构建模块、数据预处理模块、参 数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块。 首先,网络构建模块将蛋白质相互作用数据和蛋白质基因本体语义信息构建成为一个带属 性的蛋白质相互作用网络。其次,数据预处理模块对得到的属性网络进行预处理,获得邻 接矩阵和语义相似性矩阵。随后参数定义模块定义要识别的蛋白质复合物数量和隶属度矩 阵,并初始化模型参数和蛋白质复合物重叠程度参数。然后,模型构建模块构建成一个关 于隶属度矩阵的目标函数。接着,模型求解模块利用广义动量法和不动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法,其特征在于按下列步骤进行:a、对蛋白质相互作用数据和蛋白质基因本体语义信息构建成带有属性的蛋白质相互作用网络,其中包括:将蛋白质抽象为网络中的节点,蛋白质间若存在相互作用,则相应节点间存在边,并在此基础上统计与蛋白质相关的基因本体信息,获得包括所有节点构成的集合、节点之间边构成的集合以及与节点相关联的所有基因本体信息的集合;b、根据步骤a所构建网络的拓扑信息,计算并获得网络所对应的邻接矩阵;c、应用一种集成的基因本体语义相似性度量方法,计算蛋白质间的基因本体语义相似性,构建蛋白质的语义相似性矩阵;d、初始化蛋白质复合物数量,初始化蛋白质复合物集合,并随机初始化蛋白质与复合物之间的隶属度矩阵;e、初始化模型参数和蛋白质复合物重叠程度参数,基于步骤b所得节点的邻接矩阵、步骤c所得语义相似性矩阵和步骤d所得隶属度矩阵,构建关于隶属度矩阵的目标函数;f、求解步骤e所得目标函数的最优解,即最佳的隶属度矩阵;g、根据步骤f所得最佳的隶属度矩阵,结合步骤e所得蛋白质复合物重叠程度参数,将每个蛋白质划分到某个或某几个蛋白质复合物中,最后剔除空的...

【专利技术属性】
技术研发人员:胡伦潘翔宇周喜蒋同海苏小芮
申请(专利权)人:中国科学院新疆理化技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1