当前位置: 首页 > 专利查询>南开大学专利>正文

一种对异质网络中的节点进行聚类的方法技术

技术编号:14568363 阅读:121 留言:0更新日期:2017-02-06 02:01
本发明专利技术公开了一种对异质网络中的节点进行聚类的方法,该聚类方法属于数据挖掘、生物信息领域,该聚类方法包括以下步骤:根据异质节点间的关联关系数据,构建相邻两层节点间关联矩阵;对于具有层次结构的节点,根据节点间的层次关联关系,构建不同层次的节点内层次关联矩阵;以节点间关联矩阵和节点内层次关联矩阵作为输入,构建一致性多非负矩阵分解模型,并进行优化,得到节点聚类矩阵;对节点聚类矩阵进行归一化处理,若节点与簇的相关性大于给定阈值,则认为该节点属于该簇,完成对节点的聚类。本发明专利技术实现了对异质节点间多层关联关系和节点内层次关联关系进行建模,达到了很好的节点聚类效果。

【技术实现步骤摘要】

本专利技术涉及数据挖掘、生物信息领域,为一种基于一致性多非负矩阵分解的聚类方法。技术背景近些年来,异质网络的研究得到了广泛的关注,在协同聚类、推荐系统等应用中得到广泛应用。图1为异质网络中节点间关联关系示意图。图中包含两种类型的节点,分别用方形和圆圈表示在这两类节点间存在一些已知的关联关系(如在商品推荐中,某个用户购买了某种商品;在生物信息领域中,某种基因导致了某种表型的出现)。在实际应用中,其中一类节点内部可能存在层次关系的特征(如音乐推荐中唱片和单曲之间存在层次关系,一张唱片同时包含多个单曲;生物信息中的表型本体间存在层次隶属关系),如图2所示,在圆圈代表的一类节点类型中,节点间可以细化分为多个层次,而这些节点分布在不同的层次上。这种层次结构关系为人们研究异质节点间的关系提供了重要信息。表型本体是用统一的结构化、层次化的专业术语描述表型间的关系,由于其用词统一、结构关系清楚的特点,近些年来本体描述在生物信息领域受到了广泛的关注,并为使用计算机方法解决生物信息问题,提供了新的思路。位于不同层次上的表型以不同的粒度描述了表型的特性,表型本体间的层次关联关系为研究生物信息问题提供了重要信息。专利技术人在实现本专利技术的过程中,发现现有技术中至少存在以下缺点和不足:现有技术中在对异质网络中的节点进行聚类过程中无法对包含层次信息的节点按层次关系进行细分,一种方式是只抽取其中某一层的节点,这种方式无法充分利用已知的关联信息;另一种是将在所有在不同层次上的节点看作在同一层上,这种方式忽略了不同层次中节点间描述粒度存在差异的事实。以上两种方法都不能充分的利用异质节点间的关联关系或节点内部的层次关联关系。
技术实现思路
为了解决现有技术不能充分利用异质节点间的关联关系和节点内部的层次关联关系的不足,本专利技术主要目的在于提供了一种基于多层异质节点关联矩阵的一致性多非负矩阵分解的节点聚类方法,本专利技术实现了对异质节点间多层关联关系和节点内层次关联关系进行建模,达到了很好的节点聚类效果,详见下文描述:一种基于一致性多非负矩阵分解的聚类方法,所述聚类方法包括以下步骤:根据异质节点间的关联关系数据,构建相邻两层节点间关联矩阵;对于具有层次结构的节点,根据节点间的层次关联关系,构建不同层次的节点内层次关联矩阵;以节点间关联矩阵和节点内层次关联矩阵作为输入,构建一致性多非负矩阵分解模型,并进行优化,得到节点聚类矩阵;对节点聚类矩阵进行归一化处理,若节点与簇的相关性大于给定阈值,则认为该节点属于该簇,完成对节点的聚类。其中,所述一致性多非负矩阵分解模型由多矩阵一致性分解损失项、表型本体间层次约束项、稀疏约束和非负约束四部分组成。进一步地,所述多矩阵一致性分解损失项为:用于约束在两个节点间关联矩阵上同时进行矩阵分解,在分解得到的聚类相同的情况下,保持分解前后损失尽可能的小。进一步地,所述表型本体间层次约束项为:用于约束分解后得到的表型特征矩阵,对于具有父子关系的表型本体之间的相似性尽可能的大。进一步地,所述稀疏约束为:用于控制复杂程度。进一步地,所述非负约束为:用于提高模型的泛化能力和可解释性。其中,所述聚类方法用于基因功能模块的挖掘。本专利技术提供的技术方案有益效果是:本专利技术可以充分利用异质节点间的关联关系和节点内层次关系进行节点聚类。通过同时对一类节点与另一类节点中的两层节点的关联矩阵同时进行非负矩阵分解,约束两个分解项中的节点聚类结果保持一致,并约束对于具有层次关系的节点分解得到的节点特征,对于具有父子关系的节点对特征要尽可能的相似,进而间接约束异质节点的聚类结果。本专利技术所使用的方法可以充分利用已知的关联信息,并充分利用原始数据中存在的层次结构信息,通过该方法可以有效的挖掘节点间的关系,进行节点聚类。该方法适合于包含层次结构的应用,具有一定的扩展性。附图说明图1为异质网络中节点间关联关系示意图;图2为异质网络中其中一类节点内带有层次关系的异质节点关联关系示意图;图3为一种基于一致性多非负矩阵分解的聚类方法的流程图;图4为一致性多非负矩阵分解模型的示意图;图5为基于一致性多非负矩阵分解的聚类方法用于挖掘基因功能模块的流程图具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。实施例1一种基于一致性多非负矩阵分解的聚类方法,参见图3,该聚类方法包括以下步骤:101:根据异质节点间的关联关系数据,分别构建一类节点与另一类节点相邻两层节点的关联矩阵;102:对于具有层次结构的节点,根据节点间的层次关联关系,构建不同层次的节点间的层次关联矩阵;103:以节点间关联矩阵和节点内层次关联矩阵作为输入,构建一致性多非负矩阵分解模型,并进行优化,得到节点聚类矩阵;104:对节点聚类矩阵进行归一化处理,若节点与簇的相关性大于给定阈值,则认为该节点属于该簇,完成对节点的聚类。其中,一致性多非负矩阵分解模型由多矩阵一致性分解损失项、表型本体间层次约束项、稀疏约束和非负约束四部分组成。进一步地,多矩阵一致性分解损失项为:用于约束在两个关联矩阵上同时进行矩阵分解,在分解得到的聚类相同的情况下,保持分解前后损失尽可能的小。进一步地,表型本体间层次约束项为:用于约束分解后得到的表型特征矩阵,对于具有父子关系的表型本体之间的相似性尽可能的大。进一步地,稀疏约束为:用于控制复杂程度。进一步地,非负约束为:用于提高模型的泛化能力和可解释性。其中,聚类方法用于基因功能模块的挖掘。综上所述,本专利技术实施例通过上述步骤101-步骤104实现了对异质节点间多层关联关系和节点内层次关联关系进行建模,达到了很好的节点聚类效果。实施例2下面以挖掘基因功能模块为例,结合具体的计算公式以及图4、图5对实施例1中的方案进行详细介绍,详见下文描述:201:根据基因和表型本体间的关联关系数据,构建基因-表型本体关联矩阵;根据表型本体层次间的关联关系,构建不同层次的表型本体间的层次关联矩阵;202:以步骤201中的基因-表型本体关联矩阵、表型本体间的层次关联矩阵作为输入,构建一致性多非负矩阵分解模型,并进行优化,得到基因聚类矩阵;203:对基因聚类矩阵进行归一化处理,若某个基因与特定簇的关系值大于特定阈值,则认为该基因属于该簇,每一簇中的一组基因构成一个基因功能模块。其中,步骤201中定义的基因-表型本体关联矩阵定义如本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105512511.html" title="一种对异质网络中的节点进行聚类的方法原文来自X技术">对异质网络中的节点进行聚类的方法</a>

【技术保护点】
一种基于一致性多非负矩阵分解的聚类方法,其特征在于,所述聚类方法包括以下步骤:根据异质节点间的关联关系数据,构建相邻两层节点间关联矩阵;对于具有层次结构的节点,根据节点间的层次关联关系,构建不同层次的节点内层次关联矩阵;以节点间关联矩阵和节点内层次关联矩阵作为输入,构建一致性多非负矩阵分解模型,并进行优化,得到节点聚类矩阵;对节点聚类矩阵进行归一化处理,若节点与簇的相关性大于给定阈值,则认为该节点属于该簇,完成对节点的聚类。

【技术特征摘要】
1.一种基于一致性多非负矩阵分解的聚类方法,其特征在于,所述聚类方法包括以
下步骤:
根据异质节点间的关联关系数据,构建相邻两层节点间关联矩阵;
对于具有层次结构的节点,根据节点间的层次关联关系,构建不同层次的节点内层次
关联矩阵;
以节点间关联矩阵和节点内层次关联矩阵作为输入,构建一致性多非负矩阵分解模型,
并进行优化,得到节点聚类矩阵;
对节点聚类矩阵进行归一化处理,若节点与簇的相关性大于给定阈值,则认为该节点
属于该簇,完成对节点的聚类。
2.根据权利要求1所述的一种基于一致性多非负矩阵分解的聚类方法,其特征在于,
所述一致性多非负矩阵分解模型由多矩阵一致性分解损失项、表型本体间层次约束项、稀
疏约束和非负约束四部分组成。
3.根据权利要求2所述的一种基于一致性多非负矩阵分解的聚类方法,其特征在于,
...

【专利技术属性】
技术研发人员:谢茂强徐英杰张耀功韩芳宇黄亚楼刘杰何志成
申请(专利权)人:南开大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1