【技术实现步骤摘要】
一种用于大规模超图的聚类方法
[0001]本专利技术提出了一种在具有百万甚至千万节点的大规模超图上进行聚类的算法,具体涉及一种名为HyperLocal的半监督超图聚类算法,并在该方法上进行优化和衍生,而得到的新方法。
技术介绍
[0002]在机器学习问题中,我们通常假设我们感兴趣的对象之间存在成对关系。具有成对关系的对象集可以自然地表示为一个图,其中顶点表示对象,具有某种关系的任意两个顶点通过一条边连接在一起。图可以是无向的或有向的。这取决于对象之间的成对关系是否对称。
[0003]然而,在普通图中,一条边只能连接两个点,因此在许多实际问题中,将一组复杂的关系对象表示为无向图或有向图是不完整的。由此,将一组顶点与一条超边相连而成所组成的超图,是普通图的推广。与两个节点通过一条边连接的普通图不同,每个超边可以和任意数量的节点相连接。超图中每条边的度可能比普通图中边的度要高很多,因为在普通图当中每条边的度只能为2.因此,超图在建模实际数据的相关性当中有着显著的优势,而实际数据的相关性可能比成对关系复杂得多。而超图正好能够 ...
【技术保护点】
【技术特征摘要】
1.一种用于大规模超图的聚类方法,其特征在于,包括步骤如下:步骤一:首先输入大规模超图中现有的带标签的节点,然后将这些节点看成一个节点集,称为种子集Rs;步骤二:搜寻整个全局超图中所有与该种子集有连接的节点,称其为单跳节点,也就是已知种子集的邻居节点N(Rs);步骤三:对所获得的所有单跳节点进行筛选得到参考集R;步骤四:将参考集R和其邻居节点N(R)视作局部超图,并将该局部超图转化成带源节点s和汇聚节点t的局部有向图;步骤五:在加入s、t节点的有向图上解决最大流最小割问题,从而得到一个切割后的子集S即节点集S,定义一个优化聚类目标的损失函数HLC;步骤六:比较HLC
R
(S)与HLC
R
(R),若前者更小,则将γ=HLC
R
(S)代入步骤四,并重复执行步骤四、五、六,直到本轮得到的节点集S的HLC比上一轮得到的节点集S的HLC大;则输出前一轮得到的使HLC最小的节点集S,即为最后所得的结果。2.根据权利要求1所述的.一种用于大规模超图的聚类方法,其特征在于,步骤三具体方法如下;(1)计算所有Rs的单跳节点与种子集连接的超边个数d1,以及所有单跳节点与种子集以外的所有点的超边个数d2;(2)得到单跳节点中每个点的d1/d2之比,再将所有单跳节点根据这个比值进行排序;(3)选取比值最大的节点v,并将其并入种子集Rs中,然后计算加入之后整个节点集的电导:(4)若加入的节点使原来的节点集的电导...
【专利技术属性】
技术研发人员:薛轶天,钟昊,颜成钢,高宇涵,陈楚翘,王鸿奎,胡冀,孙垚棋,朱尊杰,殷海兵,张继勇,李宗鹏,赵治栋,
申请(专利权)人:杭电丽水研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。