【技术实现步骤摘要】
一种基于时序密度聚类的大规模数据群组搜索方法
本专利技术属于信息检索领域,更具体地,涉及一种基于时序密度聚类的大规模数据群组搜索方法。
技术介绍
高性能计算的能耗问题是我国推广大规模超算应用的主要瓶颈之一,高能物理作业计算量巨大,然而目前对批量到达任务尚无有效的解决策略。给定一些节点并根据它们属性的相似性归为群组(也称为簇)的方法称为聚类算法。现阶段的聚类方法可分为:基于划分的聚类方法(如K-MEANS算法)、基于层次的聚类方法(如BIRCH算法)、基于密度的聚类方法(如DBSCAN算法)。其中,基于密度的聚类方法可以克服其他聚类方法只能发现“类圆形”群组的缺点。目前,基于密度的聚类方法(如DBSCAN算法)在生活上的应用非常广泛,比如神经科学、天文学等。然而,近年来社交网络的规模不断扩张,移动应用APP(如微博)的节点数达到数十亿。面对大规模的复杂数据,已有的群组搜索方法开始出现了一系列的计算瓶颈。影响现有的基于密度的聚类方法的性能指标主要有两个:第一个是执行所有节点的范围查询的时间,其与节点的个数成正比;第二个是群组标签的传播时间,其主要受到度量距离的影响。针 ...
【技术保护点】
1.一种基于时序密度聚类的大规模数据群组搜索方法,其特征在于,包括以下步骤:S1:根据给定的节点,定义节点的三种初始状态和原始簇;所述的初始状态包括初始态、未执行态、已执行态;所述的原始簇是已执行的核心点和已执行的核心点的已知的密度相连的邻居节点的集合;S2:根据原始簇的相互关系,构建出原始簇之间的聚类图,定义不同原始簇的代表之间连通程度为state(a,b),所述的state(a,b)包括三种状态:强连通,弱连通,无连通;所述的a,b均为各自原始簇的代表;S3:根据不同原始簇的代表之间连通程度,找到强连通的分量并进行合并;S4:在合并后的原始簇的节点中选择执行范围查询的节 ...
【技术特征摘要】
1.一种基于时序密度聚类的大规模数据群组搜索方法,其特征在于,包括以下步骤:S1:根据给定的节点,定义节点的三种初始状态和原始簇;所述的初始状态包括初始态、未执行态、已执行态;所述的原始簇是已执行的核心点和已执行的核心点的已知的密度相连的邻居节点的集合;S2:根据原始簇的相互关系,构建出原始簇之间的聚类图,定义不同原始簇的代表之间连通程度为state(a,b),所述的state(a,b)包括三种状态:强连通,弱连通,无连通;所述的a,b均为各自原始簇的代表;S3:根据不同原始簇的代表之间连通程度,找到强连通的分量并进行合并;S4:在合并后的原始簇的节点中选择执行范围查询的节点;S5:执行选择的节点且更新聚类图;S6:对S1中的噪声点进行复核,输出复核的噪声点和聚类好的簇。2.根据权利要求1所述的大规模数据群组搜索方法,其特征在于,所述的S1包括以下内容:通过随机选择初始态的节点执行范围查询,内容如下:若选择的节点的邻居节点数少于μ,则选择的节点被标记为已执行过的噪声点并存入噪声序列L中;若选择的节点邻居节点数少于μ,则选择的节点会被标记为已执行过的核心点,处于选择的节点邻域内的其他节点标记为未执行的边界点,且核心点邻域内的其他节点中若存在已执行过的噪声点,则噪声点更新为已执行过的边界点;上述过程不停执行直至所有的初始态的节点都被完成范围查询的操作。3.根据权利要求1或2所述的大规模数据群组搜索方法,其特征在于,所述的S2包括以下内容:所述的强连通为原始簇a与原始簇b密度相连;所述的弱连通态为原始簇a与原始簇b中结点集存在交集;其余状态定义为原始簇a与原始簇b无连通关系。4.根据权利要求3所述的大规模数据群组搜索方法,其特征在于,所述的S3包括以下...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。