【技术实现步骤摘要】
基于聚类的度量空间数据划分与性能衡量方法及相关组件
[0001]本专利技术涉及度量空间领域,尤其涉及一种基于聚类的度量空间数据划分与性能衡量方法及相关组件。
技术介绍
[0002]随着大数据时代的来临,人们所要处理的数据类型越来越多,为这些不同类型的数据开发不同的处理方法,通常性价都会比较低、维护困难。因此一种性价比较高的方案是开发一种通用的数据管理分析系统,该系统可以将各种类型的数据抽象成统一的一种数据类型,后续的方法设计都可以针对统一的数据类型进行设计和分析。通用的数据管理分析系统通常选取度量空间作为数据的统一抽象,构建树状的度量空间索引,以此达到通用的目的。
[0003]在度量空间划分领域中,VP划分和GH划分是比较常用的数据划分方法,但一般只在均匀数据上表现较好,在面对在支撑点空间中保留了大量的类簇信息的数据集时,VP划分和GH划分在索引树的根节点其划分边界不能很好的适配数据的分布,即划分边界不一定落到数据簇的空隙之间,从而在根节点不能最大程度的提高查询的排除率,因此很难在根节点将这类数据很好的按类别划分开来 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于聚类的度量空间数据划分与性能衡量方法,其特征在于,包括:输入样本数据集、支撑点集合以及划分块数,输出划分后的数据块;输入查询对象、查询半径、每一所述数据块的中心、支撑点集合以及划分块数,输出所述数据块的排除结果;基于多个聚集向量数据集,确定每个所述聚集向量数据集的多个查询半径;将所述划分块数设置为所述聚集向量数据集的类别数目,使用支撑点集合对每一聚集向量数据集进行数据划分,得到每一聚集向量数据集在支撑点空间的划分结果、不同的查询半径下的r
‑
邻域内点的数目以及根节点的平均排除率;将每一聚集向量数据集的所有数据点作为查询点,统计距离计算的次数,根据统计的次数得到划分性能。2.根据权利要求1所述的基于聚类的度量空间数据划分与性能衡量方法,其特征在于,所述输入样本数据集、支撑点集合以及划分块数,输出划分后的数据块,包括:将所述样本数据集的每个样本通过所述支撑点集合映射到支撑点空间中;从映射后的支撑点空间中选择k个样本作为初始的均值向量{μ1,μ2,
…
,μ
k
};计算所述样本数据集中的每个样本到每个初始的均值向量的距离;将所述样本划分到其最近的初始的均值向量所属的类别块中;根据公式更新每个类别块的均值向量,其中x表示类别块中的向量,C
i
表示类别块i,|C
i
|表示属于类别块i的向量的数目;重复计算所述样本数据集中的每个样本到更新后的均值向量的距离,直至均值向量的值不再改变;根据所述样本所属的类别块对样本进行划分并输出划分后的数据块。3.根据权利要求1所述的基于聚类的度量空间数据划分与性能衡量方法,其特征在于,所述输入查询对象、查询半径、每一所述数据块的中心、支撑点集合以及划分块数,输出所述数据块的排除结果,包括:将所述查询对象通过支撑点集合映射到支撑点空间中,得到所述查询对象在支撑点空间中的坐标向量;通过所述坐标向量和查询半径生成查询超立方体的顶点集合N;根据所述顶点集合N计算并得到数据块的排除结果。4.根据权利要求3所述的基于聚类的度量空间数据划分与性能衡量方法,其特征在于,所述根据所述顶点集合N计算并得到数据块的排除结果,包括:初始化标记数组A,长度为划分块数,值为0,表示对应下标的数据块无法被排除;针对所有数据块,每两个数据块为一组,每组判断一次;对于每一组取其第一个数据块的中心为C[1]、第二个数据块的中心为C[2];计算所述第一个数据块的中心C[1]和第二个数据块的中心C[2]的中点向量M;计算向量对于顶点集合N中的每个顶点,计算向量如果存在如果存在则表
技术研发人员:毛睿,刘林锋,陆敏华,王毅,刘刚,陆克中,陈倩婷,
申请(专利权)人:深圳大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。