【技术实现步骤摘要】
一种应用于数据仓库的聚类方法、装置、设备和存储介质
[0001]本专利技术实施例涉及数据分析处理技术,尤其涉及一种应用于数据仓库的聚类方法、装置、设备和存储介质。
技术介绍
[0002]在数据仓库中自动化计算数据模型(数据仓库的表)是否能关联或自动化计算字段间是否能关联,都需要预先将数据模型对应的字段作聚类,再在同类别中计算字段是否能进行关联,可以大大缩减计算量。
[0003]在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]由于字段数据的特殊性,往往相似的字段间聚类容易出现以下几个问题:聚类大小不一,指不同的类别间数据量大小不一;聚类形状非凸,指每个类别的形状不全是凸型的,可能是凹形的形状;聚类密度不均,指不同的类别间的密度差别较大。上述问题会使得聚类结果的准确性大大降低。
技术实现思路
[0005]本专利技术实施例提供了一种应用于数据仓库的聚类方法、装置、设备和存储介质,以提高字段聚类的准确性。
[0006]第一方面,本专利技术实施例提供了一种应用于 ...
【技术保护点】
【技术特征摘要】
1.一种应用于数据仓库的聚类方法,其特征在于,包括:获取数据仓库中的各字段;确定各所述字段在向量空间的局部密度,根据所述局部密度确定各所述字段中作为簇中心点的字段;按照局部密度将所述簇中心点进行分箱处理,并将所述簇中心点之外的其他字段加入距离最近的簇中心点对应的簇中;分别对每一分箱内的字段进行聚类。2.根据权利要求1所述的方法,其特征在于,确定各所述字段在向量空间的局部密度,包括:对于各所述字段,确定当前字段对应的向量字符串,确定该向量字符串在向量空间中所对应的点,根据该点以及当前字段对应的预设截断距离确定当前字段在向量空间的局部密度。3.根据权利要求2所述的方法,其特征在于,确定当前字段对应的向量字符串,包括:获取当前字段对应的描述信息;将所述描述信息进行编码及哈希映射,得到当前字段对应的向量字符串;其中,所述描述信息包括字段描述符、类型、以及名称中的至少一个。4.根据权利要求2所述的方法,其特征在于,根据该点以及当前字段对应的预设截断距离确定当前字段在向量空间的局部密度,包括:确定在向量空间中与该点的距离小于或等于当前字段对应的预设截断距离的点的数量,根据所述数量确定当前字段在向量空间的局部密度。5.根据权利要求1所述的方法,其特征在于,根据所述局部密度确定各所述字段中作为簇中心点的字段,包括:根据所述局部密度对各所述字段进行排序;根据排序结果确定每两个相邻的字段在向量空间中所对应的两个点之间的斜率;根据所述斜率确定各所述字段中作为拐点的字段;将所述作为拐点的字段之前的各字段,确定为作为簇中心点的字段。6.根据权利要求5所述的方法,其特征在于,根据所述局部密度对各所述字段进行排序,包括:对于各所述字段,确定当前字段在向量空间的局部密度与当前字段对应的预设截断距离之间的乘积;根据各所述字段对应的乘积结果,对各所述字段进行排序。7.根据权利要...
【专利技术属性】
技术研发人员:陈伯梁,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。