【技术实现步骤摘要】
一种聚类方法、装置、设备及存储介质
本专利技术实施例涉及样本聚类
,尤其涉及一种聚类方法、装置、设备及存储介质。
技术介绍
聚类分析算法是研究样品或指标分类问题的一种统计分析方法,同时也是用于数据挖掘的一种重要算法。聚类算法需要对事先未定义类别的一组数据集进行分类得到类型簇,保证一个类型簇中的数据点之间存在相似性,不同类型簇中的数据点之间存在差异性。现有聚类算法大多通过计算数据点之间的距离对数据点进行分类,将距离满足预设距离阈值的至少一个数据点作为一个类型簇。计算数据点之间的距离主要采用线性扫描法和构建数据索引法两种方法。在实现本专利技术的过程中,发现现有技术中至少存在以下技术问题:线性扫描方法需要通过穷举搜索数据集中每个数据点到当前数据点之间的距离,当数据集较大时会大大提高计算成本和降低计算效率。构建数据索引方法中索引树的构建算法复杂,增加了聚类算法的空间复杂度。
技术实现思路
本专利技术实施例提供了一种聚类方法、装置、设备及存储介质,以降低聚类算法的搜索域以及空间复杂度, ...
【技术保护点】
1.一种聚类方法,其特征在于,包括:/n获取待处理数据集,并基于预设排序算法对所述待处理数据集中的待处理数据进行排序,得到排序数据集;/n将所述排序数据集中满足预设选取规则的待处理数据作为目标待处理数据,并根据所述排序数据集中各待处理数据对应的排序结果,确定与所述目标待处理数据对应的邻域待处理数据;其中,所述邻域待处理数据与所述目标待处理数据之间的数据距离小于预设半径;/n如果所述邻域待处理数据的数量超过预设密度阈值,则将所述目标待处理数据作为核心数据,并基于所述核心数据和所述邻域待处理数据,确定聚类数据集。/n
【技术特征摘要】
1.一种聚类方法,其特征在于,包括:
获取待处理数据集,并基于预设排序算法对所述待处理数据集中的待处理数据进行排序,得到排序数据集;
将所述排序数据集中满足预设选取规则的待处理数据作为目标待处理数据,并根据所述排序数据集中各待处理数据对应的排序结果,确定与所述目标待处理数据对应的邻域待处理数据;其中,所述邻域待处理数据与所述目标待处理数据之间的数据距离小于预设半径;
如果所述邻域待处理数据的数量超过预设密度阈值,则将所述目标待处理数据作为核心数据,并基于所述核心数据和所述邻域待处理数据,确定聚类数据集。
2.根据权利要求1所述的方法,其特征在于,所述根据所述排序数据集中各待处理数据对应的排序结果,确定与所述目标待处理数据对应的邻域待处理数据,包括:
获取与所述目标待处理数据对应的至少一个待处理数据,并根据所述各待处理数据相对于目标待处理数据的排序结果,将各所述待处理数据依次作为参考待处理数据;
如果当前参考待处理数据与目标待处理数据之间的数据距离小于等于预设半径,则将所述当前参考待处理数据作为邻域待处理数据,并获取下一参考待处理数据;
如果当前参考待处理数据与目标待处理数据之间的数据距离大于预设半径,则生成结束指令;其中,所述结束指令用于指示停止执行数据距离的判断操作。
3.根据权利要求2所述的方法,其特征在于,所述获取与所述目标待处理数据对应的至少一个待处理数据,包括:
以所述目标待处理数据为圆心,依次获取与至少一个预设角度范围分别对应的至少一个待处理数据;其中,各预设角度范围之间角度不相交。
4.根据权利要求3所述的方法,其特征在于,所述依次获取与至少一个预设角度范围分别对应的至少一个待处理数据,包括:
获取与第一预设角度范围对应的至少一个待处理数据;
当检测到与所述第一预设角度范围对应的结束指令时,获取与第二预设角度范围对应的至少一个待处理数据,直到预设角度范围的数量达到预设数量阈值或者预设角度范围之和满足预设角度阈值。
5.根据权利要求1所述的方法,其特征在于,所述预设选取规则包括待处理数据的标识信息为未标识,相应的,所述方法还包括:
将所述排序数据集中与所述聚类数据集对应的待处理数据的标识信息修改为已...
【专利技术属性】
技术研发人员:吴志彪,
申请(专利权)人:北京京东拓先科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。