数据处理方法、装置和设备制造方法及图纸

技术编号:28376272 阅读:28 留言:0更新日期:2021-05-08 00:03
本公开的实施例提供一种数据处理方法、装置和设备,对数据集中的多个样本数据进行可视化处理,根据可视化处理结果获得数据集的分类个数;获取预设聚类算法的参数的至少一种取值;针对参数的每种取值,根据预设聚类算法对数据集中的多个样本数据进行聚类处理,获得聚类结果;根据聚类结果,确定聚类类别个数,若分类个数与聚类类别个数之差小于等于第一预设值,则确定聚类结果为数据集的目标聚类结果。本公开通过将聚类算法的逻辑黑盒化,根据可视化处理获得的分类个数自动调整聚类算法的参数,直到聚类类别个数和可视化处理得到的分类个数相同时即完成聚类,此过程无需人工调整算法参数,可以简化数据聚类操作,提升数据聚类的效率。

【技术实现步骤摘要】
数据处理方法、装置和设备
本公开的实施例涉及计算机应用
,尤其涉及一种数据处理方法、装置和设备。
技术介绍
在大数据时代,如何对海量的数据进行分析和利用已经成为各服务商的重点方向之一。在进行数据分析的过程中,常常需要对数据进行聚类,例如对用户数据进行聚类,然后利用聚类后得到的用户数据类别对用户提供更有针对性、更个性化或更人性化的服务。目前的聚类算法,例如k-means、DBSCAN等,虽然能够满足业务的实际需求,但是,在利用上述算法进行数据聚类时,针对不同的场景,需要定制不同的聚类模型,然后对聚类模型进行人工调参,最后再根据调整后的聚类模型对数据进行聚类处理。上述过程操作复杂且效率较低。
技术实现思路
本公开的实施例提供一种数据处理方法、装置和设备,用以解决现有技术中,数据聚类过程中操作复杂且效率低的技术问题。第一方面,本公开的实施例提供一种数据处理方法,包括:对数据集中的多个样本数据进行可视化处理,根据可视化处理结果获得数据集的分类个数;获取预设聚类算法的参数的至少一种取值;针本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n对数据集中的多个样本数据进行可视化处理,根据可视化处理结果获得所述数据集的分类个数;/n获取预设聚类算法的参数的至少一种取值;/n针对所述参数的每种取值,根据所述预设聚类算法对所述数据集中的多个样本数据进行聚类处理,获得聚类结果;/n根据所述聚类结果,确定聚类类别个数,若所述分类个数与所述聚类类别个数之差小于等于第一预设值,则确定所述聚类结果为所述数据集的目标聚类结果。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
对数据集中的多个样本数据进行可视化处理,根据可视化处理结果获得所述数据集的分类个数;
获取预设聚类算法的参数的至少一种取值;
针对所述参数的每种取值,根据所述预设聚类算法对所述数据集中的多个样本数据进行聚类处理,获得聚类结果;
根据所述聚类结果,确定聚类类别个数,若所述分类个数与所述聚类类别个数之差小于等于第一预设值,则确定所述聚类结果为所述数据集的目标聚类结果。


2.根据权利要求1所述的方法,其特征在于,所述获取预设聚类算法的参数的至少一种取值,包括:
获取所述预设聚类算法中参数的第1种取值为初始值;以及
根据二分法和所述参数的第i种取值,获取所述参数的第i+1种取值;
其中,所述i为大于等于1的整数。


3.根据权利要求2所述的方法,其特征在于,所述根据二分法和所述参数的第i种取值,获取所述参数的第i+1种取值,包括:
针对所述参数的第i种取值,若所述分类个数与根据所述第i种取值确定的聚类类别个数之差大于所述第一预设值,则根据二分法和所述参数的第i种取值,获取所述参数的第i+1种取值。


4.根据权利要求1所述的方法,其特征在于,所述根据可视化处理结果获得所述数据集的分类个数,包括:
将所述可视化结果转化为二维图片,所述二维图片表示各样本数据在二维空间中的分布;
根据所述二维图片,获得所述数据集的分类个数。


5.根据权利要求4所述的方法,其特征在于,所述根据所述二维图片,获得所述数据集的分类个数,包括:
将所述二维图片中的各样本数据占据的...

【专利技术属性】
技术研发人员:陈奥韩星
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1