数据处理方法、装置和设备制造方法及图纸

技术编号：28376272 阅读：15 留言：0更新日期：2021-05-08 00:03

本公开的实施例提供一种数据处理方法、装置和设备，对数据集中的多个样本数据进行可视化处理，根据可视化处理结果获得数据集的分类个数；获取预设聚类算法的参数的至少一种取值；针对参数的每种取值，根据预设聚类算法对数据集中的多个样本数据进行聚类处理，获得聚类结果；根据聚类结果，确定聚类类别个数，若分类个数与聚类类别个数之差小于等于第一预设值，则确定聚类结果为数据集的目标聚类结果。本公开通过将聚类算法的逻辑黑盒化，根据可视化处理获得的分类个数自动调整聚类算法的参数，直到聚类类别个数和可视化处理得到的分类个数相同时即完成聚类，此过程无需人工调整算法参数，可以简化数据聚类操作，提升数据聚类的效率。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置和设备
本公开的实施例涉及计算机应用
，尤其涉及一种数据处理方法、装置和设备。
技术介绍
在大数据时代，如何对海量的数据进行分析和利用已经成为各服务商的重点方向之一。在进行数据分析的过程中，常常需要对数据进行聚类，例如对用户数据进行聚类，然后利用聚类后得到的用户数据类别对用户提供更有针对性、更个性化或更人性化的服务。目前的聚类算法，例如k-means、DBSCAN等，虽然能够满足业务的实际需求，但是，在利用上述算法进行数据聚类时，针对不同的场景，需要定制不同的聚类模型，然后对聚类模型进行人工调参，最后再根据调整后的聚类模型对数据进行聚类处理。上述过程操作复杂且效率较低。
技术实现思路
本公开的实施例提供一种数据处理方法、装置和设备，用以解决现有技术中，数据聚类过程中操作复杂且效率低的技术问题。第一方面，本公开的实施例提供一种数据处理方法，包括：对数据集中的多个样本数据进行可视化处理，根据可视化处理结果获得数据集的分类个数；获取预设聚类算法的参数的至少一种取值；针对参数的每种取值，根据预设聚类算法对数据集中的多个样本数据进行聚类处理，获得聚类结果；根据聚类结果，确定聚类类别个数，若分类个数与聚类类别个数之差小于等于第一预设值，则确定聚类结果为数据集的目标聚类结果。第二方面，本公开的实施例提供一种数据处理装置，包括：处理模块，用于对数据集中的多个样本数据进行可视化处理，根据可视化处理结果获得数据集的分类个数；>获取模块，用于获取预设聚类算法的参数的至少一种取值；聚类模块，用于针对参数的每种取值，根据预设聚类算法对数据集中的多个样本数据进行聚类处理，获得聚类结果；确定模块，用于根据聚类结果，确定聚类类别个数，若分类个数与聚类类别个数之差小于等于第一预设值，则确定聚类结果为数据集的目标聚类结果。第三方面，本公开的实施例提供一种电子设备，包括：存储器和处理器；存储器用于存储程序指令；处理器用于调用存储器中的程序指令执行如第一方面的数据处理方法。第四方面，本公开的实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序；计算机程序被执行时，实现如第一方面的数据处理方法。第五方面，本公开的实施例提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时，实现如第一方面的数据处理方法。本公开的实施例中，对数据集中的多个样本数据进行可视化处理，根据可视化处理结果获得数据集的分类个数；获取预设聚类算法的参数的至少一种取值；针对参数的每种取值，根据预设聚类算法对数据集中的多个样本数据进行聚类处理，获得聚类结果；根据聚类结果，确定聚类类别个数，若分类个数与聚类类别个数之差小于等于第一预设值，则确定聚类结果为数据集的目标聚类结果。本公开通过将聚类算法的逻辑黑盒化，根据可视化处理获得的分类个数自动调整聚类算法的参数，直到聚类类别个数和可视化处理得到的分类个数相同时即完成聚类，此过程无需人工调整算法参数，可以简化数据聚类操作，提升数据聚类的效率。附图说明此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。图1为本公开一实施例提供的数据处理方法的场景示例图；图2为本公开一实施例提供的数据处理方法的流程示意图；图3为本公开另一实施例提供的数据处理方法的流程示意图；图4为本公开一实施例提供的可视化处理结果示意图；图5为本公开一实施例提供的样本数据的二维图片示意图；图6为本公开一实施例提供的经过膨胀处理后的二维图片的示意图；图7为本公开又一实施例提供的数据处理方法的流程示意图；图8为本公开一实施例提供的子决策树的结构示意图；图9为本公开又一实施例提供的数据处理方法的流程示意图；图10为本公开一实施例提供的数据处理装置的结构示意图；图11为本公开另一实施例提供的电子设备的结构示意图。通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。具体实施方式这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。在大数据时代，如何对海量的数据进行分析和利用已经成为各服务商的重点方向之一。在进行数据分析的过程中，常常需要对数据进行聚类，例如，对用户数据进行聚类，然后利用聚类后得到的用户数据类别对用户提供更有针对性、更个性化或更人性化的服务。目前的聚类算法，例如k-means、DBSCAN等，虽然能够满足业务的实际需求，但是，在利用上述算法进行数据聚类时，针对不同的场景，需要定制不同的聚类模型，然后对聚类模型进行人工调参，最后再根据调整后的聚类模型对数据进行聚类处理。上述过程操作复杂且效率较低。有鉴于此，本公开实施例提供一种数据处理方法、装置和设备，通过数据集中的多个样本数据进行可视化处理，获得数据集的分类个数，通过不断的调整聚类算法的参数，根据调整后的参数获得聚类结果，直到聚类结果中的聚类类别个数与分类个数相同时，确定当前的聚类结果为目标聚类结果。本公开通过将聚类算法的逻辑黑盒化，根据可视化处理获得的分类个数自动调整聚类算法的参数，直到聚类类别个数和可视化处理得到的分类个数相同时即完成聚类，此过程无需人工调整算法参数，可以简化数据聚类操作，提升数据聚类的效率。图1为本公开一实施例提供的数据处理方法的场景示例图。如图1所示，该场景包括：终端设备101以及服务器102。在实际应用中，服务器102可以是提供处理、数据库、通讯设施的业务点，用于提供样本数据。其中，服务器102可以是整体式服务器或是跨多计算机或计算机数据中心的分散式服务器。服务器102也可以是各种类型的，例如但不限于，网络服务器，消息服务器，应用服务器，交互服务器，数据库服务器，或代理服务器等。终端设备101可以为能够与服务器102通信连接的任意设备，包括但不限于：台式电脑、便携式电脑、平板电脑、掌上电脑、虚拟现实设备、增强现实设备等或其任何组合，在此不做限定，为方便理解，图1的终端设备101以台式电脑示出。实际应用中，终端设备101可以通过无线或有线网络与服务器102通信，以从服务器102中获取样本数据。其中，无线网络可以是2G或者3G或者4G或者5G等通信网络，也可以是无线局域网，在此不做限定。如图1所示，终端设备101中有聚类模型，终端设备101通过从服务器102中获取样本数据，再根据预设聚类算法对样本数据进行聚类处理，以输本文档来自技高网...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：/n对数据集中的多个样本数据进行可视化处理，根据可视化处理结果获得所述数据集的分类个数；/n获取预设聚类算法的参数的至少一种取值；/n针对所述参数的每种取值，根据所述预设聚类算法对所述数据集中的多个样本数据进行聚类处理，获得聚类结果；/n根据所述聚类结果，确定聚类类别个数，若所述分类个数与所述聚类类别个数之差小于等于第一预设值，则确定所述聚类结果为所述数据集的目标聚类结果。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：
对数据集中的多个样本数据进行可视化处理，根据可视化处理结果获得所述数据集的分类个数；
获取预设聚类算法的参数的至少一种取值；
针对所述参数的每种取值，根据所述预设聚类算法对所述数据集中的多个样本数据进行聚类处理，获得聚类结果；
根据所述聚类结果，确定聚类类别个数，若所述分类个数与所述聚类类别个数之差小于等于第一预设值，则确定所述聚类结果为所述数据集的目标聚类结果。

2.根据权利要求1所述的方法，其特征在于，所述获取预设聚类算法的参数的至少一种取值，包括：
获取所述预设聚类算法中参数的第1种取值为初始值；以及
根据二分法和所述参数的第i种取值，获取所述参数的第i+1种取值；
其中，所述i为大于等于1的整数。

3.根据权利要求2所述的方法，其特征在于，所述根据二分法和所述参数的第i种取值，获取所述参数的第i+1种取值，包括：
针对所述参数的第i种取值，若所述分类个数与根据所述第i种取值确定的聚类类别个数之差大于所述第一预设值，则根据二分法和所述参数的第i种取值，获取所述参数的第i+1种取值。

4.根据权利要求1所述的方法，其特征在于，所述根据可视化处理结果获得所述数据集的分类个数，包括：
将所述可视化结果转化为二维图片，所述二维图片表示各样本数据在二维空间中的分布；
根据所述二维图片，获得所述数据集的分类个数。

5.根据权利要求4所述的方法，其特征在于，所述根据所述二维图片，获得所述数据集的分类个数，包括：
将所述二维图片中的各样本数据占据的...

【专利技术属性】
技术研发人员：陈奥，韩星，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人