一种数据分类方法及装置制造方法及图纸

技术编号：40282386 阅读：14 留言：0更新日期：2024-02-07 20:36

一种数据分类方法及装置，用以避免数据分类过程中内存溢出，或者内存未充分利用的问题。方法包括：获取待分类数据；待分类数据包括具有多维度属性值的多个数据点；对于每个数据点，依次选取下一层节点中与数据点距离最近的节点，直至选取到与数据点距离最近的第一叶节点；基于第一聚类原则确定数据点在第一叶节点中对应的第一聚类特征，并基于数据点更新第一聚类特征所在路径上各节点的聚类特征；其中，第一聚类原则为在数据点加入聚类特征对应的簇后，簇的半径小于等于半径阈值；半径阈值的取值由聚类特征树中已生成的聚类特征的个数、存储空间中可容纳的聚类特征的最大个数、聚类特征树中已分类的数据点的个数以及需分类的数据点的总数确定。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据分析处理，尤其涉及一种数据分类方法及装置。

技术介绍

1、在大数据时代，经常会有对海量数据进行分类的场景，比如在供应链的运营活动中，需要将海量的客户划分为有特征区别的细分群体，从而可以在运营活动中为这些细分群体采取精细化、个性化的运营和服务，最终提升运营的效率和商业效果。

2、目前，当需要分类的数据量较多时，可以通过构建聚类特征树来实现对大规模数据的聚类。但由于聚类特征树的聚类特征存储在内存中，且每个聚类特征的大小是固定的。也就是说，内存中存储的聚类特征个数是固定的。因此，现有的构建聚类特征树来进行分类的方法容易导致内存问题，内存问题包括内存溢出，或者内存未充分利用的问题。

3、因此，目前亟需一种方案，用以避免数据分类过程中内存溢出，或者内存未充分利用的问题。

技术实现思路

1、本申请提供一种数据分类方法及装置，用以避免数据分类过程中内存溢出，或者内存未充分利用的问题。

2、第一方面，本申请提供一种数据分类方法，该方法包括：获取待分类数据；...

【技术保护点】

1.一种数据分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述半径阈值的取值由所述聚类特征树中已生成的聚类特征的个数、存储空间中可容纳的聚类特征的最大个数、所述聚类特征树中已分类的数据点的个数以及需分类的数据点的总数确定，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述数据点加入到所述第二聚类特征中之后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述第一叶节点进行分裂处理之后，还包括：

6.根据权利要求4或5...

【技术特征摘要】

1.一种数据分类方法，其特征在于，所述方法包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述数据点加入到所述第二聚类特征中之后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述第一叶节点进行分裂处理之后，还包括：

6.根据权利要求4或5所述的方法，其特征在于，所述进行分裂处理，包括：

【专利技术属性】
技术研发人员：张荃迪，徐为恺，杨杨，江旻，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人