一种基于密度的混合多维属性数据处理方法技术

技术编号：20622549 阅读：27 留言：0更新日期：2019-03-20 14:25

本发明专利技术涉及一种基于密度的混合多维属性数据处理方法，属于数据处理技术领域，将混合数据集进行分类，对其中的数值型数据进行原始标记后测量数值型数据的相似度，根据相似度对数值型数据进行初次分簇聚类。对数据集中的类别型数据进行权重计算得到权重，然后根据目标函数和权重将类别型数据划归至数值型数据的簇中形成新的簇，从而实现对混合多维属性数据的分簇聚类。与现有技术相比，本发明专利技术具有能有效处理混合属性的数据集，计算时间较现有的聚类算法大大缩短，在处理海量混合多维数据集时，聚类性能更强大，数据的聚类质量更高，能很好的满足能源领域、医疗领域、消费领域等众多领域内混合属性数据的聚类要求等优点。

A Density-based Hybrid Multidimensional Attribute Data Processing Method

The present invention relates to a density-based hybrid multidimensional attribute data processing method, which belongs to the field of data processing technology. Mixed data sets are classified, and the similarity of numerical data is measured after the original labeling of the numerical data, and the initial clustering of the numerical data is carried out according to the similarity. The weights are calculated from the class data in the data set, and then the class data are grouped into the cluster of numerical data according to the objective function and weight to form a new cluster, thus realizing the clustering of mixed multi-dimensional attribute data. Compared with the existing technology, the method has the advantages of efficient processing of mixed attribute data sets, shorter computing time, stronger clustering performance, higher clustering quality of data, better meeting the clustering requirements of mixed attribute data in many fields such as energy, medical and consumption fields, etc. \u3002

全部详细技术资料下载

【技术实现步骤摘要】
一种基于密度的混合多维属性数据处理方法
本专利技术涉及一种数据处理技术，尤其是涉及一种基于密度的混合多维属性数据处理方法。
技术介绍
所谓聚类，就是将物理或抽象对象的集合构成为由类似的对象组成多个类或簇的过程。由聚类所生成的簇是一组数据对象的集合，同一簇中的数据对象应尽可能相似，不同簇中的数据对象应尽可能相异。随着科技的发展、技术的进步，聚类算法如今在很多领域得到了广泛的应用，如医疗卫生领域、社交网络平台、商场、线上购物平台等。但是，在实际应用中，很多数据集除了包含数值属性外，还可能包含用于表示颜色、纹理、爱好、年龄等特征的类别属性。目前的聚类算法大多只适用于处理单重属性的数据，如K-means算法、BRICH算法、DBSCAN算法等。改进的DBSCAN算法、MST算法等只适用于处理数值属性数据，而K-modes算法、COOLCAT算法只适用于处理类别属性数据。因此，目前的各种聚类算法不能有效的处理多维混合属性的数据，存在数据聚类质量不高的缺陷。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于密度的混合多维属性数据处理方法。本专利技术的目的可以通过以下技术方案来实现：一种基于密度的混合多维属性数据处理方法，包括以下步骤：步骤S1：将待处理的多维混合数据集依靠数据类型的判断方法进行分类判定；步骤S2：将待处理的多维混合数据中的数值型数据进行原始标记；步骤S3：设立不同的圆数学模型判定条件辅助判断待处理的多维混合数据集中已标记的数值型数据的相似度；步骤S4：根据已标记的数值型数据的相似度对数值型数据进行初次分簇聚类；步骤S5：将步骤...

【技术保护点】
1.一种基于密度的混合多维属性数据处理方法，其特征在于，包括以下步骤：步骤S1：将待处理的多维混合数据集依靠数据类型的判断方法进行分类判定；步骤S2：将待处理的多维混合数据中的数值型数据进行原始标记；步骤S3：设立不同的圆数学模型判定条件辅助判断待处理的多维混合数据集中已标记的数值型数据的相似度；步骤S4：根据已标记的数值型数据的相似度对数值型数据进行初次分簇聚类；步骤S5：将步骤S1中待处理的多维混合数据中的类别型数据进行权重因子和权重值的计算；步骤S6：利用目标函数和步骤S5的权重将类别型数据与步骤S4中的簇合并为新的簇，完成对于混合多维属性数据的分簇聚类数据处理。

【技术特征摘要】
1.一种基于密度的混合多维属性数据处理方法，其特征在于，包括以下步骤：步骤S1：将待处理的多维混合数据集依靠数据类型的判断方法进行分类判定；步骤S2：将待处理的多维混合数据中的数值型数据进行原始标记；步骤S3：设立不同的圆数学模型判定条件辅助判断待处理的多维混合数据集中已标记的数值型数据的相似度；步骤S4：根据已标记的数值型数据的相似度对数值型数据进行初次分簇聚类；步骤S5：将步骤S1中待处理的多维混合数据中的类别型数据进行权重因子和权重值的计算；步骤S6：利用目标函数和步骤S5的权重将类别型数据与步骤S4中的簇合并为新的簇，完成对于混合多维属性数据的分簇聚类数据处理。2.根据权利要求1所述的一种数据处理方法，其特征在于，所述步骤S1中的数据类型的判断方法为：若则多维混合数据集为数值优先型数据集；若则多维混合数据集为类别优先型数据集；排除以上两种情况，则多维混合数据集为均衡型混合数据集；式中，δ为优先因子，f为类别型数据维数，s为数值型数据维数。3.根据权利要求1所述的一种数据处理方法，其特征在于，所述步骤S2包括以下分步骤：步骤S21：将将待处理的多维混合数据中的数值型数据进行归一化处理限定在特定数值范围内；步骤S22：对特定数值范围内的数值型数据进行查询，并进行初步噪声点和核心点的标记。4.根据权利要求1所述的一种数据处理方法，其特征在于，所述步骤3中的圆数学模型判定条件包括：针对数值优先型数据集圆数学模型判定条件、针对类别优先型数据集圆数学模型判定条件和针对均衡型混合数据集圆数学模型判定条件，所述针对数值优先型圆数学模型判定条件为：当d(υ,ω)＞3ε，则两...

【专利技术属性】
技术研发人员：方炜，
申请(专利权)人：上海电力学院，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人