一种基于密度的混合多维属性数据处理方法技术

技术编号:20622549 阅读:27 留言:0更新日期:2019-03-20 14:25
本发明专利技术涉及一种基于密度的混合多维属性数据处理方法,属于数据处理技术领域,将混合数据集进行分类,对其中的数值型数据进行原始标记后测量数值型数据的相似度,根据相似度对数值型数据进行初次分簇聚类。对数据集中的类别型数据进行权重计算得到权重,然后根据目标函数和权重将类别型数据划归至数值型数据的簇中形成新的簇,从而实现对混合多维属性数据的分簇聚类。与现有技术相比,本发明专利技术具有能有效处理混合属性的数据集,计算时间较现有的聚类算法大大缩短,在处理海量混合多维数据集时,聚类性能更强大,数据的聚类质量更高,能很好的满足能源领域、医疗领域、消费领域等众多领域内混合属性数据的聚类要求等优点。

A Density-based Hybrid Multidimensional Attribute Data Processing Method

The present invention relates to a density-based hybrid multidimensional attribute data processing method, which belongs to the field of data processing technology. Mixed data sets are classified, and the similarity of numerical data is measured after the original labeling of the numerical data, and the initial clustering of the numerical data is carried out according to the similarity. The weights are calculated from the class data in the data set, and then the class data are grouped into the cluster of numerical data according to the objective function and weight to form a new cluster, thus realizing the clustering of mixed multi-dimensional attribute data. Compared with the existing technology, the method has the advantages of efficient processing of mixed attribute data sets, shorter computing time, stronger clustering performance, higher clustering quality of data, better meeting the clustering requirements of mixed attribute data in many fields such as energy, medical and consumption fields, etc. \u3002

【技术实现步骤摘要】
一种基于密度的混合多维属性数据处理方法
本专利技术涉及一种数据处理技术,尤其是涉及一种基于密度的混合多维属性数据处理方法。
技术介绍
所谓聚类,就是将物理或抽象对象的集合构成为由类似的对象组成多个类或簇的过程。由聚类所生成的簇是一组数据对象的集合,同一簇中的数据对象应尽可能相似,不同簇中的数据对象应尽可能相异。随着科技的发展、技术的进步,聚类算法如今在很多领域得到了广泛的应用,如医疗卫生领域、社交网络平台、商场、线上购物平台等。但是,在实际应用中,很多数据集除了包含数值属性外,还可能包含用于表示颜色、纹理、爱好、年龄等特征的类别属性。目前的聚类算法大多只适用于处理单重属性的数据,如K-means算法、BRICH算法、DBSCAN算法等。改进的DBSCAN算法、MST算法等只适用于处理数值属性数据,而K-modes算法、COOLCAT算法只适用于处理类别属性数据。因此,目前的各种聚类算法不能有效的处理多维混合属性的数据,存在数据聚类质量不高的缺陷。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于密度的混合多维属性数据处理方法。本专利技术的目的可以通过以下技术方案来实现:一种基于密度的混合多维属性数据处理方法,包括以下步骤:步骤S1:将待处理的多维混合数据集依靠数据类型的判断方法进行分类判定;步骤S2:将待处理的多维混合数据中的数值型数据进行原始标记;步骤S3:设立不同的圆数学模型判定条件辅助判断待处理的多维混合数据集中已标记的数值型数据的相似度;步骤S4:根据已标记的数值型数据的相似度对数值型数据进行初次分簇聚类;步骤S5:将步骤S1中待处理的多维混合数据中的类别型数据进行权重因子和权重值的计算;步骤S6:利用目标函数和步骤S5的权重将类别型数据与步骤S4中的簇合并为新的簇,完成对于混合多维属性数据的分簇聚类数据处理。进一步地,所述步骤S1中的数据类型的判断方法为:若则多维混合数据集为数值优先型数据集;若则多维混合数据集为类别优先型数据集;排除以上两种情况,则多维混合数据集为均衡型混合数据集;式中,δ为优先因子,f为类别型数据维数,s为数值型数据维数。进一步地,所述步骤S2包括以下分步骤:步骤S21:将将待处理的多维混合数据中的数值型数据进行归一化处理限定在特定数值范围内;步骤S22:对特定数值范围内的数值型数据进行查询,并进行初步噪声点和核心点的标记。进一步地,所述步骤3中的圆数学模型判定条件包括:针对数值优先型数据集圆数学模型判定条件、针对类别优先型数据集圆数学模型判定条件和针对均衡型混合数据集圆数学模型判定条件,所述针对数值优先型圆数学模型判定条件为:当d(υ,ω)>3ε,则两个核心点之间不存在连接关系;当则两个核心点之间存在强连接关系;当则两个核心点之间存在弱连接关系;所述针对类别优先型数据集圆数学模型判定条件为:当d(υ,ω)>ε,则两个核心点之间不存在连接关系;当则两个核心点之间存在强连接关系;当则两个核心点之间存在弱连接关系;所述针对均衡型混合数据集圆数学模型判定条件为:当d(υ,ω)>1.5ε,则两个核心点之间不存在连接关系;当则两个核心点之间存在强连接关系;当则两个核心点之间存在弱连接关系;其中,d(υ,ω)表示为多维混合数据集中的任意两个点υ和ω的相似度,O(υ)和O(ω)表示为分别以点υ和点ω为圆心的圆,ε为以点υ和点ω为圆心的圆的半径,μ表示圆内的对象点个数。进一步地,所述步骤5中的权重因子的计算公式为:式中,γ为权重因子,为多维混合数据集中第i个任意类别型数据的第p维类别属性,为多维混合数据集中第j个任意类别型数据的第p维类别属性,i、j和p均为自然数;所述权重值的计算公式为:式中,Y为权重值,或1,表示为第p维类别型数据在簇l中的重要程度,γp表示为第p维权重因子。进一步地,所述步骤6中的目标函数f(xi,Cl)的具体公式为:式中,Cl表示簇l,xi表示多维混合数据集中的第i个数值型对象,表示第i个数值型对象在第j维的值,表示第i个数值型对象在第j维的数据于簇l中的平均值,表示第i个数值型对象在第j维的权重值。进一步地,所述数据处理方法还包括步骤7:对所述初步噪声点再次进行范围查询处理。与现有技术相比,本专利技术具有以下优点:(1)本专利技术提供的聚类算法,先根据数值型数据和类别型数据的占比对数据集进行分类,根据数据集的特点计算数值型数据的相似度,根据相似度先对数值型数据进行分簇聚类,然后,对类别型数据进行权重计算得到权重,再根据目标函数和类别型数据的权重将类别型数据划归至数值型数据的簇中形成新的簇,从而实现混合多维属性数据的分簇聚类,本专利技术的聚类算法能有效处理混合属性的数据集,计算时间较现有的聚类算法大大缩短,在处理海量混合多维数据集时,聚类性能更强大,数据的聚类质量更高,能很好的满足能源领域、医疗领域、消费领域等众多领域的数据聚类要求。(2)利用数值型数据的总维度和类别型数据的总维度根据公式合理确定混合数据集的种类,保证对数据集进行分类的合理性和准确性,以便提高对数据分簇聚类的准确性。(3)通过范围查询确定初步噪声点和后续的对初步噪声点再次进行范围查询,判断初步噪声点是真正离群点还是边界点,通过两次范围查询,提高对数据判断的准确性,从而有利于提高数据的聚类精确度。(4)通过计算距离实现测量数值型数据的相似度的目的,然后根据相似度判断两个核心点之间是否存在连接关系及连接关系的强弱,通过连接关系判断两个核心点附近邻域的数值型数据是否属于相同的簇或是否能通过边界点连接,提高数值型数据分簇聚类的合理性和便捷性。(5)对类别型数据进行权重计算得到类别型数据的权重,将类别型数据的类别属性转换成数值属性,以便后续步骤可以根据转换后类别型数据的数值属性将类别型数据划归至数值型数据的簇内,从而实现混合属性数据的分簇聚类。附图说明图1为本专利技术实施例一数据处理方法的运行机制流程图;图2为本专利技术实施例一数据处理方法的步骤3中state=-1时进行查询的示意图;图3为本专利技术实施例一数据处理方法中对类别型数据和数值型数据进行合并操作的示意图;图4为本专利技术实施例一数据处理方法中对初步噪声点进行再次范围查询时的示意图;图5为本专利技术实施例一中三种算法对三种数据集的聚类处理准确率柱状图;图6为三种算法在三种数据集上执行时间的对比折线图,其中,图6(a)为三种算法在KDDCUP-99数据集的对比折线图,图6(b)为三种算法在Adult数据集的对比折线图,图6(c)为三种算法在Real-world数据集的对比折线图;图7为三种算法在理论上的时间复杂度曲线图;图8为本专利技术方法的整体流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。实施例如图1所示,本专利技术实施例一提供的基于密度的混合多维属性数据的数据处理方法,包括以下步骤:步骤1:将待处理的n维混合数据集D=(Xa1,Xa2,…,Xas,Ya1,Ya2,…,Yaf)根据s维数值型数据和f维类别型数据的占比进行分类本文档来自技高网...

【技术保护点】
1.一种基于密度的混合多维属性数据处理方法,其特征在于,包括以下步骤:步骤S1:将待处理的多维混合数据集依靠数据类型的判断方法进行分类判定;步骤S2:将待处理的多维混合数据中的数值型数据进行原始标记;步骤S3:设立不同的圆数学模型判定条件辅助判断待处理的多维混合数据集中已标记的数值型数据的相似度;步骤S4:根据已标记的数值型数据的相似度对数值型数据进行初次分簇聚类;步骤S5:将步骤S1中待处理的多维混合数据中的类别型数据进行权重因子和权重值的计算;步骤S6:利用目标函数和步骤S5的权重将类别型数据与步骤S4中的簇合并为新的簇,完成对于混合多维属性数据的分簇聚类数据处理。

【技术特征摘要】
1.一种基于密度的混合多维属性数据处理方法,其特征在于,包括以下步骤:步骤S1:将待处理的多维混合数据集依靠数据类型的判断方法进行分类判定;步骤S2:将待处理的多维混合数据中的数值型数据进行原始标记;步骤S3:设立不同的圆数学模型判定条件辅助判断待处理的多维混合数据集中已标记的数值型数据的相似度;步骤S4:根据已标记的数值型数据的相似度对数值型数据进行初次分簇聚类;步骤S5:将步骤S1中待处理的多维混合数据中的类别型数据进行权重因子和权重值的计算;步骤S6:利用目标函数和步骤S5的权重将类别型数据与步骤S4中的簇合并为新的簇,完成对于混合多维属性数据的分簇聚类数据处理。2.根据权利要求1所述的一种数据处理方法,其特征在于,所述步骤S1中的数据类型的判断方法为:若则多维混合数据集为数值优先型数据集;若则多维混合数据集为类别优先型数据集;排除以上两种情况,则多维混合数据集为均衡型混合数据集;式中,δ为优先因子,f为类别型数据维数,s为数值型数据维数。3.根据权利要求1所述的一种数据处理方法,其特征在于,所述步骤S2包括以下分步骤:步骤S21:将将待处理的多维混合数据中的数值型数据进行归一化处理限定在特定数值范围内;步骤S22:对特定数值范围内的数值型数据进行查询,并进行初步噪声点和核心点的标记。4.根据权利要求1所述的一种数据处理方法,其特征在于,所述步骤3中的圆数学模型判定条件包括:针对数值优先型数据集圆数学模型判定条件、针对类别优先型数据集圆数学模型判定条件和针对均衡型混合数据集圆数学模型判定条件,所述针对数值优先型圆数学模型判定条件为:当d(υ,ω)>3ε,则两...

【专利技术属性】
技术研发人员:方炜
申请(专利权)人:上海电力学院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1