一种混合属性数据聚类的方法和装置制造方法及图纸

技术编号:24331176 阅读:71 留言:0更新日期:2020-05-29 19:39
本发明专利技术公开了一种混合属性数据聚类的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据信息熵公式,分别计算混合属性数据集的数据对象中多个属性数据集的权重;根据预先设定的聚类数,从混合属性数据集中选择相应数量的数据对象作为聚类质心点;计算待聚类数据对象与聚类质心点中相同属性类型的属性数据集的距离,以根据距离和权重,确定待聚类数据对象与聚类质心点的相异度;将待聚类数据对象聚类到最小相异度的聚类质心点所对应的簇中。该方法通过为不同属性类型的属性数据集赋予权重,并计算相同属性类型的属性数据集的距离,以基于权重和距离确定数据对象的相异度,进而实现了对包括向量属性的混合属性数据的聚类。

【技术实现步骤摘要】
一种混合属性数据聚类的方法和装置
本专利技术涉及计算机领域,尤其涉及一种混合属性数据聚类的方法和装置。
技术介绍
混合属性数据是指包括多种属性类型的数据,其中,所述属性类型包括数值属性和分类属性。数值属性又称为连续属性,是可度量的量,用整数或者实数值表示;分类属性又称为离散属性,比如学生成绩的属性为优、良、差。现有技术中,针对上述混合属性数据已经有多种聚类方法,比如K-prototype算法。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:在实际工程应用中,经常会出现将文本数据转换为向量形式后,再结合其他数据一起使用的情况。现有技术中不能对包括向量属性的混合属性数据进行聚类,其中,所述向量属性即向量形式的数字信息。
技术实现思路
有鉴于此,本专利技术实施例提供一种混合属性数据聚类的方法和装置,通过为不同属性类型的属性数据集赋予权重,并计算相同属性类型的属性数据集的距离,以基于权重和距离确定两个数据对象的相异度,进而实现了对包括向量属性的混合属性数据的聚类。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种混合属性数据聚类的方法。本专利技术实施例的一种混合属性数据聚类的方法,包括:根据信息熵公式,分别计算混合属性数据集的数据对象中多个属性数据集的权重,其中,所述属性数据集包括向量属性数据集;根据预先设定的聚类数,从所述混合属性数据集中选择相应数量的数据对象作为聚类质心点;计算待聚类数据对象与所述聚类质心点中相同属性类型的属性数据集的距离,以根据所述距离和所述权重,确定所述待聚类数据对象与所述聚类质心点的相异度;将所述待聚类数据对象聚类到最小相异度的聚类质心点所对应的簇中。可选地,所述属性数据集包括数值属性数据集和/或分类属性数据集;所述根据信息熵公式,分别计算混合属性数据集的数据对象中多个属性数据集的权重,包括:分别计算混合属性数据集的数据对象中所述向量属性数据集的信息熵、所述数值属性数据集和/或所述分类属性数据集的信息熵;计算所述数据对象的信息熵,将所述数据对象的信息熵分别与所述向量属性数据集的信息熵、所述数值属性数据集和/或所述分类属性数据集的信息熵作差,得到对应属性数据集的权重。可选地,所述计算待聚类数据对象与所述聚类质心点中相同属性类型的属性数据集的距离,包括:把待聚类数据对象与所述聚类质心点中的向量属性数据集分别进行归一化处理,以计算所述待聚类数据对象与所述聚类质心点的向量属性数据集的相似度,将所述相似度转化为对应的距离;把所述待聚类数据对象与所述聚类质心点中的数值属性数据集依次进行标准化和归一化处理,以计算所述待聚类数据对象与所述聚类质心点的数值属性数据集的距离;根据预先定义的距离度量规则,确定所述待聚类数据对象与所述聚类质心点中的分类属性数据集的距离;所述根据所述距离和所述权重,确定所述待聚类数据对象与所述聚类质心点的相异度,包括:将所述距离乘以对应属性类型的属性数据集的权重并求和,以得到待聚类数据对象与聚类质心点的相异度。可选地,所述将所述待聚类数据对象聚类到最小相异度的聚类质心点所对应的簇中的步骤之后,还包括:更新聚类质心点:更新所述簇的聚类质心点;重新确定相异度:计算所述待聚类数据对象与更新后的聚类质心点中相同属性类型的属性数据集的距离,以根据所述距离和所述权重,确定所述待聚类数据对象与更新后的聚类质心点的相异度;重新聚类:将所述待聚类数据对象聚类到最小相异度的更新后的聚类质心点所对应的簇中;循环执行所述更新聚类质心点、重新确定相异度和重新聚类的步骤,直到满足预设停止条件。可选地,所述方法还包括:根据所述数据对象之间的相异度,定义目标函数;根据聚类结果计算所述目标函数的值。可选地,所述停止条件为下述任意一种:相邻两次循环中所述聚类质心点不变或者变化幅度小于预设第一阈值;循环迭代次数满足预设迭代次数;相邻两次循环中所述目标函数的值不变或者变化幅度小于预设第二阈值。为实现上述目的,根据本专利技术实施例的另一方面,提供了一种混合属性数据聚类的装置。本专利技术实施例的一种混合属性数据聚类的装置,包括:计算模块,用于根据信息熵公式,分别计算混合属性数据集的数据对象中多个属性数据集的权重,其中,所述属性数据集包括向量属性数据集;选择模块,用于根据预先设定的聚类数,从所述混合属性数据集中选择相应数量的数据对象作为聚类质心点;确定模块,用于计算待聚类数据对象与所述聚类质心点中相同属性类型的属性数据集的距离,以根据所述距离和所述权重,确定所述待聚类数据对象与所述聚类质心点的相异度;聚类模块,用于将所述待聚类数据对象聚类到最小相异度的聚类质心点所对应的簇中。可选地,所述属性数据集包括数值属性数据集和/或分类属性数据集;所述计算模块,还用于:分别计算混合属性数据集的数据对象中所述向量属性数据集的信息熵、所述数值属性数据集和/或所述分类属性数据集的信息熵;以及计算所述数据对象的信息熵,将所述数据对象的信息熵分别与所述向量属性数据集的信息熵、所述数值属性数据集和/或所述分类属性数据集的信息熵作差,得到对应属性数据集的权重。可选地,所述确定模块,还用于:把待聚类数据对象与所述聚类质心点中的向量属性数据集分别进行归一化处理,以计算所述待聚类数据对象与所述聚类质心点的向量属性数据集的相似度,将所述相似度转化为对应的距离;把所述待聚类数据对象与所述聚类质心点中的数值属性数据集依次进行标准化和归一化处理,以计算所述待聚类数据对象与所述聚类质心点的数值属性数据集的距离;根据预先定义的距离度量规则,确定所述待聚类数据对象与所述聚类质心点中的分类属性数据集的距离;以及将所述距离乘以对应属性类型的属性数据集的权重并求和,以得到待聚类数据对象与聚类质心点的相异度。可选地,所述装置还包括:循环处理模块,用于更新聚类质心点:更新所述簇的聚类质心点;重新确定相异度:计算所述待聚类数据对象与更新后的聚类质心点中相同属性类型的属性数据集的距离,以根据所述距离和所述权重,确定所述待聚类数据对象与更新后的聚类质心点的相异度;重新聚类:将所述待聚类数据对象聚类到最小相异度的更新后的聚类质心点所对应的簇中;以及循环执行所述更新聚类质心点、重新确定相异度和重新聚类的步骤,直到满足预设停止条件。可选地,所述装置还包括:定义计算模块,用于根据所述数据对象之间的相异度,定义目标函数;以及根据聚类结果计算所述目标函数的值。可选地,所述停止条件为下述任意一种:相邻两次循环中所述聚类质心点不变或者变化幅度小于预设第一阈值;循环迭代次数满足预设迭代次数;相邻两次循环中所述目标函数的值不变或者变化幅度小于预设第二阈值。为实现上述目的,根据本专利技术实施例的再一方面,提供了一种电子设备。本专利技术实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例的一种混合属性数据聚类的方法。为实现上述目的,根据本专利技术实施例的再一方面,提供了一种计算机可读介质。...

【技术保护点】
1.一种混合属性数据聚类的方法,其特征在于,包括:/n根据信息熵公式,分别计算混合属性数据集的数据对象中多个属性数据集的权重,其中,所述属性数据集包括向量属性数据集;/n根据预先设定的聚类数,从所述混合属性数据集中选择相应数量的数据对象作为聚类质心点;/n计算待聚类数据对象与所述聚类质心点中相同属性类型的属性数据集的距离,以根据所述距离和所述权重,确定所述待聚类数据对象与所述聚类质心点的相异度;/n将所述待聚类数据对象聚类到最小相异度的聚类质心点所对应的簇中。/n

【技术特征摘要】
1.一种混合属性数据聚类的方法,其特征在于,包括:
根据信息熵公式,分别计算混合属性数据集的数据对象中多个属性数据集的权重,其中,所述属性数据集包括向量属性数据集;
根据预先设定的聚类数,从所述混合属性数据集中选择相应数量的数据对象作为聚类质心点;
计算待聚类数据对象与所述聚类质心点中相同属性类型的属性数据集的距离,以根据所述距离和所述权重,确定所述待聚类数据对象与所述聚类质心点的相异度;
将所述待聚类数据对象聚类到最小相异度的聚类质心点所对应的簇中。


2.根据权利要求1所述的方法,其特征在于,所述属性数据集包括数值属性数据集和/或分类属性数据集;
所述根据信息熵公式,分别计算混合属性数据集的数据对象中多个属性数据集的权重,包括:
分别计算混合属性数据集的数据对象中所述向量属性数据集的信息熵、所述数值属性数据集和/或所述分类属性数据集的信息熵;
计算所述数据对象的信息熵,将所述数据对象的信息熵分别与所述向量属性数据集的信息熵、所述数值属性数据集和/或所述分类属性数据集的信息熵作差,得到对应属性数据集的权重。


3.根据权利要求2所述的方法,其特征在于,所述计算待聚类数据对象与所述聚类质心点中相同属性类型的属性数据集的距离,包括:
把待聚类数据对象与所述聚类质心点中的向量属性数据集分别进行归一化处理,以计算所述待聚类数据对象与所述聚类质心点的向量属性数据集的相似度,将所述相似度转化为对应的距离;
把所述待聚类数据对象与所述聚类质心点中的数值属性数据集依次进行标准化和归一化处理,以计算所述待聚类数据对象与所述聚类质心点的数值属性数据集的距离;
根据预先定义的距离度量规则,确定所述待聚类数据对象与所述聚类质心点中的分类属性数据集的距离;
所述根据所述距离和所述权重,确定所述待聚类数据对象与所述聚类质心点的相异度,包括:
将所述距离乘以对应属性类型的属性数据集的权重并求和,以得到待聚类数据对象与聚类质心点的相异度。


4.根据权利要求1至3的任一项所述的方法,其特征在于,所述将所述待聚类数据对象聚类到最小相异度的聚类质心点所对应的簇中的步骤之后,还包括:
更新聚类质心点:更新所述簇的聚类质心点;
重新确定相异度:计算所述待聚类数据对象与更新后的聚类质心点中相同属性类型的属性数据集的距离,以根据所述距离和所述权重,确定所述待聚类数据对象与更新后的聚类质心点的相异度;
重新聚类:将所述待聚类数据对象聚类到最小相异度的更新后的聚类质心点所对应的簇中;
循环执行所述更新聚类质心点、重新确定相异度和重新聚类的步骤,直到满足预设停止条件。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述数据对象之间的相异度,定义目标函数;
根据聚类结果计算所述目标函数的值。


6.根据权利要求5所述的方法,其特征在于,所述停止条件为下述任意一种:相邻两次循环中所述聚类质心点不变或者变化幅度小于预设第一阈值;循环迭代次数满足预设迭代次数;相邻两次循环中所述目标函数的值不变或者变化幅度小于预设第二阈值。


7.一种混合属性数据聚类的装置,其特征在于,包括:
计算模块,用于根据信息熵公式,分别计算混合属...

【专利技术属性】
技术研发人员:李伟伟盛捷来
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1