协同聚类的方法和设备技术

技术编号：12030836 阅读：249 留言：0更新日期：2015-09-10 17:33

本发明专利技术实施例提供了一种协同聚类的方法和装置，该方法包括：迭代执行下列过程，以对待聚类的数据进行协同聚类：根据上次迭代过程得到的待聚类的数据的每个元素的权重以及上次迭代过程得到的类簇中心的值，将待聚类的数据的每个元素划分到至少一个类簇中；根据待聚类的数据的每个元素的类簇的划分结果和待聚类的数据的每个元素的权重，更新待聚类的数据的类簇中心的值；根据更新后的待聚类的数据的类簇中心的值，更新待聚类的数据的每个元素的权重，其中，类簇中距离所述类簇的中心越远的元素的权重越小。本发明专利技术实施例的协同聚类的方法，能够降低噪声数据对聚类的影响，提高聚类效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，特别涉及一种协同聚类的方法和设备。
技术介绍
协同聚类（Co-clustering)在文本挖掘、基因表达数据分析、协同过滤、推荐系统和矩阵近似等领域中有广泛的应用。协同聚类是一种对二维数据矩阵的行和列两个方向同时进行聚类的一类算法。聚类是根据数据集中数据的不同特征，将数据划分为不同的簇 (Cluster)，使得同一簇的个体之间的距离尽可能小（或相似度尽可能高），不同簇的个体问的距离尽可能大（或相似度尽可以低）。上述数据可以是不同用户针对不同项目或物品产生的用户行为数据，可以由二维矩阵来表示。在行方向上进行聚类时，依据不同行与行类簇的相似性，将行聚成至少一个行类簇，例如，聚成K个行类簇；在列方向上进行聚类时，依据不同列与列类簇的相似性，将列聚成至少一个列类簇，例如，聚成L个列类簇。这样，协同聚类可以将无序的数据矩阵划分成K*L个有序的聚类块。现有聚类算法采取行划分和列划分交替进行，通过迭代优化，求解一个最优化问题，当算法收敛到最优化问题的目标函数的极小值时，停止迭代，完成聚类。上述数据可能会包含噪声数据，例如，用户的误操作产生的数据，这些噪声数据会影响聚类的准确性。现有聚类算法在进行数据处理时对噪声数据和有用数据作相同的处理，没有考虑噪声数据对聚类效果的影响。因此，现有技术无法降低噪声数据对聚类的影响，聚类效果差。
技术实现思路
本专利技术实施例提供一种协同聚类的方法和设备，能够降低噪声数据对聚类的影响，提高聚类效果。第一方面，本专利技术实施例提供了一种协同聚类的方法，包括：迭代执行下列...

【技术保护点】
一种协同聚类的方法，其特征在于，包括：迭代执行下列过程，以对待聚类的数据进行协同聚类：根据上次迭代过程得到的待聚类的数据的每个元素的权重以及上次迭代过程得到的类簇中心的值，将所述待聚类的数据的每个元素划分到至少一个类簇中；根据所述待聚类的数据的每个元素的类簇的划分结果和所述待聚类的数据的每个元素的权重，更新所述待聚类的数据的类簇中心的值；根据更新后的待聚类的数据的类簇中心的值，更新所述待聚类的数据的每个元素的权重，其中，所述类簇中距离所述类簇的中心越远的元素的权重越小。

【技术特征摘要】

【专利技术属性】
技术研发人员：肖龙飞，陈小军，王书强，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人