一种基于三阶张量自表示求相似度张量的聚类方法及系统技术方案

技术编号:42541340 阅读:26 留言:0更新日期:2024-08-27 19:45
本发明专利技术适用于数据挖掘和机器学习领域,提供了一种基于三阶张量自表示求相似度张量的聚类方法及系统,该方法通过引入三阶张量表示、T‑Product运算和函数F(A),构建并优化相似度张量,从而实现对数据的聚类。该方法的具体实施方式包括:获取待处理的数据集作为计算机的输入;进行数据预处理;构建样本点间相似度矩阵和函数F(A);构建三阶张量;通过T‑Product运算进行三阶张量自表示学习数据集的相似度张量;相似度张量的修正与优化;检查结果并迭代优化;降维相似度张量;基于相似度矩阵进行聚类。通过本发明专利技术能高效处理具有复杂关系的多视图数据,实现能有效保留样本信息完整性的聚类算法。

【技术实现步骤摘要】

本专利技术属于数据挖掘和机器学习领域,尤其涉及一种基于三阶张量自表示求相似度张量的聚类方法及系统


技术介绍

1、聚类分析作为数据挖掘和机器学习领域的重要研究内容,旨在将相似的数据对象整合成不同的簇,从而揭示数据的内在结构和模式。然而,随着信息技术的飞速发展和广泛应用,数据对象的结构和关系日益愈发错综复杂,呈现出高度非线性和多维度的特点。面对数据复杂化、多元化的趋势,使得对聚类算法的研究面临着前所未有的挑战。

2、传统的聚类算法,如k-means和层次聚类等,在特定场景下能够展现出良好的聚类效果。但当面对大规模、高维度的数据集时,它们往往因为计算复杂度过高或丢失许多数据高阶信息而导致聚类效果欠佳。

3、为应对这一挑战,业界相继提出多种多视图聚类方法和图聚类方法。多视图聚类方法通过整合多个视图的信息来丰富数据表示,从而提高聚类的准确性。图聚类方法则通过构建图模型来捕捉数据间的复杂关系,进而实现有效的聚类。然而,这些方法在处理具有复杂关系的多视图数据时仍面临诸多难题。一方面,它们难以有效捕捉数据中潜在的高阶结构信息与高阶关系,这限制了聚本文档来自技高网...

【技术保护点】

1.一种基于三阶张量自表示求相似度张量的聚类方法及系统,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述数据预处理操作包括:对输入的数据集进行清洗,去除重复、缺失和异常值,且清洗过程中,根据数据特性设置阈值,对超出阈值范围的数据进行过滤和修正,随后对数据进行归一化处理,将数据转换到同一尺度范围。

3.根据权利要求1所述的方法,其特征在于,所述函数F(A)=A1+A2+A3+……+Ai+……+Ap,其中A为样本点间相似度矩阵,i为矩阵自乘运算的阶数,p为算式的总项数。

4.根据权利要求1所述的方法,其特征在于,所述函数其中A为样...

【技术特征摘要】

1.一种基于三阶张量自表示求相似度张量的聚类方法及系统,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述数据预处理操作包括:对输入的数据集进行清洗,去除重复、缺失和异常值,且清洗过程中,根据数据特性设置阈值,对超出阈值范围的数据进行过滤和修正,随后对数据进行归一化处理,将数据转换到同一尺度范围。

3.根据权利要求1所述的方法,其特征在于,所述函数f(a)=a1+a2+a3+……+ai+……+ap,其中a为样本点间相似度矩...

【专利技术属性】
技术研发人员:高月芳潘健浩王海燕
申请(专利权)人:华南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1