本发明专利技术属于智能计算领域,涉及基于自适应缺失视角补全的端对端不完整多视角聚类方法。该方法是无监督的聚类算法,本发明专利技术在传统的多视角模糊聚类的基础上构建了一个新的端到端聚类框架,将缺失视角的补全、隐视角的学习和聚类这三个任务整合为一个过程。该框架不仅实现了三个任务的相互协调,还实现了隐视角和可见视角之间的合作学习。本发明专利技术还同时挖掘了视角内部和视角之间的信息,并提出了两种增强的学习机制,以提高补全的缺失视角和隐视角的学习质量。最后,本发明专利技术引入了一个自适应的视角加权机制,以进一步提高模型的稳健性。经过大量实验证明本发明专利技术可以有效的处理不完整多视角数据。角数据。角数据。
【技术实现步骤摘要】
基于自适应缺失视角补全的端对端不完整多视角聚类方法
[0001]本专利技术属于智能计算领域,具体涉及基于自适应缺失视角补全的端对端不完整多视角聚类方法。
技术背景
[0002]模糊C
‑
均值聚类(FCM)作为机器学习的一种经典的学习方法,一直以来受到了广泛的关注,并广泛用于处理从单一来源获得的数据。随着数据采集技术的快速发展,从不同来源采集的数据,即所谓的多视角数据,越来越多。由于FCM以及其他传统的模糊聚类方法不能有效地发掘视角之间的信息,因此多视角模糊聚类研究成为近年来的一个趋势性课题。近年来涌现出一大批有效的多视角模糊聚类算法,然而这些多视角模糊聚类方法都是基于一个共同的假设,即所有视角的实例和特征都是完整的。因此,它们只能用于完整的多视角数据,不适用于不完整的数据。
[0003]在实际应用中,收集的多视角数据往往是不完整的。不完整的原因可能是缺乏实例或缺乏特征。本专利技术主要讨论前者,因此本专利技术中不完整的多视角数据是指缺少实例的多视角数据。在实际应用中,不完整的多视角数据的一个例子可以在网络图像检索中找到,其中文本描述并不总是与网络图像相关联,一些网络图像可能没有相关文本。另一个例子是关于多语言文档聚类,在这种情况下,一种语言可以被认为是一个文档的视角,但由于缺乏该文档的所有翻译版本,这些视角可能是不完整的。因此,如何构建一个多视角模糊聚类方法,对这些不完整的多视角数据进行有效聚类是一个实际问题,也是一个重要问题。
[0004]近年来,研究人员提出了许多不同的方法来处理不完整的多视角数据。根据所采用的处理缺失视角的策略,现有的不完整多视角聚类方法可以分为两大类:基于部分视角的方法和基于缺失视角补全的方法。基于部分视角的方法通常是基于不完整的多视角数据直接探索共性隐视角,然后对隐视角进行聚类。基于缺失视角补全的方法通常是对缺失的视角进行补全,然后进行聚类。
[0005]尽管当前不完全多视角聚类有了很大的进步,但现有的这些方法仍有一些不足之处。
[0006]1)首先,现有的方法大多是"两步法",即这些方法先学习隐藏视角或补全缺失视角,然后进行聚类。这两个过程的分离导致补全的缺失视角或学习的隐藏视角与随后的聚类之间缺乏互动。
[0007]2)其次,现有的方法要么只使用学习到的隐藏视角进行聚类,要么只使用补全的可见视角进行聚类。他们处于两个极端,使其不足以为聚类挖掘全面的信息。因此,有效整合隐藏和可见信息是提高不完全多视角聚类性能的关键。
[0008]3)最后,大多数基于缺失视角补全方法只挖掘视角内的信息进行补全,而忽略了视角间的信息,这可能会降低补全数据的质量。
[0009]因此,不完整多视角聚类仍然面临重大挑战。
技术实现思路
[0010]根据以上现有技术的不足,本专利技术的目的是提供一种基于自适应缺失视角补全的端对端不完整多视角模糊聚类方法(EEIMV_FCM)。EEIMV_FCM的关键部分是端到端的不完整多视角聚类框架,它将缺失视角归纳、隐藏视角学习和聚类整合到一个统一的过程中,使这三个过程相互受益。
[0011]本专利技术的技术方案如下:
[0012]基于自适应缺失视角补全的端对端不完整多视角聚类方法,包括以下步骤:
[0013]第一步:确定待聚类多视角数据的聚类个数c,视角个数K,样本大小N,各视角的特征维度d
k
。
[0014]第二步:根据输入的不完整多视角数据确定标识矩阵E
k
,其定义如下:
[0015][0016]同时随机初始化各视角的模糊划分矩阵U
k
,聚类中心矩阵V
k
,各视角权重w
k
,映射矩阵B
k
。确定算法最大迭代次数
[0017]第三步:构建初始化的目标公式,并计算目标公式值,其中目标公式如下:
[0018]其中γ,δ,μ和β为超参数,超参数通常采用网格搜索策略来确定。公式(2)具体解释如下:前两项用于对补全后视角以及隐视角进行聚类,同时补全缺失视角。第三、四项角进行聚类,同时补全缺失视角。第三、四项用于捕捉结构化信息,实现补全视角以及隐视角可判别性的提升。第五项用于获取视角问一致性信息,同样实现补全视角以及隐视角可判别性的提升。第六项用于自适应调节各视角的权重。
[0019]第四步:本专利技术采用交替迭代优化进行求解各优化项,具体过程如下:
[0020]4.1固定U
k
,F
k
,B
k
和w
k
,更新V
k
[0021]当U
k
,F
k
,B
k
和w
k
固定时,需要最小化以下目标公式
[0022][0023]令为第(K+k)视角,通过将式(3)相对于V
k
的导数置于零,由此可得到V
k
的更新公式:
[0024][0025]4.2固定V
k
,F
k
,B
k
和w
k
,更新U
k
[0026]当V
k
,F
k
,B
k
和w
k
固定时,需要最小化以下目标公式:
[0027][0028][0029]令为第(K+k)视角,通过将式(5)相对于U
k
的导数置于零,由此可得到U
k
的更新公式:
[0030][0031]4.3固定V
k
,F
k
,U
k
和w
k
,更新B
k
[0032]当V
k
,F
k
,U
k
和w
k
固定时,需要最小化以下目标公式
[0033][0034]通过将式(7)相对于B
k
的导数置于零,由此可得到B
k
的更新公式:
[0035]4.4固定V
k
,B
k
,U
k
和w
k
,更新F
k
[0036]当V
k
,B
k
,U
k
和w
k
固定时,需要最小化以下目标公式:
[0037][0038]通过将式(9)相对于F
k
的导数置于零,由此可得到F
k
的更新公式:
[0039][0040]其中I是单位居中,S
k
∈R
N*N
是对角矩阵,和定义如下
[0041][0042][0043]4.5固定V
k
,B
k
,U
k
和F
k
,更新w
k本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于自适应缺失视角补全的端对端不完整多视角聚类方法,其特征在于,包括以下步骤:第一步:确定待聚类多视角数据的聚类个数c,视角个数K,样本大小N,各视角的特征维度d
k
;第二步:根据输入的不完整多视角数据确定标识矩阵E
k
,其定义如下:同时随机初始化各视角的模糊划分矩阵U
k
,聚类中心矩阵V
k
,各视角权重w
k
,映射矩阵B
k
;确定算法最大迭代次数第三步:构建初始化的目标公式,并计算目标公式值,其中目标公式如下:第三步:构建初始化的目标公式,并计算目标公式值,其中目标公式如下:其中γ,δ,μ和β为超参数,超参数通常采用网格搜索策略来确定;公式(2)具体解释如下:前两项用于对补全后视角以及隐视角进行聚类,同时补全缺失视角;第三、四项用于捕捉结构化信息,实现补全视角以及隐视角可判别性的提升;第四、第五项用于获取视角间一致性信息,同样实现补全视角以及隐视角可判别性的提升;第五、第六项用于自适应调节各视角的权重;第四步:本发明采用交替迭代优化进行求解各优化项;第五步:重复上述步骤直至收敛或达到最大迭代次数,并根据上一步中最优的模糊划分矩阵,根据下式得到最终的聚类划分矩阵:2.如权利要求1所述的基于自适应缺失视角补全的端对端不完整多视角聚类方法,其特征在于:所述的第四步,具体操作如下:
4.1固定U
k
,F
k
,B
k
和w
k
,更新V
k
当U
k
,F
k
,B
k
和w
k
固定时,需要最小化以下目标公式令为第(K+k)视角,通过将式(3)相对于V
k
的导数置于零,由此可得到V
k
的更新公式:4.2固定V
k
,F
k
,B
k
和w
k
,更新U
k
当V
k
...
【专利技术属性】
技术研发人员:邓赵红,张炜,王士同,
申请(专利权)人:江南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。