一种基于关键点子空间学习的非完备多视角新闻数据聚类方法技术

技术编号:37598713 阅读:7 留言:0更新日期:2023-05-18 11:47
一种基于关键点子空间学习的非完备多视角新闻数据聚类方法,属于多媒体信息处理中的新闻数据聚类处理领域,本发明专利技术首先将非完备多视角新闻数据划分为完备子集和非完备子集,以便更好的利用视角一致性和视角特异性信息。然后,构造一个针对完备子集设计的视角公共子空间和非完备子集的视角专属子空间。最后,构建一个联合使用视角公共和视角专属子空间的完备关键点子空间,并实施快速谱聚类以得到聚类结果,以此促进模型的自适应性和鲁棒性;与其他方法相比,本发明专利技术的精确度更高,性能更加稳健。健。健。

【技术实现步骤摘要】
一种基于关键点子空间学习的非完备多视角新闻数据聚类方法


[0001]本专利技术属于多媒体信息处理中的新闻数据聚类处理领域,具体涉及一种基于关键点子空间学习的非完备多视角新闻数据聚类方法。

技术介绍

[0002]在多媒体信息处理领域,新闻数据是一种广泛可获取的数据,对新闻数据进行聚类分析,可以挖掘出其中有关新闻主题、情感态度和社会舆论等潜在类别信息。对新闻数据进行多个渠道(图、文、声等)的采集得到的数据称为多视角新闻数据,其能够更全面对新闻进行描述。然而,由于采集过程中信息的丢失或者某些渠道未报道该类新闻等因素,会导致多视角新闻数据的非完备问题。现有基于子空间学习的多视角聚类方法仅能够处理具有完备视角的数据聚类问题,无法应用于视角信息非完备的数据,这也给非完备多视角新闻数据类别划分问题带来巨大挑战,需要有效的新颖技术方法解决非完备多视角新闻数据的聚类应用。

技术实现思路

[0003]为了解决上述问题,本专利技术提供了一种基于关键点子空间学习的非完备多视角新闻数据聚类方法,所述方法包括步骤:
[0004]将一个非完备多视角新闻数据集划分为完备子集和非完备子集。
[0005]通过多视角公共子空间学习得到完备子集的一个视角公共子空间。
[0006]通过关键点子空间学习得到非完备子集的一个视角专属子空间。
[0007]将完备子集的关键点子空间和非完备子集的关键点子空间进行融合,得到一个完备关键点子空间。
[0008]对该完备关键点子空间进行谱聚类,得到出聚类结果。
>[0009]根据所得聚类结果,计算所述新闻数据集的聚类准确率。
[0010]进一步地,将所述非完备多视角新闻数据集分为完备子集和非完备子集的缺失指示矩阵定义为:
[0011][0012]其中,表示视角v的缺失指示矩阵,n和n
(v)
分别表示数据集的样本个数和视角v的非缺失样本个数。
[0013]进一步地,所述完备子集的关键点子空间表达公式为:
[0014][0015]其中,A
(v)
表示视角v的完备子集,将其作为关键点,表示视角v的完备子集上构建的子空间,表示完备子集的公共子空间,即的共同的质心,n
a
表示完备子集中的样本个数,V是视角的个数,λ表示权衡参数。
[0016]进一步地,所述非完备子集的关键点子空间的表达公式为:
[0017][0018]其中,U
(v)
表示视角v的非完备子集,A
(v)
表示视角v的完备子集,是视角专属关键点子空间。
[0019]进一步地,所述完备关键点子空间的表达公式为:
[0020][0021]其中,通过拼接每个视角v的视角公共子空间Z
a
和视角专属子空间Z
u(v)
,得到该视角所有存在样本的关键点子空间然后,与缺失指示矩阵W
(v)
加权融合得到完备关键点子空间Z。最后,对Z进行谱聚类,得到最终聚类结果C。
[0022]进一步地,根据所述聚类结果,计算出聚类准确率。
[0023]本专利技术提供了一种基于关键点子空间学习的非完备多视角新闻数据聚类方法,具有以下优势:
[0024](1)所述方法采用了多视角聚类框架,充分利用了多视角新闻数据的视角一致性和视角差异性信息,能有效挖掘数据的潜在类簇结构。
[0025](2)所述方法采用了关键点技术,选取完备子集作为关键点,充分利用了完备子集的公共信息和非完备子集的专属信息,降低了非完备数据的影响。
[0026](3)所述方法采用了子空间学习技术,建立起样本之间的相似性关系,并结合谱聚类依据子空间的相似性关系进行类簇划分,提高了聚类准确率。
附图说明
[0027]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0028]图1是本专利技术提供的基于关键点子空间学习的非完备多视角新闻数据聚类方法的流程图;
[0029]图2是一个非完备多视角新闻数据集BBC

Sport的示意图;
[0030]图3是本专利技术对比已有方法在五种非完备样本占比的BBC

Sport数据集上的聚类准确率。
具体实施方式
[0031]为使本专利技术的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本专利技术进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。
[0032]示例性方法
[0033]如图1,本专利技术提供了一种基于关键点子空间学习的非完备多视角新闻数据聚类方法,所述方法步骤如下:
[0034]步骤S110:首先输入非完备多视角新闻数据的样本特征矩阵,按照缺失指示矩阵将样本划分为完备子集和非完备子集。从各个视角的样本特征矩阵中去除缺失样本,并按照完备子集在前,非完备子集在后的顺序,组织成新的样本特征矩阵其中为每个视角的完备子集,其样本数为n
a
。为每个视角的非完备子集,其样本数为重新组织后的样本特征矩阵与原始样本特征矩阵的关系为其中表示缺失指示矩阵。选取关键点为视角完备子集中的全部样本,并将每个特征归一化为大于等于0,小于等于1的实数。
[0035]步骤S120:通过多视角公共子空间学习得到完备子集的一个视角公共子空间,其表达公式如下:
[0036][0037]其中,因为完备子集中每个样本拥有全部的视角,所以学到的Z
a
是视角公共子空间,融合了不同视角的信息。A
(v)
为视角v的完备子集,为视角v的完备子集子空间,为完备子集的视角公共子空间,即的质心。λ是权衡参数,用于平衡视角完备子空间学习项与一致性约束项的权重。
[0038]步骤S130:通过关键点子空间学习得到非完备子集的一个视角专属子空间,其表达公式如下:
[0039][0040]其中,U
(v)
表示视角v的非完备子集,A
(v)
表示视角v的完备子集,是视角v的视角专属关键点子空间。因为非完备子集的样本不能同时具备所有视角,所以无法学习一个视角公共子空间。但是,可以通过建立完备子集A
(v)
与非完备子集U
(v)
之间的相似性关系,学习非完备子集的一个视角专属子空间
[0041]步骤S140:将完备子集的视角公共子空间和非完备子集的视角专属子空间进行融合,得到一个完备关键点子空间,其表达公式为:
[0042][0043]其中,通过拼接每个视角v的视角公共子空间Z
a
和视角专属子空间本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于关键点子空间学习的非完备多视角新闻数据聚类方法,其特征在于,所述方法包括步骤:将一个非完备多视角新闻数据集划分为完备子集和非完备子集;通过多视角公共子空间学习得到完备子集的一个视角公共子空间;通过关键点子空间学习得到非完备子集的一个视角专属子空间;将完备子集的视角公共子空间和非完备子集的视角专属子空间进行融合,得到一个完备关键点子空间;对该完备关键点子空间进行谱聚类,计算出聚类结果;根据所得的聚类结果,计算所述的非完备多视角新闻数据的聚类准确率。2.根据权利要求1所述的基于关键点子空间学习的非完备多视角新闻数据聚类方法,其特征在于,将数据集划分为完备子集和非完备子集的缺失指示矩阵定义为:其中,表示视角v的缺失指示矩阵,n和n
(v)
分别表示数据集的样本个数和视角v的非缺失样本个数。3.根据权利要求1所述的基于关键点子空间学习的非完备多视角新闻数据聚类方法,其特征在于,所述完备子集的关键点子空间的表达公式为:其中,A
(v)
表示视角v的完备子集,将其作为关键点,表示视角v的完备子集上构建的子空间,表示完备...

【专利技术属性】
技术研发人员:李骜冯聪许浩越
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1