当前位置: 首页 > 专利查询>清华大学专利>正文

基于多模态超图聚类的文档分类方法及装置制造方法及图纸

技术编号:39727471 阅读:10 留言:0更新日期:2023-12-17 23:31
本申请涉及一种基于多模态超图聚类的文档分类方法及装置,其中,方法包括:从多模态文档数据集中,提取每份文档的至少一个图像模态特征和至少一个文本模态特征;利用至少一个图像模态特征和至少一个文本模态特征对所述多模态文档数据集进行超图结构化建模,得到不同模态的超图结构;以不同模态的超图结构进行多超图融合,得到融合超图,并对融合超图进行图上聚类,得到聚类结果,以根据聚类结果得到最终文档分类结果

【技术实现步骤摘要】
基于多模态超图聚类的文档分类方法及装置


[0001]本申请涉及数据智能分类
,特别涉及一种基于多模态超图聚类的文档分类方法及装置


技术介绍

[0002]在大数据时代,文档的载体已经从传统的纸质载体过渡到了在线的互联网平台,互联网平台的海量存储能力也导致了在线文档的高速发展,人们查阅文档的渠道不仅仅是报纸

书籍等传统载体,更多的是手机

笔记本电脑等移动信息终端

在线文档规模的大幅度扩展的同时,也带来了一些附加问题,例如分类问题

以新闻媒体文档数据为例,面对数据爆炸增长的互联网媒体时代,用户需要从互联网新闻媒体平台上杂乱无序的新闻库中查找自己感兴趣的话题领域进行阅览

传统媒体的新闻话题分类工作主要由人工标注分类,这种方法虽然准确率高,但需要大量的人力资源,效率比较低,在如今大数据新闻媒体数据库面前更是难以实现

因此采用智能方法对大规模文档进行自动化分类具有广泛的市场需求

[0003]相关技术中,根据分类文档得到文档摘要和关键词以及分类标签,并根据计算所得分类效率值判断分类结果

[0004]然而,相关技术中,信息表达方式以文字为主,呈现方式单一,传统文档智能分类方法标注依赖强,无法覆盖多模态文档场景,亟待改进


技术实现思路

[0005]本申请提供一种基于多模态超图聚类的文档分类方法及装置,以解决相关技术中,信息表达方式以文字为主,呈现方式单一,传统文档智能分类方法标注依赖强,无法覆盖多模态文档场景等问题

[0006]本申请第一方面实施例提供一种基于多模态超图聚类的文档分类方法,包括以下步骤:从多模态文档数据集中,提取每份文档的至少一个图像模态特征和至少一个文本模态特征;利用所述至少一个图像模态特征和所述至少一个文本模态特征对所述多模态文档数据集进行超图结构化建模,得到不同模态的超图结构;以及以所述不同模态的超图结构进行多超图融合,得到融合超图,并对所述融合超图进行图上聚类,得到聚类结果,以根据所述聚类结果得到最终文档分类结果

[0007]可选地,在本申请的一个实施例中,所述利用所述至少一个图像模态特征和所述至少一个文本模态特征对所述多模态文档数据集进行超图结构化建模,得到不同模态的超图结构,包括:基于所述至少一个图像模态特征,以每个样本近邻的
K
个节点构建超边,生成图像模态的结构化超图;基于所述至少一个文本模态特征,以特征的属性构建超边,生成文本模态的结构化超图

[0008]可选地,在本申请的一个实施例中,在以特征的属性构建超边时,共享相同属性的样本同属一个超边

[0009]可选地,在本申请的一个实施例中,所述对所述融合超图进行图上聚类,得到聚类结果,包括:利用所述融合超图的模块度来对在超图内部进行分区,得到所有文档样本的所述聚类结果

[0010]可选地,在本申请的一个实施例中,所述模块度的计算公式为:
[0011][0012]其中,
z
为表示节点标签的向量,
Ω
为亲和函数,
d
为存储节点度的向量,
p
为定义的分割向量

[0013]本申请第二方面实施例提供一种基于多模态超图聚类的文档分类装置,包括:提取模块,用于从多模态文档数据集中,提取每份文档的至少一个图像模态特征和至少一个文本模态特征;构建模块,用于利用所述至少一个图像模态特征和所述至少一个文本模态特征对所述多模态文档数据集进行超图结构化建模,得到不同模态的超图结构;以及分类模块,用于以所述不同模态的超图结构进行多超图融合,得到融合超图,并对所述融合超图进行图上聚类,得到聚类结果,以根据所述聚类结果得到最终文档分类结果

[0014]可选地,在本申请的一个实施例中,所述构建模块包括:第一生成单元,用于基于所述至少一个图像模态特征,以每个样本近邻的
K
个节点构建超边,生成图像模态的结构化超图;第二生成单元,用于基于所述至少一个文本模态特征,以特征的属性构建超边,生成文本模态的结构化超图

[0015]可选地,在本申请的一个实施例中,在以特征的属性构建超边时,共享相同属性的样本同属一个超边

[0016]可选地,在本申请的一个实施例中,所述分类模块包括:分区单元,用于利用所述融合超图的模块度来对在超图内部进行分区,得到所有文档样本的所述聚类结果

[0017]可选地,在本申请的一个实施例中,所述模块度的计算公式为:
[0018][0019]其中,
z
为表示节点标签的向量,
Ω
为亲和函数,
d
为存储节点度的向量,
p
为定义的分割向量

[0020]本申请第三方面实施例提供一种电子设备,包括:存储器

处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的基于多模态超图聚类的文档分类方法

[0021]本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,该程序被处理器执行时实现如上的基于多模态超图聚类的文档分类方法

[0022]本申请实施例可以通过对文档的不同模态数据进行特征提取并对每个模态进行超图结构化建模,对不同模态的超图进行融合,在融合超图上进行图上聚类,从而根据图上聚类的结果对文档进行智能分类

由此,解决了相关技术中,信息表达方式以文字为主,呈现方式单一,传统文档智能分类方法标注依赖强,无法覆盖多模态文档场景等问题

[0023]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到

附图说明
[0024]本申请上述的和
/
或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0025]图1为根据本申请实施例提供的一种基于多模态超图聚类的文档分类方法的流程图;
[0026]图2为根据本申请实施例的基于多模态超图聚类的文档分类方法的工作原理示意图;
[0027]图3为根据本申请实施例的基于多模态超图聚类的文档分类方法的多模态文档数据示意图;
[0028]图4为根据本申请实施例的基于多模态超图聚类的文档分装置的示例图;
[0029]图5为根据本申请实施例的电子设备的结构示意图

具体实施方式
[0030]下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件...

【技术保护点】

【技术特征摘要】
1.
一种基于多模态超图聚类的文档分类方法,其特征在于,包括以下步骤:从多模态文档数据集中,提取每份文档的至少一个图像模态特征和至少一个文本模态特征;利用所述至少一个图像模态特征和所述至少一个文本模态特征对所述多模态文档数据集进行超图结构化建模,得到不同模态的超图结构;以及以所述不同模态的超图结构进行多超图融合,得到融合超图,并对所述融合超图进行图上聚类,得到聚类结果,以根据所述聚类结果得到最终文档分类结果
。2.
根据权利要求1所述的方法,其特征在于,所述利用所述至少一个图像模态特征和所述至少一个文本模态特征对所述多模态文档数据集进行超图结构化建模,得到不同模态的超图结构,包括:基于所述至少一个图像模态特征,以每个样本近邻的
K
个节点构建超边,生成图像模态的结构化超图;基于所述至少一个文本模态特征,以特征的属性构建超边,生成文本模态的结构化超图
。3.
根据权利要求1所述的方法,其特征在于,在以特征的属性构建超边时,共享相同属性的样本同属一个超边
。4.
根据权利要求1所述的方法,其特征在于,所述对所述融合超图进行图上聚类,得到聚类结果,包括:利用所述融合超图的模块度来对在超图内部进行分区,得到所有文档样本的所述聚类结果
。5.
根据权利要求4所述的方法,其特征在于,所述模块度的计算公式为:其中,
z
为表示节点标签的向量,
Ω
为亲和函数,
d
为存储节点度的向量,
p
...

【专利技术属性】
技术研发人员:高跃张宇博李一鹏
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1