基于多模态超图聚类的文档分类方法及装置制造方法及图纸

技术编号：39727471 阅读：10 留言：0更新日期：2023-12-17 23:31

本申请涉及一种基于多模态超图聚类的文档分类方法及装置，其中，方法包括：从多模态文档数据集中，提取每份文档的至少一个图像模态特征和至少一个文本模态特征；利用至少一个图像模态特征和至少一个文本模态特征对所述多模态文档数据集进行超图结构化建模，得到不同模态的超图结构；以不同模态的超图结构进行多超图融合，得到融合超图，并对融合超图进行图上聚类，得到聚类结果，以根据聚类结果得到最终文档分类结果

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态超图聚类的文档分类方法及装置

[0001]本申请涉及数据智能分类
，特别涉及一种基于多模态超图聚类的文档分类方法及装置
。

技术介绍

[0002]在大数据时代，文档的载体已经从传统的纸质载体过渡到了在线的互联网平台，互联网平台的海量存储能力也导致了在线文档的高速发展，人们查阅文档的渠道不仅仅是报纸
、
书籍等传统载体，更多的是手机
、
笔记本电脑等移动信息终端
。
在线文档规模的大幅度扩展的同时，也带来了一些附加问题，例如分类问题
。
以新闻媒体文档数据为例，面对数据爆炸增长的互联网媒体时代，用户需要从互联网新闻媒体平台上杂乱无序的新闻库中查找自己感兴趣的话题领域进行阅览
。
传统媒体的新闻话题分类工作主要由人工标注分类，这种方法虽然准确率高，但需要大量的人力资源，效率比较低，在如今大数据新闻媒体数据库面前更是难以实现
。
因此采用智能方法对大规模文档进行自动化分类具有广泛的市场需求
。
[0003]相关技术中，根据分类文档得到文档摘要和关键词以及分类标签，并根据计算所得分类效率值判断分类结果
。
[0004]然而，相关技术中，信息表达方式以文字为主，呈现方式单一，传统文档智能分类方法标注依赖强，无法覆盖多模态文档场景，亟待改进
。

技术实现思路

[0005]本申请提供一种基于多模态超图聚类的文档分类方法及装置，以解决相关技术中，信息表达方式以

【技术保护点】

【技术特征摘要】
1.
一种基于多模态超图聚类的文档分类方法，其特征在于，包括以下步骤：从多模态文档数据集中，提取每份文档的至少一个图像模态特征和至少一个文本模态特征；利用所述至少一个图像模态特征和所述至少一个文本模态特征对所述多模态文档数据集进行超图结构化建模，得到不同模态的超图结构；以及以所述不同模态的超图结构进行多超图融合，得到融合超图，并对所述融合超图进行图上聚类，得到聚类结果，以根据所述聚类结果得到最终文档分类结果
。2.
根据权利要求1所述的方法，其特征在于，所述利用所述至少一个图像模态特征和所述至少一个文本模态特征对所述多模态文档数据集进行超图结构化建模，得到不同模态的超图结构，包括：基于所述至少一个图像模态特征，以每个样本近邻的
K
个节点构建超边，生成图像模态的结构化超图；基于所述至少一个文本模态特征，以特征的属性构建超边，生成文本模态的结构化超图
。3.
根据权利要求1所述的方法，其特征在于，在以特征的属性构建超边时，共享相同属性的样本同属一个超边
。4.
根据权利要求1所述的方法，其特征在于，所述对所述融合超图进行图上聚类，得到聚类结果，包括：利用所述融合超图的模块度来对在超图内部进行分区，得到所有文档样本的所述聚类结果
。5.
根据权利要求4所述的方法，其特征在于，所述模块度的计算公式为：其中，
z
为表示节点标签的向量，
Ω
为亲和函数，
d
为存储节点度的向量，
p
...

【专利技术属性】
技术研发人员：高跃，张宇博，李一鹏，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人