数据处理方法、计算机及存储介质技术

技术编号:46472592 阅读:9 留言:0更新日期:2025-09-23 22:32
本申请公开了数据处理方法、计算机及存储介质,包括:基于多模态文档的文本结构信息,检测到多模态文档中不存在目录结构,则通过语义识别得到多模态文档中每个页面的第一主题;基于多模态文档中每个页面的第一主题,检测到多模态文档中相邻页面的第一主题的相似度大于相似度阈值,则将相邻页面归入同一页面分组;根据多模态文档中每个页面分组中页面的第一主题,得到每个页面分组的第二主题;根据每个页面分组的第二主题得到每个页面分组的目录,将多个页面分组的目录进行组合,得到多模态文档的目录结构。基于页面相似度分组,并根据分组的主题生成目录,能充分反映文档核心信息,确保目录与多模态文档内容的匹配度,提高生成目录的准确性。

【技术实现步骤摘要】

本申请涉及机器学习,尤其涉及一种数据处理方法、计算机及存储介质


技术介绍

1、长久以来,跨模态的文档数据信息解析一直是困扰算法和数据工程的重点和难点之一,现实生活中人们编撰的大量文档,其信息展现形式都是跨模态的。当多模态文档缺乏目录时,用户在查找和定位特定信息时会面临极大困难,现有方案在生成多模态文档的目录时,无法全面地提取解析所有模态的相关内容,进而导致依据提取的文档内容所生成的目录无法充分反映文档整体架构与核心信息,生成的目录准确性较低。


技术实现思路

1、本申请实施例提供一种数据处理方法、计算机及存储介质,通过语义识别获取所有页面的第一主题后,基于相邻页面相似度进行分组,并根据分组的第二主题生成目录,能够充分反映文档整体架构与核心信息,确保生成目录与多模态文档实际内容的匹配度,提高生成目录的准确性。

2、第一方面,本申请实施例提供了一种数据处理方法,包括:

3、通过对多模态文档进行结构解析,得到所述多模态文档的文本结构信息;基于所述多模态文档的文本结构信息,检测到所述多模态文档本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述通过对多模态文档进行结构解析,得到所述多模态文档的文本结构信息,包括:

3.如权利要求2所述的方法,其特征在于,所述结构解析文件的配置表中配置有多模态文档的文件类型与解析文件的映射关系,所述根据结构解析文件的配置表和所述多模态文档的文件类型,确定针对所述多模态文档的第一结构解析文件,包括:

4.如权利要求2或3所述的方法,其特征在于,所述文本结构信息包括文本的格式特征和层次关系,所述根据所述第一结构解析文件对所述多模态文档进行解析,得到所述多模态文档的文本结构...

【技术特征摘要】

1.一种数据处理方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述通过对多模态文档进行结构解析,得到所述多模态文档的文本结构信息,包括:

3.如权利要求2所述的方法,其特征在于,所述结构解析文件的配置表中配置有多模态文档的文件类型与解析文件的映射关系,所述根据结构解析文件的配置表和所述多模态文档的文件类型,确定针对所述多模态文档的第一结构解析文件,包括:

4.如权利要求2或3所述的方法,其特征在于,所述文本结构信息包括文本的格式特征和层次关系,所述根据所述第一结构解析文件对所述多模态文档进行解析,得到所述多模态文档的文本结构信息,包括:

5.如权利要求1-4任一项所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:任皓徐俊杰陈志阔饶齐陶万杰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1