【技术实现步骤摘要】
本申请涉及机器学习,尤其涉及一种数据处理方法、计算机及存储介质。
技术介绍
1、长久以来,跨模态的文档数据信息解析一直是困扰算法和数据工程的重点和难点之一,现实生活中人们编撰的大量文档,其信息展现形式都是跨模态的。当多模态文档缺乏目录时,用户在查找和定位特定信息时会面临极大困难,现有方案在生成多模态文档的目录时,无法全面地提取解析所有模态的相关内容,进而导致依据提取的文档内容所生成的目录无法充分反映文档整体架构与核心信息,生成的目录准确性较低。
技术实现思路
1、本申请实施例提供一种数据处理方法、计算机及存储介质,通过语义识别获取所有页面的第一主题后,基于相邻页面相似度进行分组,并根据分组的第二主题生成目录,能够充分反映文档整体架构与核心信息,确保生成目录与多模态文档实际内容的匹配度,提高生成目录的准确性。
2、第一方面,本申请实施例提供了一种数据处理方法,包括:
3、通过对多模态文档进行结构解析,得到所述多模态文档的文本结构信息;基于所述多模态文档的文本结构信息,
...【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述通过对多模态文档进行结构解析,得到所述多模态文档的文本结构信息,包括:
3.如权利要求2所述的方法,其特征在于,所述结构解析文件的配置表中配置有多模态文档的文件类型与解析文件的映射关系,所述根据结构解析文件的配置表和所述多模态文档的文件类型,确定针对所述多模态文档的第一结构解析文件,包括:
4.如权利要求2或3所述的方法,其特征在于,所述文本结构信息包括文本的格式特征和层次关系,所述根据所述第一结构解析文件对所述多模态文档进行解析,得到所述
...【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述通过对多模态文档进行结构解析,得到所述多模态文档的文本结构信息,包括:
3.如权利要求2所述的方法,其特征在于,所述结构解析文件的配置表中配置有多模态文档的文件类型与解析文件的映射关系,所述根据结构解析文件的配置表和所述多模态文档的文件类型,确定针对所述多模态文档的第一结构解析文件,包括:
4.如权利要求2或3所述的方法,其特征在于,所述文本结构信息包括文本的格式特征和层次关系,所述根据所述第一结构解析文件对所述多模态文档进行解析,得到所述多模态文档的文本结构信息,包括:
5.如权利要求1-4任一项所述的方法,其特征在于,所...
【专利技术属性】
技术研发人员:任皓,徐俊杰,陈志阔,饶齐,陶万杰,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。