文件内容管理方法、装置、电子设备、存储介质及计算机产品制造方法及图纸

技术编号:46625582 阅读:1 留言:0更新日期:2025-10-14 21:22
本申请涉及计算机技术领域,提供一种文件内容管理方法、装置、电子设备、存储介质及计算机产品,方法包括:接收到待处理文件,针对所述待处理文件中的内容块进行结构识别与内容识别,得到内容块结构信息与文本信息;所述内容块包括文本块、图像块、表格块与页眉页脚块中的至少一种;将所述文本信息,按照所述内容块结构信息进行内容填充,得到至少一个填充内容块;对各所述填充内容块进行渲染后,按照所述待处理文件的内容块布局方式输出。本申请可以提高文件内容管理的可靠性与可读性。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种文件内容管理方法、装置、电子设备、存储介质及计算机产品


技术介绍

1、当前,文档提取最常用的方法是通过光学字符识别(optical characterrecongnition,ocr)技术得到文档中的每个文字的坐标与内容。此外,也有一些可以进行文档布局识别的模型和文档内容抽取的视觉模型。进而,可以根据由上述技术或模型提取的信息,进行重新布局后再输出,由此完成对文件内容的管理。

2、但是,上述各文件内容管理方案当文件中包含较为复杂的表格时,无法将表格数据展示为具有正确结构的文本表达,导致进行文件内容管理时可靠性与可读性不足。


技术实现思路

1、本申请旨在至少解决相关技术中存在的技术问题之一。为此,本申请提出一种文件内容管理方法、装置、电子设备、存储介质及计算机产品,用以解决当前的文件内容管理方案在文件中包含较为复杂的表格时,无法将表格数据展示为具有正确结构的文本表达的问题,实现提高文件内容管理的可靠性与可读性。

2、根据本申请第一方面实施例的文件内容管理方本文档来自技高网...

【技术保护点】

1.一种文件内容管理方法,其特征在于,包括:

2.根据权利要求1所述的文件内容管理方法,其特征在于,针对所述待处理文件中的内容块进行结构识别,得到内容块结构信息,包括:

3.根据权利要求2所述的文件内容管理方法,其特征在于,所述利用内容块识别模型对所述待处理文件中的内容块进行结构识别,得到内容块结构信息,包括:

4.根据权利要求3所述的文件内容管理方法,其特征在于,针对所述待处理文件中的内容块进行内容识别,得到文本信息,包括:

5.根据权利要求1所述的文件内容管理方法,其特征在于,所述对各所述填充内容块进行渲染,包括:</p>

6.根据...

【技术特征摘要】

1.一种文件内容管理方法,其特征在于,包括:

2.根据权利要求1所述的文件内容管理方法,其特征在于,针对所述待处理文件中的内容块进行结构识别,得到内容块结构信息,包括:

3.根据权利要求2所述的文件内容管理方法,其特征在于,所述利用内容块识别模型对所述待处理文件中的内容块进行结构识别,得到内容块结构信息,包括:

4.根据权利要求3所述的文件内容管理方法,其特征在于,针对所述待处理文件中的内容块进行内容识别,得到文本信息,包括:

5.根据权利要求1所述的文件内容管理方法,其特征在于,所述对各所述填充内容块进行渲染,包括:

6.根据权利要求1所述的文件内容管理方法,其特征在于,所述将所述文本...

【专利技术属性】
技术研发人员:王树达黄炳耀赵捷
申请(专利权)人:北京壹佰壹拾壹医药科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1