PDF文档解析方法、电子设备、存储介质及程序产品技术

技术编号：41523937 阅读：19 留言：0更新日期：2024-06-03 22:57

本申请公开一种PDF文档解析方法，包括：将PDF文档转化为待解析图片，所述PDF文档中包括文本内容、图像内容和表格内容中的至少一种；将所述待解析图片输入至图文模型，得到解析文本内容；对所述解析文本内容进行后处理，得到与所述PDF文档排版一致的目标文本内容。本申请实施例通过文本模型同时实现了对待解析图片中的文本内容、图像内容和表格内容的解析，并且通过后处理，确保了得到的目标文本内容的排版方式与PDF文档保持一致。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种pdf文档解析方法、电子设备、存储介质及程序产品。

技术介绍

1、现有的对pdf文档的解析方法多从文档内容的坐标值、光学字符识别ocr模型、文档格式等角度对文档中的纯文字内容进行解析，而实际上pdf文档中往往同时包含着文字，表格以及图像数据。现有的pdf文档分段技术中多数没有考虑图像数据的处理，而如果只对文字内容进行解析，则会丢失pdf文档中的重要信息，例如pdf文档中饼状图，柱状图，折线图蕴含的关键信息对数据分析也十分重要。

2、此外，现有技术主要侧重于对文档文字内容的提取，却忽略了对提取出的文字内容的整理，通过现有技术提取出的内容很容易丢失文档原有的版式信息，例如文档中标题与正文之间的关系，文字块中段落的划分，双栏版式pdf文档段落顺序等。

技术实现思路

1、本申请实施例提供一种pdf文档解析方法、电子设备、存储介质及程序产品，用于至少解决上述技术问题之一。

2、第一方面，本申请实施例提供一种pdf文档解析方法，包括：

>3、将pdf文档转本文档来自技高网...

【技术保护点】

1.一种PDF文档解析方法，包括：

2.根据权利要求1所述的方法，其特征在于，还包括预先训练图文模型的步骤：

3.根据权利要求2所述的方法，其特征在于，所述至少采用文本图片样本、表格图片样本和图像图片样本，对基准图文模型进行优化训练得到所述图文模型，包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，对所述解析文本内容进行后处理，得到与所述PDF文档排版一致的目标文本内容，包括：

6.根据权利要求5所述的方法，其特征在于，所述段落-标题分类模型包括基准分类模型、段落截断判断层和标...

【技术特征摘要】

1.一种pdf文档解析方法，包括：

2.根据权利要求1所述的方法，其特征在于，还包括预先训练图文模型的步骤：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，对所述解析文本内容进行后处理，得到与所述pdf文档排版一致的目标文本内容，包括：

6.根据权利要求5所述的方法，其特征在于，所述段落-标题分类模型包括基准分类模型、段落截断判断层和标题分类层；

7.根据权利要求6所述的方法，其特...

【专利技术属性】
技术研发人员：李翔，施淼元，缪庆亮，俞凯，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人