PDF文档解析方法、电子设备、存储介质及程序产品技术

技术编号:41523937 阅读:19 留言:0更新日期:2024-06-03 22:57
本申请公开一种PDF文档解析方法,包括:将PDF文档转化为待解析图片,所述PDF文档中包括文本内容、图像内容和表格内容中的至少一种;将所述待解析图片输入至图文模型,得到解析文本内容;对所述解析文本内容进行后处理,得到与所述PDF文档排版一致的目标文本内容。本申请实施例通过文本模型同时实现了对待解析图片中的文本内容、图像内容和表格内容的解析,并且通过后处理,确保了得到的目标文本内容的排版方式与PDF文档保持一致。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种pdf文档解析方法、电子设备、存储介质及程序产品。


技术介绍

1、现有的对pdf文档的解析方法多从文档内容的坐标值、光学字符识别ocr模型、文档格式等角度对文档中的纯文字内容进行解析,而实际上pdf文档中往往同时包含着文字,表格以及图像数据。现有的pdf文档分段技术中多数没有考虑图像数据的处理,而如果只对文字内容进行解析,则会丢失pdf文档中的重要信息,例如pdf文档中饼状图,柱状图,折线图蕴含的关键信息对数据分析也十分重要。

2、此外,现有技术主要侧重于对文档文字内容的提取,却忽略了对提取出的文字内容的整理,通过现有技术提取出的内容很容易丢失文档原有的版式信息,例如文档中标题与正文之间的关系,文字块中段落的划分,双栏版式pdf文档段落顺序等。


技术实现思路

1、本申请实施例提供一种pdf文档解析方法、电子设备、存储介质及程序产品,用于至少解决上述技术问题之一。

2、第一方面,本申请实施例提供一种pdf文档解析方法,包括:

>3、将pdf文档转本文档来自技高网...

【技术保护点】

1.一种PDF文档解析方法,包括:

2.根据权利要求1所述的方法,其特征在于,还包括预先训练图文模型的步骤:

3.根据权利要求2所述的方法,其特征在于,所述至少采用文本图片样本、表格图片样本和图像图片样本,对基准图文模型进行优化训练得到所述图文模型,包括:

4.根据权利要求3所述的方法,其特征在于,还包括:

5.根据权利要求1所述的方法,其特征在于,对所述解析文本内容进行后处理,得到与所述PDF文档排版一致的目标文本内容,包括:

6.根据权利要求5所述的方法,其特征在于,所述段落-标题分类模型包括基准分类模型、段落截断判断层和标...

【技术特征摘要】

1.一种pdf文档解析方法,包括:

2.根据权利要求1所述的方法,其特征在于,还包括预先训练图文模型的步骤:

3.根据权利要求2所述的方法,其特征在于,所述至少采用文本图片样本、表格图片样本和图像图片样本,对基准图文模型进行优化训练得到所述图文模型,包括:

4.根据权利要求3所述的方法,其特征在于,还包括:

5.根据权利要求1所述的方法,其特征在于,对所述解析文本内容进行后处理,得到与所述pdf文档排版一致的目标文本内容,包括:

6.根据权利要求5所述的方法,其特征在于,所述段落-标题分类模型包括基准分类模型、段落截断判断层和标题分类层;

7.根据权利要求6所述的方法,其特...

【专利技术属性】
技术研发人员:李翔施淼元缪庆亮俞凯
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1