【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种pdf文档解析方法、电子设备、存储介质及程序产品。
技术介绍
1、现有的对pdf文档的解析方法多从文档内容的坐标值、光学字符识别ocr模型、文档格式等角度对文档中的纯文字内容进行解析,而实际上pdf文档中往往同时包含着文字,表格以及图像数据。现有的pdf文档分段技术中多数没有考虑图像数据的处理,而如果只对文字内容进行解析,则会丢失pdf文档中的重要信息,例如pdf文档中饼状图,柱状图,折线图蕴含的关键信息对数据分析也十分重要。
2、此外,现有技术主要侧重于对文档文字内容的提取,却忽略了对提取出的文字内容的整理,通过现有技术提取出的内容很容易丢失文档原有的版式信息,例如文档中标题与正文之间的关系,文字块中段落的划分,双栏版式pdf文档段落顺序等。
技术实现思路
1、本申请实施例提供一种pdf文档解析方法、电子设备、存储介质及程序产品,用于至少解决上述技术问题之一。
2、第一方面,本申请实施例提供一种pdf文档解析方法,包括:
【技术保护点】
1.一种PDF文档解析方法,包括:
2.根据权利要求1所述的方法,其特征在于,还包括预先训练图文模型的步骤:
3.根据权利要求2所述的方法,其特征在于,所述至少采用文本图片样本、表格图片样本和图像图片样本,对基准图文模型进行优化训练得到所述图文模型,包括:
4.根据权利要求3所述的方法,其特征在于,还包括:
5.根据权利要求1所述的方法,其特征在于,对所述解析文本内容进行后处理,得到与所述PDF文档排版一致的目标文本内容,包括:
6.根据权利要求5所述的方法,其特征在于,所述段落-标题分类模型包括基准分类模型
...【技术特征摘要】
1.一种pdf文档解析方法,包括:
2.根据权利要求1所述的方法,其特征在于,还包括预先训练图文模型的步骤:
3.根据权利要求2所述的方法,其特征在于,所述至少采用文本图片样本、表格图片样本和图像图片样本,对基准图文模型进行优化训练得到所述图文模型,包括:
4.根据权利要求3所述的方法,其特征在于,还包括:
5.根据权利要求1所述的方法,其特征在于,对所述解析文本内容进行后处理,得到与所述pdf文档排版一致的目标文本内容,包括:
6.根据权利要求5所述的方法,其特征在于,所述段落-标题分类模型包括基准分类模型、段落截断判断层和标题分类层;
7.根据权利要求6所述的方法,其特...
【专利技术属性】
技术研发人员:李翔,施淼元,缪庆亮,俞凯,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。