一种针对包含合成字段的PDF文档文本提取方法技术

技术编号:41797165 阅读:12 留言:0更新日期:2024-06-24 20:21
本发明专利技术公开了一种针对包含合成字段的PDF文档文本提取方法,包括:解析获得当前PDF页面上的信息;去重处理;解析出PDF页面上的表格,过滤得到表格外和内的字符,过滤得到表格外和内的水平边,移除无效字符并识别低线字符;将连续的低线字符转换成低线字符的水平边,增加到表格外的水平边中,得到水平边集合;切分成字符行;切分成线段行,合并字符行和线段行,形成新的行集合,对行集合排序,对排序后的集合,再次进行聚合,得到聚合行;将所有聚合行,提取文本内容,然后拼接成聚合行文本;由聚合行文本形成PDF页面文本。本发明专利技术能很好地识别后续合成到PDF上的文本片段,完成对整个文档文本内容的正确提取。

【技术实现步骤摘要】

本专利技术涉及pdf文档文本信息提取,具体涉及一种针对包含合成字段的pdf文档文本提取方法。


技术介绍

1、pdf全称为portable document format,即“便携式文档格式”,是一种应用广泛的文档格式。pdf文档具备良好的跨平台性、格式一致性以及可读性,并且还可以文档上施加电子签名,以保障文档的完整性和不可抵赖性,因此成为电子合同领域的首选文档格式。

2、电子合同在生成和签署过程中广泛存在着在pdf文档上继续合成文本字段的情况。后续合成到pdf上的文本字段和原始文本可能在位置、字体、字号大小等方面都有不同,同时还存在文本字段与原始文本重叠、预留宽度不够导致合成文本换行等情形,因此传统的文本提取方案不能正确地提取这种文档的文本内容,从而导致基于文档文本内容进行的后续处理精确度不高。


技术实现思路

1、针对上述问题,本专利技术提出了一种针对包含合成字段的pdf文档文本提取方法,能很好地识别后续合成到pdf上的文本片段,特别是合同文本片段发生换行的情况,完成对整个文档文本内容的正确提取。本文档来自技高网...

【技术保护点】

1.一种针对包含合成字段的PDF文档文本提取方法,包括以下步骤:

2.根据权利要求1所述的针对包含合成字段的PDF文档文本提取方法,其特征在于,步骤3)中,根据线条和矩形解析出PDF页面上的表格,具体包括:

3.根据权利要求1所述的针对包含合成字段的PDF文档文本提取方法,其特征在于,步骤3)中,无效字符具体包括:

4.根据权利要求1所述的针对包含合成字段的PDF文档文本提取方法,其特征在于,步骤4)中,将步骤3)中获得的低线字符集合中连续的低线字符转换成低线字符的水平边,具体包括:

5.根据权利要求1所述的针对包含合成字段的PDF文档文本...

【技术特征摘要】

1.一种针对包含合成字段的pdf文档文本提取方法,包括以下步骤:

2.根据权利要求1所述的针对包含合成字段的pdf文档文本提取方法,其特征在于,步骤3)中,根据线条和矩形解析出pdf页面上的表格,具体包括:

3.根据权利要求1所述的针对包含合成字段的pdf文档文本提取方法,其特征在于,步骤3)中,无效字符具体包括:

4.根据权利要求1所述的针对包含合成字段的pdf文档文本提取方法,其特征在于,步骤4)中,将步骤3)中获得的低线字符集合中连续的低线字符转换成低线字符的水平边,具体包括:

5.根据权利要求1所述的针对包含合成字段的pdf文档文本提取...

【专利技术属性】
技术研发人员:程欢王海峰
申请(专利权)人:杭州尚尚签网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1