一种针对包含合成字段的PDF文档文本提取方法技术

技术编号：41797165 阅读：12 留言：0更新日期：2024-06-24 20:21

本发明专利技术公开了一种针对包含合成字段的PDF文档文本提取方法，包括：解析获得当前PDF页面上的信息；去重处理；解析出PDF页面上的表格，过滤得到表格外和内的字符，过滤得到表格外和内的水平边，移除无效字符并识别低线字符；将连续的低线字符转换成低线字符的水平边，增加到表格外的水平边中，得到水平边集合；切分成字符行；切分成线段行，合并字符行和线段行，形成新的行集合，对行集合排序，对排序后的集合，再次进行聚合，得到聚合行；将所有聚合行，提取文本内容，然后拼接成聚合行文本；由聚合行文本形成PDF页面文本。本发明专利技术能很好地识别后续合成到PDF上的文本片段，完成对整个文档文本内容的正确提取。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及pdf文档文本信息提取，具体涉及一种针对包含合成字段的pdf文档文本提取方法。

技术介绍

1、pdf全称为portable document format，即“便携式文档格式”，是一种应用广泛的文档格式。pdf文档具备良好的跨平台性、格式一致性以及可读性，并且还可以文档上施加电子签名，以保障文档的完整性和不可抵赖性，因此成为电子合同领域的首选文档格式。

2、电子合同在生成和签署过程中广泛存在着在pdf文档上继续合成文本字段的情况。后续合成到pdf上的文本字段和原始文本可能在位置、字体、字号大小等方面都有不同，同时还存在文本字段与原始文本重叠、预留宽度不够导致合成文本换行等情形，因此传统的文本提取方案不能正确地提取这种文档的文本内容，从而导致基于文档文本内容进行的后续处理精确度不高。

技术实现思路

1、针对上述问题，本专利技术提出了一种针对包含合成字段的pdf文档文本提取方法，能很好地识别后续合成到pdf上的文本片段，特别是合同文本片段发生换行的情况，完成对整个文档...

【技术保护点】

1.一种针对包含合成字段的PDF文档文本提取方法，包括以下步骤：

2.根据权利要求1所述的针对包含合成字段的PDF文档文本提取方法，其特征在于，步骤3)中，根据线条和矩形解析出PDF页面上的表格，具体包括：

3.根据权利要求1所述的针对包含合成字段的PDF文档文本提取方法，其特征在于，步骤3)中，无效字符具体包括：

4.根据权利要求1所述的针对包含合成字段的PDF文档文本提取方法，其特征在于，步骤4)中，将步骤3)中获得的低线字符集合中连续的低线字符转换成低线字符的水平边，具体包括：

5.根据权利要求1所述的针对包含合成字段的PDF文档文本...

【技术特征摘要】

1.一种针对包含合成字段的pdf文档文本提取方法，包括以下步骤：

2.根据权利要求1所述的针对包含合成字段的pdf文档文本提取方法，其特征在于，步骤3)中，根据线条和矩形解析出pdf页面上的表格，具体包括：

3.根据权利要求1所述的针对包含合成字段的pdf文档文本提取方法，其特征在于，步骤3)中，无效字符具体包括：

4.根据权利要求1所述的针对包含合成字段的pdf文档文本提取方法，其特征在于，步骤4)中，将步骤3)中获得的低线字符集合中连续的低线字符转换成低线字符的水平边，具体包括：

5.根据权利要求1所述的针对包含合成字段的pdf文档文本提取...

【专利技术属性】
技术研发人员：程欢，王海峰，
申请(专利权)人：杭州尚尚签网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人