【技术实现步骤摘要】
本专利技术涉及pdf文档文本信息提取,具体涉及一种针对包含合成字段的pdf文档文本提取方法。
技术介绍
1、pdf全称为portable document format,即“便携式文档格式”,是一种应用广泛的文档格式。pdf文档具备良好的跨平台性、格式一致性以及可读性,并且还可以文档上施加电子签名,以保障文档的完整性和不可抵赖性,因此成为电子合同领域的首选文档格式。
2、电子合同在生成和签署过程中广泛存在着在pdf文档上继续合成文本字段的情况。后续合成到pdf上的文本字段和原始文本可能在位置、字体、字号大小等方面都有不同,同时还存在文本字段与原始文本重叠、预留宽度不够导致合成文本换行等情形,因此传统的文本提取方案不能正确地提取这种文档的文本内容,从而导致基于文档文本内容进行的后续处理精确度不高。
技术实现思路
1、针对上述问题,本专利技术提出了一种针对包含合成字段的pdf文档文本提取方法,能很好地识别后续合成到pdf上的文本片段,特别是合同文本片段发生换行的情况,完成对整个文档
...【技术保护点】
1.一种针对包含合成字段的PDF文档文本提取方法,包括以下步骤:
2.根据权利要求1所述的针对包含合成字段的PDF文档文本提取方法,其特征在于,步骤3)中,根据线条和矩形解析出PDF页面上的表格,具体包括:
3.根据权利要求1所述的针对包含合成字段的PDF文档文本提取方法,其特征在于,步骤3)中,无效字符具体包括:
4.根据权利要求1所述的针对包含合成字段的PDF文档文本提取方法,其特征在于,步骤4)中,将步骤3)中获得的低线字符集合中连续的低线字符转换成低线字符的水平边,具体包括:
5.根据权利要求1所述的针对包含合成
...【技术特征摘要】
1.一种针对包含合成字段的pdf文档文本提取方法,包括以下步骤:
2.根据权利要求1所述的针对包含合成字段的pdf文档文本提取方法,其特征在于,步骤3)中,根据线条和矩形解析出pdf页面上的表格,具体包括:
3.根据权利要求1所述的针对包含合成字段的pdf文档文本提取方法,其特征在于,步骤3)中,无效字符具体包括:
4.根据权利要求1所述的针对包含合成字段的pdf文档文本提取方法,其特征在于,步骤4)中,将步骤3)中获得的低线字符集合中连续的低线字符转换成低线字符的水平边,具体包括:
5.根据权利要求1所述的针对包含合成字段的pdf文档文本提取...
【专利技术属性】
技术研发人员:程欢,王海峰,
申请(专利权)人:杭州尚尚签网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。