下载一种针对包含合成字段的PDF文档文本提取方法的技术资料

文档序号:41797165

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

本发明公开了一种针对包含合成字段的PDF文档文本提取方法,包括:解析获得当前PDF页面上的信息;去重处理;解析出PDF页面上的表格,过滤得到表格外和内的字符,过滤得到表格外和内的水平边,移除无效字符并识别低线字符;将连续的低线字符转换成低线...
该专利属于杭州尚尚签网络科技有限公司所有,仅供学习研究参考,未经过杭州尚尚签网络科技有限公司授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。