一种基于界面坐标的PDF文档数据识别方法、设备及介质技术

技术编号:38493072 阅读:13 留言:0更新日期:2023-08-15 17:05
本申请公开了一种基于界面坐标的PDF文档数据识别方法、设备及介质,用以解决现有技术无法提供适配的PDF文档识别方式,操作繁琐且浪费人力物力资源的问题。方法包括:接收待识别PDF文档确定对应文档类型并根据文档类型构建对应Excel数据存储模板;预处理待识别PDF文档选中待识别PDF文档的多个待识别区域并分别获取多个四维度量值;在待识别PDF文档的文档类型为指定类型时量取待识别PDF文档中两条数据间的间隔距离并将间隔距离及多个待识别区域对应的四维度量值存储至Excel数据存储模板;根据Excel数据存储模板配置待识别PDF文档的XML配置文件并调用XML配置文件中的坐标信息获取待识别PDF文档中的数据实现对PDF文档的数据识别。的数据识别。的数据识别。

【技术实现步骤摘要】
一种基于界面坐标的PDF文档数据识别方法、设备及介质


[0001]本申请涉及计算机应用
,尤其涉及一种基于界面坐标的PDF文档数据识别方法、设备及介质。

技术介绍

[0002]在PDF文档的使用过程中,经常会遇到需要识别PDF文档,并提取PDF文档中的关键信息的需求。目前,针对国家金税相关的票据识别都是具有相对固定的模板的,而对于一些个性的PDF文档,例如:起草的合同文本,或者格式相对固定的银行回单等。现有技术无法提供适配的PDF文档识别方式,通过人工的方式获取PDF文档中的数据时,操作较为繁琐,浪费大量的人力物力资源。

技术实现思路

[0003]本申请实施例提供了一种基于界面坐标的PDF文档数据识别方法、设备及介质,用以解决现有技术无法提供适配的PDF文档识别方式,通过人工的方式获取PDF文档中的数据时,操作较为繁琐,浪费大量的人力物力资源的技术问题。
[0004]一方面,本申请实施例提供了一种基于界面坐标的PDF文档数据识别方法,包括:
[0005]接收待识别PDF文档,以确定所述待识别PDF文档对应的文档类型,并根据所述文档类型,构建所述待识别PDF文档对应的Excel数据存储模板;
[0006]通过Adobe Acrobat软件对所述待识别PDF文档进行预处理,选中所述待识别PDF文档中的多个待识别区域,并分别获取所述多个待识别区域的四维度量值;所述四维度量值包括:X轴坐标值、Y轴坐标值、宽度以及高度;
[0007]在所述待识别PDF文档的文档类型为指定类型的情况下,量取所述待识别PDF文档中两条数据之间的间隔距离,并将所述间隔距离以及所述多个待识别区域对应的四维度量值,存储至所述待识别PDF文档对应的Excel数据存储模板中;
[0008]根据所述Excel数据存储模板,配置所述待识别PDF文档对应的XML配置文件,并调用所述XML配置文件中的坐标信息,获取所述待识别PDF文档中的数据,实现对PDF文档的数据识别。
[0009]在本申请的一种实现方式中,所述接收待识别PDF文档,以确定所述待识别PDF文档对应的文档类型,具体包括:
[0010]接收待识别PDF文档,并获取所述待识别PDF文档中的表头信息;
[0011]确定出所述表头信息中的关键词,并根据所述关键词,确定所述待识别PDF文档对应的文档类型;所述文档类型至少包括以下一种:合同文本类型、银行回单类型。
[0012]在本申请的一种实现方式中,所述根据所述文档类型,构建所述待识别PDF文档对应的Excel数据存储模板,具体包括:
[0013]确定出所述待识别PDF文档对应的若干个关键字段信息;
[0014]基于所述待识别PDF文档对应的文档类型,并根据所述待识别PDF文档对应的若干
个关键字段信息,构建所述待识别PDF文档对应的Excel数据存储模板。
[0015]在本申请的一种实现方式中,所述通过Adobe Acrobat软件对所述待识别PDF文档进行预处理,选中所述待识别PDF文档中的多个待识别区域,并分别获取所述多个待识别区域的四维度量值,具体包括:
[0016]在Adobe Acrobat软件中,将所述待识别PDF对应页面的标尺单位调整为点,并将所述页面中的光标位置坐标进行显示;
[0017]通过矩形框将所述待识别PDF文档中的关键字段信息进行选中,并得到所述待识别PDF文档对应的多个待识别区域;
[0018]将光标放置于待识别区域对应矩形框的左上角,获取所述待识别区域对应的X轴坐标值、Y轴坐标值、宽度以及高度。
[0019]在本申请的一种实现方式中,所述在所述待识别PDF文档的文档类型为指定类型的情况下,量取所述待识别PDF文档中两条数据之间的间隔距离之前,所述方法还包括:
[0020]确定所述待识别PDF文档对应的文档类型是否为指定类型,并在所述待识别PDF文档对应的文档类型不是指定类型的情况下,完成对PDF文档的数据识别;
[0021]所述将所述间隔距离以及所述多个待识别区域对应的四维度量值,存储至所述待识别PDF文档对应的Excel数据存储模板中之前,所述方法还包括:
[0022]分别确定出所述多个待识别区域对应的关键字段信息,并将待识别PDF文档中两条数据之间的间隔距离,以及每个待识别区域对应的X轴坐标值、Y轴坐标值、宽度及高度,存储至所述Excel数据存储模板中对应的关键字段信息中。
[0023]在本申请的一种实现方式中,所述在所述待识别PDF文档的文档类型为指定类型的情况下,量取所述待识别PDF文档中两条数据之间的间隔距离,具体包括:
[0024]在确定出所述待识别PDF文档对应的文档类型为指定类型的情况下,基于所述指定类型的待识别PDF文档的特性,确定出所述待识别PDF文档中两条数据重复出现的同一位置边框;
[0025]量取所述两条数据中所述同一位置边框之间的垂直间隔距离,以得到所述两条数据之间的间隔距离。
[0026]在本申请的一种实现方式中,所述根据所述Excel数据存储模板,配置所述待识别PDF文档对应的XML配置文件,并调用所述XML配置文件中的坐标信息,获取所述待识别PDF文档中的数据,实现对PDF文档的数据识别,具体包括:
[0027]根据所述待识别PDF文档对应的Excel数据存储模板中的坐标信息,配置所述待识别PDF文档对应的XML配置文件,并根据所述对应的XML配置文件,生成所述待识别PDF文档对应的执行实例;
[0028]运行所述待识别PDF文档对应的执行实例,并调用所述Excel数据存储模板中的坐标信息;
[0029]根据所述坐标信息,找到所述坐标信息对应的待识别区域,并读取所述待识别区域对应的PDF文档数据,实现对PDF文档的数据识别。
[0030]在本申请的一种实现方式中,所述根据所述待识别PDF文档对应的Excel数据存储模板中的坐标信息,配置所述待识别PDF文档对应的XML配置文件之后,所述方法还包括:
[0031]针对指定类型的待识别PDF文档,确定出所述待识别PDF文档对应的数据条数,并
根据所述数据条数,在所述待识别PDF文档的XML配置文件中,配置对应数量个数据标签。
[0032]另一方面,本申请实施例还提供了一种基于界面坐标的PDF文档数据识别设备,所述设备包括:
[0033]至少一个处理器;
[0034]以及,与所述至少一个处理器通信连接的存储器;
[0035]其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的一种基于界面坐标的PDF文档数据识别方法。
[0036]另一方面,本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
[0037]如上述的一种基于界面坐标的PDF文档数据识别方法。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于界面坐标的PDF文档数据识别方法,其特征在于,所述方法包括:接收待识别PDF文档,以确定所述待识别PDF文档对应的文档类型,并根据所述文档类型,构建所述待识别PDF文档对应的Excel数据存储模板;通过Adobe Acrobat软件对所述待识别PDF文档进行预处理,选中所述待识别PDF文档中的多个待识别区域,并分别获取所述多个待识别区域的四维度量值;所述四维度量值包括:X轴坐标值、Y轴坐标值、宽度以及高度;在所述待识别PDF文档的文档类型为指定类型的情况下,量取所述待识别PDF文档中两条数据之间的间隔距离,并将所述间隔距离以及所述多个待识别区域对应的四维度量值,存储至所述待识别PDF文档对应的Excel数据存储模板中;根据所述Excel数据存储模板,配置所述待识别PDF文档对应的XML配置文件,并调用所述XML配置文件中的坐标信息,获取所述待识别PDF文档中的数据,实现对PDF文档的数据识别。2.根据权利要求1所述的一种基于界面坐标的PDF文档数据识别方法,其特征在于,所述接收待识别PDF文档,以确定所述待识别PDF文档对应的文档类型,具体包括:接收待识别PDF文档,并获取所述待识别PDF文档中的表头信息;确定出所述表头信息中的关键词,并根据所述关键词,确定所述待识别PDF文档对应的文档类型;所述文档类型至少包括以下一种:合同文本类型、银行回单类型。3.根据权利要求1所述的一种基于界面坐标的PDF文档数据识别方法,其特征在于,所述根据所述文档类型,构建所述待识别PDF文档对应的Excel数据存储模板,具体包括:确定出所述待识别PDF文档对应的若干个关键字段信息;基于所述待识别PDF文档对应的文档类型,并根据所述待识别PDF文档对应的若干个关键字段信息,构建所述待识别PDF文档对应的Excel数据存储模板。4.根据权利要求1所述的一种基于界面坐标的PDF文档数据识别方法,其特征在于,所述通过Adobe Acrobat软件对所述待识别PDF文档进行预处理,选中所述待识别PDF文档中的多个待识别区域,并分别获取所述多个待识别区域的四维度量值,具体包括:在Adobe Acrobat软件中,将所述待识别PDF对应页面的标尺单位调整为点,并将所述页面中的光标位置坐标进行显示;通过矩形框将所述待识别PDF文档中的关键字段信息进行选中,并得到所述待识别PDF文档对应的多个待识别区域;将光标放置于待识别区域对应矩形框的左上角,获取所述待识别区域对应的X轴坐标值、Y轴坐标值、宽度以及高度。5.根据权利要求1所述的一种基于界面坐标的PDF文档数据识别方法,其特征在于,所述在所述待识别PDF文档的文档类型为指定类型的情况下,量取所述待识别PDF文档中两条数据之间的间隔距离之前,所述方法还包括:确定所述待识别PDF文档对应的文档类型是否为指定类型,并在所述待识别PDF文档对应的文档类型不是指定类型的情况...

【专利技术属性】
技术研发人员:万迅飞
申请(专利权)人:浪潮通用软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1