一种PDF文本精确提取方法、终端设备及存储介质技术

技术编号:33660883 阅读:25 留言:0更新日期:2022-06-02 20:41
本发明专利技术涉及一种PDF文本精确提取方法、终端设备及存储介质,该方法中包括:根据待提取文本,确定待提取文本所在PDF页中的页特征;根据页特征获取PDF文档内包含页特征的页特征候选框的坐标范围,同时根据待提取文本获取PDF文档内包含待提取文本的待提取文本候选框的坐标范围;当接收到需要提取待提取文本的PDF文档时,从PDF文档的各页的页特征候选框的坐标范围内查找是否存在页特征,将存在页特征的页作为待提取文本所在的页;从待提取文本所在的页的待提取文本候选框的坐标范围内提取待提取文本。本发明专利技术可以解决文本所在页面因页索引发生变化导致的无法定位提取的问题。引发生变化导致的无法定位提取的问题。引发生变化导致的无法定位提取的问题。

【技术实现步骤摘要】
一种PDF文本精确提取方法、终端设备及存储介质


[0001]本专利技术涉及PDF文本提取领域,尤其涉及一种PDF文本精确提取方法、终端设备及存储介质。

技术介绍

[0002]随着医院信息化建设越来越完善,各种不同检查类型的报告都需要进行电子档存档和数据共享,这其中也包括各种电生理检查的单机工作站如动态心电、动态血压等。
[0003]电生理单机工作站通常将报告转变为PDF文件上传到电子病历系统以实现报告的归档和共享。作为有些希望提取报告PDF里测量值数据进行科研统计的医院而言,从固定页面提取测量值往往是可行的。但遇到提取的测量值分布在PDF报告的不同页内且页索引会因病人差异而发生变化时,由于测量值位置的不固定性,因此程序不知道去哪里查找,无法进行提取。

技术实现思路

[0004]为了解决上述问题,本专利技术提出了一种PDF文本精确提取方法、终端设备及存储介质。
[0005]具体方案如下:
[0006]一种PDF文本精确提取方法,包括以下步骤:
[0007]S1:根据待提取文本,确定待提取文本所在PDF页中的页特征;
[0008]S2:根据页特征获取PDF文档内包含页特征的页特征候选框的坐标范围,同时根据待提取文本获取PDF文档内包含待提取文本的待提取文本候选框的坐标范围;
[0009]S3:当接收到需要提取待提取文本的PDF文档时,从PDF文档的各页的页特征候选框的坐标范围内查找是否存在页特征,将存在页特征的页作为待提取文本所在的页;
[0010]S4:从待提取文本所在的页的待提取文本候选框的坐标范围内提取待提取文本。
[0011]进一步的,页特征候选框和待提取文本候选框的坐标范围通过将PDF文档转换为带坐标信息的文本格式获取。
[0012]进一步的,页特征候选框和待提取文本候选框的坐标范围的获取方式为:在PDF文档中框选一个包含了页特征或待提取文本及对应的偏移误差的矩形框,将矩形框的坐标范围作为页特征候选框或待提取文本候选框的坐标范围。
[0013]进一步的,从页特征候选框的坐标范围内查找页特征和从待提取文本候选框的坐标范围内提取待提取文本的过程均通过正则表达式规则进行。
[0014]进一步的,在步骤S3的从PDF文档的各页的页特征候选框的坐标范围内查找是否存在页特征之前还包括:将PDF文档转换为带坐标信息的文本格式。
[0015]一种PDF文本精确提取终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0016]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0017]本专利技术采用如上技术方案,通过配置待提取文本对应的页特征和页特征候选框的坐标范围来对待提取文本所在的页进行定位后,从定位的页内的待提取文本候选框的坐标范围内进行文本提取,可以解决现有PDF文档中测量值所在页面因页索引发生变化导致的无法定位提取的问题。
附图说明
[0018]图1所示为本专利技术实施例一的流程图。
[0019]图2所示为该实施例中PDF文档中需要提取的测量值示意图。
[0020]图3所示为该实施例中PDF文档中的页特征示意图。
[0021]图4所示为该实施例中带坐标信息的文本格式示意图。
[0022]图5所示为该实施例中页特征候选框的示意图。
[0023]图6所示为该实施例中待提取文本候选框的示意图。
具体实施方式
[0024]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。
[0025]现结合附图和具体实施方式对本专利技术进一步说明。
[0026]实施例一:
[0027]本专利技术实施例提供了一种PDF文本精确提取方法,应用于PDF内容以页为单位进行插入,如电生理单机工作站输出的PDF报告,该实施例中待提取文本以测量值SDNN为例进行说明。如图1所示,所述方法包括以下步骤:
[0028]S1:根据待提取文本,确定待提取文本所在PDF页中的页特征。
[0029]页特征需满足:与待提取测量值位于同一页面且始终大致处于一页面中的相同位置。
[0030]如图2所示为动态心电检查报告PDF文档,用户想提取图中方框里的测量值SDNN进行科研统计,其所在页面当前为第4页。通过分析PDF文档,发现如图3所示的框图内的文本“心率变异趋势”位于与测量值SDNN相同的第4页且始终大致处于第4页面中的相同位置,因此将该“心率变异趋势”作为待提取测量值的页特征。
[0031]S2:根据页特征获取PDF文档内包含页特征的页特征候选框的坐标范围,同时根据待提取文本获取PDF文档内包含待提取文本的待提取文本候选框的坐标范围。
[0032]通过将PDF文档转换为带坐标信息的文本格式可以获取PDF文档中各文本对应的坐标范围,如图4所示。
[0033]进一步的,由于PDF文档在不同情况下打印时,其内容可能发生位置偏移,因此,如果直接将带坐标信息的文本格式中页特征或待提取文本对应的坐标范围设为页特征候选框和待提取文本候选框的坐标范围,则可能由于位置偏移导致无法查找到,因此,该实施例中将页特征候选框和待提取文本候选框的坐标范围设定为一个包含了偏移误差的大的范
围,具体实施过程中,可以通过在PDF文档中框选一个包含了页特征及对应的偏移误差的矩形框,如图5所示,将矩形框的坐标范围作为页特征候选框的坐标范围;待提取文本候选框的坐标范围的设定方式相同,如图6所示。
[0034]S3:当接收到需要提取待提取文本的PDF文档时,从PDF文档的各页的页特征候选框的坐标范围内查找是否存在页特征,将存在页特征的页作为待提取文本所在的页。
[0035]S4:从待提取文本所在的页的待提取文本候选框的坐标范围内提取待提取文本。
[0036]从页特征候选框的坐标范围内查找页特征和从待提取文本候选框的坐标范围内提取待提取文本的过程均可以通过正则表达式规则进行,该实施例中为了方便查找和提取,还包括在查找和提取之间将PDF文档转换为带坐标信息的文本格式。
[0037]本专利技术实施例通过配置待提取文本对应的页特征和页特征候选框的坐标范围来对待提取文本所在的页进行定位后,从定位的页内的待提取文本候选框的坐标范围内进行文本提取,可以解决现有PDF文档中测量值所在页面因页索引发生变化导致的无法定位提取的问题。
[0038]实施例二:
[0039]本专利技术还提供一种PDF文本精确提取终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种PDF文本精确提取方法,其特征在于,包括以下步骤:S1:根据待提取文本,确定待提取文本所在PDF页中的页特征;S2:根据页特征获取PDF文档内包含页特征的页特征候选框的坐标范围,同时根据待提取文本获取PDF文档内包含待提取文本的待提取文本候选框的坐标范围;S3:当接收到需要提取待提取文本的PDF文档时,从PDF文档的各页的页特征候选框的坐标范围内查找是否存在页特征,将存在页特征的页作为待提取文本所在的页;S4:从待提取文本所在的页的待提取文本候选框的坐标范围内提取待提取文本。2.根据权利要求1所述的PDF文本精确提取方法,其特征在于:页特征候选框和待提取文本候选框的坐标范围通过将PDF文档转换为带坐标信息的文本格式获取。3.根据权利要求1所述的PDF文本精确提取方法,其特征在于:页特征候选框和待提取文本候选框的坐标范围的获取方式为:在PDF文档中框选一个包含了页特征或待提取文本及对应...

【专利技术属性】
技术研发人员:赵明星钟玉秋
申请(专利权)人:南京纳龙科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1