用于提取PDF文件中的文本内容的方法、设备和存储介质技术

技术编号:38029685 阅读:11 留言:0更新日期:2023-06-30 10:56
本申请公开了一种用于提取PDF文件中的文本内容的方法、设备和存储介质。所述方法包括:获取待进行提取文本内容的PDF文件;对所述PDF文件中的内容进行解析,以获得所述PDF文件中包含的内容类型;根据所述内容类型,调用预先配置的配置文件并且获取所述配置文件的配置信息;以及基于所述配置信息提取所述PDF文件中的文本内容。利用本申请的方案,可以准确地提取所需的文本内容。提取所需的文本内容。提取所需的文本内容。

【技术实现步骤摘要】
用于提取PDF文件中的文本内容的方法、设备和存储介质


[0001]本申请一般涉及数据处理
更具体地,本申请涉及一种用于提取PDF文件中的文本内容的方法、设备和计算机可读存储介质。

技术介绍

[0002]PDF(“Portable Document Format”)文件格式,意为“可携带文档格式”。PDF文件可以将文字、字形、格式、颜色以及独立于设备和分辨率的图形图像等封装在一个文件中。此外,PDF文件还可以包含超文本链接、声音和动态影像等电子信息,并且支持特长文件,集成度和安全可靠性都较高。
[0003]由于PDF文件具有其他电子文档格式无法比较的优点,因此其被广泛用于各种场景中,例如医院的各种检测设备所产生的检测报告,其通常为PDF文件。然而,在需要使用检索报告中的内容时,往往需要对PDF文件进行提取。目前,已有针对PDF文件的提取方法,例如将PDF文件转化为word文档进行提取,或者采用可视化仪器对PDF格式文件的内容进行提取,这只对提取内容简单的PDF文件有利,对于内容复杂的PDF文件,可能会转档错误、提取错误。此外,现有的PDF文件提取方法通常是针对PDF文件中的所有内容进行提取,从而无法满足应用需求。
[0004]有鉴于此,亟需提供一种用于提取PDF文件中的文本内容的方案,以便准确地并且按需提取PDF中的文本内容。

技术实现思路

[0005]为了至少解决如上所提到的一个或多个技术问题,本申请在多个方面中提出了一种用于提取PDF文件中的文本内容的方案。
[0006]在第一方面中,本申请提供一种用于提取PDF文件中的文本内容的方法,包括:获取待进行提取文本内容的PDF文件;对所述PDF文件中的内容进行解析,以获得所述PDF文件中包含的内容类型;根据所述内容类型,调用预先配置的配置文件并且获取所述配置文件的配置信息;以及基于所述配置信息提取所述PDF文件中的文本内容。
[0007]在一个实施例中,其中所述PDF文件来自于眼部检查设备产生的报告文件。
[0008]在另一个实施例中,其中所述内容类型至少包括字符内容类型或者图像内容类型。
[0009]在又一个实施例中,其中所述配置文件的配置信息中至少包括字符处理类型信息和图像处理类型信息,并且根据所述内容类型,调用预先配置的配置文件并且获取所述配置文件的配置信息包括:根据所述字符内容类型,调用预先配置的配置文件并且获取所述配置文件的所述字符处理类型信息;或者根据所述图像内容类型,调用预先配置的配置文件并且获取所述配置文件的所述图像处理类型信息。
[0010]在又一个实施例中,其中基于所述配置信息提取所述PDF文件中的文本内容包括:基于所述字符处理类型信息,提取所述PDF文件中的字符内容,以提取所述PDF文件中的文
本内容;或者基于所述图像处理类型信息,将所述PDF文件转换成图像文件并且基于所述图像文件和所述配置信息提取所述PDF文件中的文本内容。
[0011]在又一个实施例中,其中基于所述图像处理类型信息,将所述PDF文件转换成图像文件并且基于所述图像文件和所述配置信息提取所述PDF文件中的文本内容包括:基于所述图像处理类型信息,对所述图像文件执行预处理,以获得预处理后的图像文件;将所述预处理后的图像文件与所述配置信息执行位置匹配操作;以及根据匹配结果提取所述PDF文件中的文本内容。
[0012]在又一个实施例中,其中对所述图像文件执行预处理包括:对所述图像文件执行灰度化、二值化、去除噪声或者图形矫正中的一种或者多种,以对所述图像文件执行预处理。
[0013]在又一个实施例中,其中所述配置文件的配置信息还包括条件坐标信息和条件内容信息,并且将所述预处理后的图像文件与所述配置信息执行位置匹配操作包括:基于所述配置信息的条件坐标信息提取所述预处理后的图像文件中对应的条件区域;以及将所述条件区域中的内容与所述配置信息的条件内容信息进行匹配,以将所述预处理后的图像文件与所述配置信息执行位置匹配操作。
[0014]在又一个实施例中,其中所述配置文件的配置信息还包括内容坐标信息,并且根据匹配结果提取所述PDF文件中的文本内容包括:响应于所述条件区域中的内容与所述配置信息的条件内容信息相一致,基于所述配置信息的内容坐标信息提取所述预处理后的图像文件的内容区域;以及对所述内容区域中的内容进行提取,以提取所述PDF文件中的文本内容。
[0015]在又一个实施例中,其中所述内容类型还包括颜色内容类型,所述配置文件的配置信息还包括颜色处理类型信息,并且所述方法还包括:基于所述颜色内容类型,调用预先配置的配置文件并且获取所述配置文件的所述颜色处理类型信息;以及基于所述颜色处理类型信息,提取所述PDF文件中的颜色内容,以提取所述PDF文件中勾选的文本内容。
[0016]在又一个实施例中,所述方法还包括通过以下操作预先配置所述配置文件:获取待进行配置的PDF文件;将所述待进行配置的PDF文件转换成图片;从所述图片中提取与所述目标文本内容相关的坐标信息和内容信息;以及基于所述坐标信息和所述内容信息生成结构化数据,以预先配置所述配置文件。
[0017]在第二方面中,本申请还提供一种用于提取PDF文件中的文本内容的设备,包括:处理器;以及存储器,其存储有用于提取PDF文件中的文本内容的程序指令,当所述程序指令由所述处理器执行时,使得所述设备实现前述第一方面中的多个实施例。
[0018]在第三方面中,本申请还提供一种计算机可读存储介质,其上存储有用于提取PDF文件中的文本内容的计算机可读指令,该计算机可读指令被一个或多个处理器执行时,实现前述第一方面中的多个实施例。
[0019]通过如上所提供的用于提取PDF文件中的文本内容的方案,本申请实施例通过根据PDF文件中的内容类型,调用配置文件中的配置信息,以提取PDF文件中的文本内容。基于此,可以针对不同内容类型,调用相应的配置信息,以准确地提取所需的文本内容。进一步,在本申请实施例中,可以根据PDF文件的字符、图像或者颜色内容类型,调用相应的字符、图像或者颜色处理信息,从而提高提取所需文本内容的精度。更进一步地,本申请实施例通过
调用预先配置的配置文件进行位置匹配,降低了提取PDF文件中文本内容的繁琐程度。
附图说明
[0020]通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
[0021]图1是示出PDF文件的示例性示意图;
[0022]图2是示出根据本申请实施例的用于提取PDF文件中的文本内容的方法的示例性流程框图;
[0023]图3是示出根据本申请实施例的预先配置的配置文件的示例性示意图;
[0024]图4是示出根据本申请实施例的提取PDF文件中的文本内容的示例性示意图;以及
[0025]图5是示出根据本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于提取PDF文件中的文本内容的方法,包括:获取待进行提取文本内容的PDF文件;对所述PDF文件中的内容进行解析,以获得所述PDF文件中包含的内容类型;根据所述内容类型,调用预先配置的配置文件并且获取所述配置文件的配置信息;以及基于所述配置信息提取所述PDF文件中的文本内容。2.根据权利要求1所述的方法,其中所述PDF文件来自于眼部检查设备产生的报告文件。3.根据权利要求1所述的方法,其中所述内容类型至少包括字符内容类型或者图像内容类型。4.根据权利要求3所述的方法,其中所述配置文件的配置信息中至少包括字符处理类型信息和图像处理类型信息,并且根据所述内容类型,调用预先配置的配置文件并且获取所述配置文件的配置信息包括:根据所述字符内容类型,调用预先配置的配置文件并且获取所述配置文件的所述字符处理类型信息;或者根据所述图像内容类型,调用预先配置的配置文件并且获取所述配置文件的所述图像处理类型信息。5.根据权利要求4所述的方法,其中基于所述配置信息提取所述PDF文件中的文本内容包括:基于所述字符处理类型信息,提取所述PDF文件中的字符内容,以提取所述PDF文件中的文本内容;或者基于所述图像处理类型信息,将所述PDF文件转换成图像文件并且基于所述图像文件和所述配置信息提取所述PDF文件中的文本内容。6.根据权利要求5所述的方法,其中基于所述图像处理类型信息,将所述PDF文件转换成图像文件并且基于所述图像文件和所述配置信息提取所述PDF文件中的文本内容包括:基于所述图像处理类型信息,对所述图像文件执行预处理,以获得预处理后的图像文件;将所述预处理后的图像文件与所述配置信息执行位置匹配操作;以及根据匹配结果提取所述PDF文件中的文本内容。7.根据权利要求6所述的方法,其中对所述图像文件执行预处理包括:对所述图像文件执行灰度化、二值化、去除噪声或者图形矫正中的一种或者多种,以对所述图像文件执行预处理。8.根据权利要求6所述的方法,其中所述配置文件的配置信息还包...

【专利技术属性】
技术研发人员:卢选君赵宇鹏
申请(专利权)人:北京鹰瞳远见信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1