System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本提取方法、装置、设备及存储介质制造方法及图纸_技高网

一种文本提取方法、装置、设备及存储介质制造方法及图纸

技术编号:42675491 阅读:13 留言:0更新日期:2024-09-10 12:27
本公开提供了一种文本提取方法、装置、设备及存储介质,所述方法包括:首先,确定待提取文件中的目标提取对象,获取该目标提取对象对应的目标文本信息,以及目标提取对象对应的目标图像,其中,目标文本信息为通过对待提取文件进行协议解析得到,目标图像为通过对所述待提取文件进行图像转换得到,然后,将目标文本信息和目标图像输入至目标识别模型,经过目标识别模型的处理后,得到目标图像对应的文本识别结果,进而,将目标图像对应的文本识别结果确定为目标提取对象的文本提取结果。可见,本公开实施例将目标文本信息以及目标图像作为目标识别模型的多模态数据,提高了文本信息提取的准确性。

【技术实现步骤摘要】

本公开涉及数据处理领域,尤其涉及一种文本提取方法、装置、设备及存储介质


技术介绍

1、文本提取,是针对不可编辑文件(如pdf文件)中的文本信息进行提取的技术。

2、由于不可编辑文件中的文本信息的格式多样,例如,可以包括数学公式、生僻字、非常见字体等,因此,如何更准确的提取到不可编辑文件中包含的文本信息,已经成为亟需解决的技术问题。


技术实现思路

1、为了解决上述技术问题,本公开实施例提供了一种文本提取方法、装置、设备及存储介质。

2、第一方面,本公开提供了一种文本提取方法,所述方法包括:

3、确定待提取文件中的目标提取对象;

4、获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像;其中,所述目标文本信息为通过对所述待提取文件进行协议解析得到,所述目标图像为通过对所述待提取文件进行图像转换得到;

5、将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果;

6、将所述目标图像对应的文本识别结果确定为所述目标提取对象的文本提取结果。

7、一种可选的实施方式中,所述将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果之前,还包括:

8、获取所述目标文本信息的显示特征信息;其中,所述显示特征信息用于表征所述目标文本信息中的文本字符的显示特征;p>

9、相应的,所述将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后得到所述目标图像的文本识别结果,包括:

10、将所述目标文本信息、所述目标文本信息的显示特征信息以及所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果。

11、一种可选的实施方式中,所述目标文本信息的显示特征信息包括所述目标文本信息中的各文本字符的显示位置信息和/或显示属性信息,所述显示属性信息包括字体类型和/或字号。

12、一种可选的实施方式中,所述获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像之前,还包括:

13、对所述待提取文件进行协议解析,得到所述待提取文件的结构化描述数据;其中,所述结构化描述数据用于描述所述待提取文件中的显示内容;

14、相应的,所述获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像,包括:

15、从所述待提取文件的结构化描述数据中,获取所述目标提取对象对应的目标文本信息;其中,所述目标文本信息具有对应的显示位置信息。

16、一种可选的实施方式中,所述获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像之前,还包括:

17、对所述待提取文件进行图像转换,得到所述待提取文件对应的图像;

18、相应的,所述获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像,包括:

19、从所述待提取文件对应的图像中,截取所述目标提取对象对应的目标图像;其中,所述目标图像具有对应的显示位置信息。

20、一种可选的实施方式中,所述目标提取对象对应的目标文本信息和所述目标提取对象对应的目标图像具有相同的显示位置信息,所述显示位置信息用于表征在所述待提取文件内的显示位置。

21、一种可选的实施方式中,所述将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果之前,还包括:

22、确定所述目标提取对象中是否包含有目标类型文本;其中,所述目标类型文本包括具有预设显示结构特征的文本;

23、相应的,所述将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果,包括:

24、如果确定所述目标提取对象中包含有所述目标类型文本,则将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果。

25、一种可选的实施方式中,所述待提取文件包括可携带文档格式pdf文件,所述确定待提取文件中的目标提取对象,包括:

26、对所述pdf文件进行逐行遍历,确定所述pdf文件中的目标提取对象。

27、第二方面,本公开还提供了一种文本提取装置,所述装置包括:

28、第一确定模块,用于确定待提取文件中的目标提取对象;

29、第一获取模块,用于获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像;其中,所述目标文本信息为通过对所述待提取文件进行协议解析得到,所述目标图像为通过对所述待提取文件进行图像转换得到;

30、模型处理模块,用于将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果;

31、第二确定模块,用于将所述目标图像对应的文本识别结果确定为所述目标提取对象的文本提取结果。

32、第三方面,本公开提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现上述的方法。

33、第四方面,本公开提供了一种文本提取设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的方法。

34、第五方面,本公开提供了一种计算机程序产品,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述的方法。

35、本公开实施例提供的技术方案与现有技术相比至少具有如下优点:

36、本公开实施例提供了一种文本提取方法,具体的,首先,确定待提取文件中的目标提取对象,获取该目标提取对象对应的目标文本信息,以及目标提取对象对应的目标图像,其中,目标文本信息为通过对待提取文件进行协议解析得到,目标图像为通过对所述待提取文件进行图像转换得到,然后,将目标文本信息和目标图像输入至目标识别模型,经过目标识别模型的处理后,得到目标图像对应的文本识别结果,进而,将目标图像对应的文本识别结果确定为目标提取对象的文本提取结果。

37、本公开实施例通过将目标提取对象对应的目标文本信息以及目标图像,输入目标识别模型,经过目标识别模型的处理得到目标提取对象的文本提取结果。可见,本公开实施例将目标文本信息以及目标图像作为目标识别模型的多模态数据,提高了文本信息提取的准确性。

本文档来自技高网...

【技术保护点】

1.一种文本提取方法,其特征在,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果之前,还包括:

3.根据权利要求2所述的方法,其特征在于,所述目标文本信息的显示特征信息包括所述目标文本信息中的各文本字符的显示位置信息和/或显示属性信息,所述显示属性信息包括字体类型和/或字号。

4.根据权利要求1所述的方法,其特征在于,所述获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像之前,还包括:

5.根据权利要求1所述的方法,其特征在于,所述获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像之前,还包括:

6.根据权利要求1所述的方法,其特征在于,所述目标提取对象对应的目标文本信息和所述目标提取对象对应的目标图像具有相同的显示位置信息,所述显示位置信息用于表征在所述待提取文件内的显示位置。

7.根据权利要求1所述的方法,其特征在于,所述将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果之前,还包括:

8.根据权利要求1所述的方法,其特征在于,所述待提取文件包括可携带文档格式PDF文件,所述确定待提取文件中的目标提取对象,包括:

9.一种文本提取装置,其特征在于,所述装置包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现如权利要求1-8任一项所述的方法。

11.一种文本提取设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-8任一项所述的方法。

12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令被处理器执行时,实现如权利要求1-8任一项所述的方法。

...

【技术特征摘要】

1.一种文本提取方法,其特征在,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果之前,还包括:

3.根据权利要求2所述的方法,其特征在于,所述目标文本信息的显示特征信息包括所述目标文本信息中的各文本字符的显示位置信息和/或显示属性信息,所述显示属性信息包括字体类型和/或字号。

4.根据权利要求1所述的方法,其特征在于,所述获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像之前,还包括:

5.根据权利要求1所述的方法,其特征在于,所述获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像之前,还包括:

6.根据权利要求1所述的方法,其特征在于,所述目标提取对象对应的目标文本信息和所述目标提取对象对应的目标图像具有相同的显示位置信息,所述显示位置信息用于表征在所述待提取文件内的显示位置。

【专利技术属性】
技术研发人员:魏舒石威黄灿
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1