System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及数据处理领域,尤其涉及一种文本提取方法、装置、设备及存储介质。
技术介绍
1、文本提取,是针对不可编辑文件(如pdf文件)中的文本信息进行提取的技术。
2、由于不可编辑文件中的文本信息的格式多样,例如,可以包括数学公式、生僻字、非常见字体等,因此,如何更准确的提取到不可编辑文件中包含的文本信息,已经成为亟需解决的技术问题。
技术实现思路
1、为了解决上述技术问题,本公开实施例提供了一种文本提取方法、装置、设备及存储介质。
2、第一方面,本公开提供了一种文本提取方法,所述方法包括:
3、确定待提取文件中的目标提取对象;
4、获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像;其中,所述目标文本信息为通过对所述待提取文件进行协议解析得到,所述目标图像为通过对所述待提取文件进行图像转换得到;
5、将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果;
6、将所述目标图像对应的文本识别结果确定为所述目标提取对象的文本提取结果。
7、一种可选的实施方式中,所述将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果之前,还包括:
8、获取所述目标文本信息的显示特征信息;其中,所述显示特征信息用于表征所述目标文本信息中的文本字符的显示特征;
...【技术保护点】
1.一种文本提取方法,其特征在,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果之前,还包括:
3.根据权利要求2所述的方法,其特征在于,所述目标文本信息的显示特征信息包括所述目标文本信息中的各文本字符的显示位置信息和/或显示属性信息,所述显示属性信息包括字体类型和/或字号。
4.根据权利要求1所述的方法,其特征在于,所述获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像之前,还包括:
5.根据权利要求1所述的方法,其特征在于,所述获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像之前,还包括:
6.根据权利要求1所述的方法,其特征在于,所述目标提取对象对应的目标文本信息和所述目标提取对象对应的目标图像具有相同的显示位置信息,所述显示位置信息用于表征在所述待提取文件内的显示位置。
7.根据权利要求1所述的方法,其特征在于,所述将所述目
8.根据权利要求1所述的方法,其特征在于,所述待提取文件包括可携带文档格式PDF文件,所述确定待提取文件中的目标提取对象,包括:
9.一种文本提取装置,其特征在于,所述装置包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现如权利要求1-8任一项所述的方法。
11.一种文本提取设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-8任一项所述的方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令被处理器执行时,实现如权利要求1-8任一项所述的方法。
...【技术特征摘要】
1.一种文本提取方法,其特征在,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本信息和所述目标图像输入至目标识别模型,经过所述目标识别模型的处理后,得到所述目标图像对应的文本识别结果之前,还包括:
3.根据权利要求2所述的方法,其特征在于,所述目标文本信息的显示特征信息包括所述目标文本信息中的各文本字符的显示位置信息和/或显示属性信息,所述显示属性信息包括字体类型和/或字号。
4.根据权利要求1所述的方法,其特征在于,所述获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像之前,还包括:
5.根据权利要求1所述的方法,其特征在于,所述获取所述目标提取对象对应的目标文本信息,以及所述目标提取对象对应的目标图像之前,还包括:
6.根据权利要求1所述的方法,其特征在于,所述目标提取对象对应的目标文本信息和所述目标提取对象对应的目标图像具有相同的显示位置信息,所述显示位置信息用于表征在所述待提取文件内的显示位置。
【专利技术属性】
技术研发人员:魏舒,石威,黄灿,
申请(专利权)人:北京火山引擎科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。