文本提取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:42214276 阅读:25 留言:0更新日期:2024-07-30 18:55
本公开提供了一种文本提取方法,涉及人工智能技术领域,尤其涉及深度学习、图像处理、OCR(Optical Character Recognition,光学字符识别)技术领域。具体实现方案为:识别文档图像中的多个文本块以及至少一个分割线;根据多个文本块以及至少一个分割线确定文档的版面结构;以及根据版面结构,确定多个文本块的识别顺序以及多个文本块的识别结果的输出顺序。本公开还提供了一种文本提取装置、电子设备和存储介质。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及深度学习、图像处理、ocr(opticalcharacter recognition,光学字符识别)。更具体地,本公开提供了一种文本提取方法、装置、电子设备、存储介质以及计算机程序产品。


技术介绍

1、文档内容提取广泛应用于各种领域,例如,各种专业文档(财报、论文等)大都是使用pdf格式保存的,从pdf中提取文本信息可以用于专业文档的分析。


技术实现思路

1、本公开提供了一种文本提取方法、装置、电子设备、存储介质以及计算机程序产品。

2、根据第一方面,提供了一种文本提取方法,该方法包括:识别文档图像中的多个文本块以及至少一个分割线;根据多个文本块以及至少一个分割线确定文档的版面结构;以及根据版面结构,确定多个文本块的识别顺序以及多个文本块的识别结果的输出顺序。

3、根据第二方面,提供了一种文本提取装置,该装置包括:识别模块,用于识别文档图像中的多个文本块以及至少一个分割线;版面结构确定模块,用于根据多个文本块以及至少一个分割线确定文档的版面结构;以及顺序确定本文档来自技高网...

【技术保护点】

1.一种文本提取方法,包括:

2.根据权利要求1所述的方法,其中,所述分割线包括上下文分割线;所述根据所述多个文本块以及所述至少一个分割线确定所述文档的版面结构包括:

3.根据权利要求2所述的方法,其中,所述列向排版结构包括多列;所述根据所述顶点位置确定所述文档的列向排版结构包括:

4.根据权利要求2或3所述的方法,其中,所述分割线还包括页眉分割线、页脚分割线、以及注释分割线中的至少之一;所述文本块包括页眉文本块、页脚文本块以及注释文本块中的至少之一;所述方法还包括:

5.根据权利要求1所述的方法,其中,所述根据所述版面结构,确定所述多个文...

【技术特征摘要】

1.一种文本提取方法,包括:

2.根据权利要求1所述的方法,其中,所述分割线包括上下文分割线;所述根据所述多个文本块以及所述至少一个分割线确定所述文档的版面结构包括:

3.根据权利要求2所述的方法,其中,所述列向排版结构包括多列;所述根据所述顶点位置确定所述文档的列向排版结构包括:

4.根据权利要求2或3所述的方法,其中,所述分割线还包括页眉分割线、页脚分割线、以及注释分割线中的至少之一;所述文本块包括页眉文本块、页脚文本块以及注释文本块中的至少之一;所述方法还包括:

5.根据权利要求1所述的方法,其中,所述根据所述版面结构,确定所述多个文本块的识别顺序以及所述多个文本块的识别结果的输出顺序包括:

6.根据权利要求5所述的方法,其中,所述确定所述目标文本块的识别结果的输出顺序包括:

7.根据权利要求6所述的方法,其中,所述输出目标文本块包括:

8.根据权利要求6所述的方法,还包括:

9.根据权利要求6所述的方法,还包括:

10.根据权利要求6至8中任一项所述的方法,其中,所述非正文类型包括注释、表格、表格标题、图像、图像标题以及公式中的至少之一。

11.一种文本提取装置,包括:

12.根据权利要求11所述的装置,其中,所述分割线包括上下文分割线;所述版面结构确定模块包括:

13.根据...

【专利技术属性】
技术研发人员:白宇李玉伟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1