文档图像的版面理解方法、装置、电子设备制造方法及图纸

技术编号:38828066 阅读:14 留言:0更新日期:2023-09-15 20:07
本申请公开了一种文档图像版面理解方法、装置,属于图像处理技术领域。所述方法包括:通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;通过版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。本方法采用一个多分支网络模型,同时定位分类出粗细粒度版面元素,降低了模型训练成本,模型结构简单。模型结构简单。模型结构简单。

【技术实现步骤摘要】
文档图像的版面理解方法、装置、电子设备


[0001]本申请涉及图像处理
,特别是涉及文档图像的版面理解方法、装置、电子设备,以及计算机可读存储介质。

技术介绍

[0002]文档作为信息记录、传递和存储的重要载体,在日常生活中占有非常重要的地位。但海量的文档存在不易存储和信息获取困难等问题,将纸质文档通过拍照、扫描等手段进行数字化处理,并通过文档图像理解技术对文档信息提取、分类和存储,可有效的解决以上问题。
[0003]文档图像理解可以分为版面理解和内容理解两部分,其中,版面理解主要是对文档版面中包含的各种版面元素进行定位、分类,其中,版面元素包括:粗粒度版面元素(如表格、图像、公式、文本块等)和细粒度元素(如文本行、词和字符等)。现有技术中,基于深度学习的文档图像的版面理解的方案主要:自顶向下和自底向上的两种版面理解方案。自顶向下的版面理解方案一般是先对粗粒度的版面元素进行定位分类,然后再对文本区域细粒度元素文本行或词进行检测;自底向上的版面理解方案一般是先对文本行或词进行检测,然后通过聚类实现文本块的检测。
[0004]现有技术中,自顶向下的版面理解方案,一般需要多个模型,分别负责粗粒度版面元素的检测和细粒度元素的检测,训练成本高、资源占用大、推理时间长、模型集成复杂。自底向上的版面理解方案,一般采用端到端的模型,缺点是模型适应性较差,只能适用于纯文本图像。
[0005]可见,现有技术中的文档图像的版面理解方法还需要改进。

技术实现思路

[0006]本申请实施例提供一种文档图像的版面理解方法及装置、电子设备,用于解决版面理解模型训练成本高、推理时间长、模型结构复杂,以及,适应性较差的缺陷。
[0007]第一方面,本申请实施例提供了一种文档图像的版面理解方法,包括:
[0008]通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;
[0009]通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;
[0010]根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。
[0011]第二方面,本申请实施例提供了一种文档图像的版面理解装置,包括:
[0012]图像特征获取模块,用于通过预先训练的版面理解模型的主干网络对待处理文档
图像进行特征提取,获取图像特征;
[0013]检测结果获取模块,用于通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;
[0014]版面理解结果获取模块,用于根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。
[0015][0016]第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的文档图像的版面理解方法。
[0017]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的文档图像的版面理解方法的步骤。
[0018]本申请实施例公开的文档图像的版面理解方法,通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。本申请实施例公开的文档图像的版面理解方法,通过采用一个多分支网络模型,同时定位分类出粗细粒度版面元素,降低了模型训练成本,模型结构简单。进一步的,通过针对粗、细粒度版面元素的特点,设计不同的网络分支,在降低计算量的同时兼顾版面元素检测的鲁棒性和泛化性,不仅可以缩短推理时间,还可以提升文档图像的版面理解适应能力,可以对多种类型版面元素进行检测分类。
[0019]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0020]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0021]图1是本申请实施例的文档图像的版面理解方法流程图之一;
[0022]图2是本申请实施例中的版面理解模型结构示意图;
[0023]图3是本申请实施例中的第一检测结果和第二检测结果示意图之一;
[0024]图4是本申请实施例中的第一检测结果和第二检测结果示意图之二;
[0025]图5是图3中的第一检测结果和第二检测结果的优化结果示意图之一;
[0026]图6是图3中的第一检测结果和第二检测结果的优化结果示意图之二;
[0027]图7本申请实施例的文档图像的版面理解方法流程图之二;
[0028]图8是本申请一个实施例中文档图像的版面理解装置结构示意图之一;
[0029]图9是本申请一个实施例中文档图像的版面理解装置结构示意图之二;
[0030]图10示意性地示出了用于执行根据本申请的方法的电子设备的框图;以及
[0031]图11示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元

具体实施方式
[0032]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0033]本申请实施例公开的一种文档图像的版面理解方法,如图1所示,所述方法包括:步骤120至步骤140。
[0034]步骤120,通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征。
[0035]本申请的一些实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档图像的版面理解方法,其特征在于,包括:通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。2.根据权利要求1所述的方法,其特征在于,所述第一检测结果包括:所述粗粒度版面元素的类型和检测框位置,所述第二检测结果包括:所述细粒度版面元素的类型和检测框位置,所述根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果,包括:根据所述细粒度版面元素的所述检测框位置和每个所述粗粒度版面元素的所述检测框位置,获取所述细粒度版面元素分别与每个所述粗粒度版面元素的检测框重叠面积;响应于所述检测框重叠面积均小于或等于预设面积阈值,根据所述细粒度版面元素的所述检测框位置,对所述第一检测结果进行补充,得到优化后的第一检测结果;响应于所述检测框重叠面积大于所述预设面积阈值,根据所述检测框重叠面积与所述细粒度版面元素的检测框的面积大小关系,以及所述检测框重叠面积对应的所述粗粒度版面元素的所述类型,对所述第二检测结果进行优化,得到优化后的第二检测结果,其中,所述细粒度版面元素的所述检测框根据所述细粒度版面元素的所述检测框位置确定;根据优化后的第一检测结果和优化后的第二检测结果,生成所述待处理文档图像的版面理解结果。3.根据权利要求2所述的方法,其特征在于,所述根据所述检测框重叠面积与所述细粒度版面元素的检测框的面积大小关系,以及所述检测框重叠面积对应的所述粗粒度版面元素的所述类型,对所述第二检测结果进行优化,包括:响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配非文本类型,保持所述第二检测结果不变;或,响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配文本类型,且所述检测框重叠面积与所述细粒度版面元素的检测框的面积相等,保持所述第二检测结果不变;或,响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配文本类型,且所述检测框重叠面积与所述细粒度版面元素的检测框的面积不等,根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测框的分割结果,优化所述第二检测结果。4.根据权利要求3所述的方法,其特征在于,所述根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测框的分割结果,优化所述第二检测结果,包括:根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测
框的分割结果,得到所述细粒度版面元素的所述检测框与所述粗粒度版面元素的所述检测框的重叠部分构成的第一候选检测框的检测框位置,以及,得到所述细粒度版面元素的所述检测框与所述粗粒度版面元素的所述检测框未重叠的每个部分分别构成的第二候选检测框的检测框位置;根据所述细粒度版面元素的检测框位置和每个所述第二候选检测框的检测框位置,计算每个所述第二候选检测框与所述细粒度版面元素的所述检测框的面积比值;将所述第一候选检测框作为拆分得到的第一细粒度版面元素的检测框,将所述第一细粒度版面元素的类型和检测框位置增加到所述第二检测结果中;响应于所述面积比值大于或等于预设比值阈值,将所述第二候选检测框作为拆分得到的第二细粒度版面元素的检测框,将所述第二细粒度版面元素的类型和检测框位置增加到所述第二检测结果中;删除所述第二检测结果中所述细粒度版面元素的所述类型和所述检测框位置,得到优化后的第二检测结果。5.根据权利要求1至4任一项所述的方法,其特征在于,所述图像特征包括:不同深度的第二预设数量增强特征图,所述第二分支...

【专利技术属性】
技术研发人员:王亚萌刘正珍
申请(专利权)人:汉王科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1