【技术实现步骤摘要】
文档图像的版面理解方法、装置、电子设备
[0001]本申请涉及图像处理
,特别是涉及文档图像的版面理解方法、装置、电子设备,以及计算机可读存储介质。
技术介绍
[0002]文档作为信息记录、传递和存储的重要载体,在日常生活中占有非常重要的地位。但海量的文档存在不易存储和信息获取困难等问题,将纸质文档通过拍照、扫描等手段进行数字化处理,并通过文档图像理解技术对文档信息提取、分类和存储,可有效的解决以上问题。
[0003]文档图像理解可以分为版面理解和内容理解两部分,其中,版面理解主要是对文档版面中包含的各种版面元素进行定位、分类,其中,版面元素包括:粗粒度版面元素(如表格、图像、公式、文本块等)和细粒度元素(如文本行、词和字符等)。现有技术中,基于深度学习的文档图像的版面理解的方案主要:自顶向下和自底向上的两种版面理解方案。自顶向下的版面理解方案一般是先对粗粒度的版面元素进行定位分类,然后再对文本区域细粒度元素文本行或词进行检测;自底向上的版面理解方案一般是先对文本行或词进行检测,然后通过聚类实现文本块的检测。
[0004]现有技术中,自顶向下的版面理解方案,一般需要多个模型,分别负责粗粒度版面元素的检测和细粒度元素的检测,训练成本高、资源占用大、推理时间长、模型集成复杂。自底向上的版面理解方案,一般采用端到端的模型,缺点是模型适应性较差,只能适用于纯文本图像。
[0005]可见,现有技术中的文档图像的版面理解方法还需要改进。
技术实现思路
[0006]本申请实施例提供一种 ...
【技术保护点】
【技术特征摘要】
1.一种文档图像的版面理解方法,其特征在于,包括:通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。2.根据权利要求1所述的方法,其特征在于,所述第一检测结果包括:所述粗粒度版面元素的类型和检测框位置,所述第二检测结果包括:所述细粒度版面元素的类型和检测框位置,所述根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果,包括:根据所述细粒度版面元素的所述检测框位置和每个所述粗粒度版面元素的所述检测框位置,获取所述细粒度版面元素分别与每个所述粗粒度版面元素的检测框重叠面积;响应于所述检测框重叠面积均小于或等于预设面积阈值,根据所述细粒度版面元素的所述检测框位置,对所述第一检测结果进行补充,得到优化后的第一检测结果;响应于所述检测框重叠面积大于所述预设面积阈值,根据所述检测框重叠面积与所述细粒度版面元素的检测框的面积大小关系,以及所述检测框重叠面积对应的所述粗粒度版面元素的所述类型,对所述第二检测结果进行优化,得到优化后的第二检测结果,其中,所述细粒度版面元素的所述检测框根据所述细粒度版面元素的所述检测框位置确定;根据优化后的第一检测结果和优化后的第二检测结果,生成所述待处理文档图像的版面理解结果。3.根据权利要求2所述的方法,其特征在于,所述根据所述检测框重叠面积与所述细粒度版面元素的检测框的面积大小关系,以及所述检测框重叠面积对应的所述粗粒度版面元素的所述类型,对所述第二检测结果进行优化,包括:响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配非文本类型,保持所述第二检测结果不变;或,响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配文本类型,且所述检测框重叠面积与所述细粒度版面元素的检测框的面积相等,保持所述第二检测结果不变;或,响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配文本类型,且所述检测框重叠面积与所述细粒度版面元素的检测框的面积不等,根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测框的分割结果,优化所述第二检测结果。4.根据权利要求3所述的方法,其特征在于,所述根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测框的分割结果,优化所述第二检测结果,包括:根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测
框的分割结果,得到所述细粒度版面元素的所述检测框与所述粗粒度版面元素的所述检测框的重叠部分构成的第一候选检测框的检测框位置,以及,得到所述细粒度版面元素的所述检测框与所述粗粒度版面元素的所述检测框未重叠的每个部分分别构成的第二候选检测框的检测框位置;根据所述细粒度版面元素的检测框位置和每个所述第二候选检测框的检测框位置,计算每个所述第二候选检测框与所述细粒度版面元素的所述检测框的面积比值;将所述第一候选检测框作为拆分得到的第一细粒度版面元素的检测框,将所述第一细粒度版面元素的类型和检测框位置增加到所述第二检测结果中;响应于所述面积比值大于或等于预设比值阈值,将所述第二候选检测框作为拆分得到的第二细粒度版面元素的检测框,将所述第二细粒度版面元素的类型和检测框位置增加到所述第二检测结果中;删除所述第二检测结果中所述细粒度版面元素的所述类型和所述检测框位置,得到优化后的第二检测结果。5.根据权利要求1至4任一项所述的方法,其特征在于,所述图像特征包括:不同深度的第二预设数量增强特征图,所述第二分支...
【专利技术属性】
技术研发人员:王亚萌,刘正珍,
申请(专利权)人:汉王科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。