一种基于掩膜约束的文档布局分析方法技术

技术编号:36791322 阅读:87 留言:0更新日期:2023-03-08 22:42
本发明专利技术公开了一个基于掩膜约束的文档布局分析方法,用检测方法处理文档布局分析存在的语义差距缺陷,属于数字图像处理技术领域。本发明专利技术提出了一个新颖的MASK约束聚合算法来确保输入中的全局语义信息能够得到进一步挖掘并解决MASK R

【技术实现步骤摘要】
一种基于掩膜约束的文档布局分析方法


[0001]本专利技术涉及图像处理
,具体涉及基一种基于掩膜约束的文档布局分析方法。

技术介绍

[0002]文档布局分析(DLA)在计算机视觉领域中扮演着非常重要的角色。文档布局分析的目标是划分文档图像中的高阶语义区域(即图、表、文本、背景)。传统的DLA可以分为两类,即自上而下和自下而上的策略。随着深度神经网络的蓬勃发展,深度学习算法在解决模式识别和计算机视觉问题方面已经变得很普遍。因此,基于深度学习的文档布局分析技术在解决复杂布局分析方面得到了更多的关注。例如,完全卷积神经网络FCNN,多尺度深度神经网络。最近,在将DLA任务视为语义分割任务方面取得了很多进展,包括多任务完全卷积网络,为平面设计布局设计的深度生成模型,跨域的文档对象检测算法,只包括一个卷积层的FCNN框架。获得的实验结果与一系列复杂的深度神经网络相当。
[0003]目前,基于语义分割和基于目标检测的方法是文档布局分析的两种主流方法。与基于语义分割的方法相比,基于目标检测的方法在保证分割结果的完整性方面具有独特的优势,最突出的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于掩膜约束的文档布局分析方法,其特征在于,包括以下步骤:步骤1:将MaskR

CNN的物体检测框架整合到图像内部的分割中;步骤2:将输入图像的MASK与原始图像叠加,然后将图像的RGB通道信息再次叠加到MaskR

CNN的输出,形成一个具有4个通道的输入物体;步骤3:将输入物体放入MASK约束中,最终得到一个通道数为6的输出结果;步骤4:使用基于深度图分割的图像背景估计方法,即约束聚合算法得到预测结果。2.根据权利要求1所述的一种基于掩膜约束的文档布局分析方法,其特征在于,所述步骤3,具体为:3.1:构建一个金字塔池模型,以更全面地使用4通道输入;3.2:为了提取不同感受野的信息,每次卷积都将输入升维为8个通道,共得到32个通道的输出;3.3:采用自适应平均池,提取了整个输入的全局信息来更有效地实现全局信息;3.4:将得到的32个通道的特征信息联系起来,然后让它们经过1
×
1卷积运算降维,将通道数变为8;3.5:将运算结果再次经过3
×
3卷积运算,通道数保持不变仍为8;3.6:最后利用1
×
1卷积运算,用6个卷积核将通道数降为6作为输出结果。3.根据权利要求1所述的一种基于掩膜约束的文档布局分析方法,其特征在于,步骤4所述使用基于...

【专利技术属性】
技术研发人员:齐沛航贺樑肖路巍吴兴蛟马天龙
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1