一种文档版面分析方法技术

技术编号:26223281 阅读:38 留言:0更新日期:2020-11-04 10:55
本发明专利技术公开了一种文档版面分析方法,该方法包括将输入的版面图像缩放成3种尺度的图像;将各个尺度的图像进行特征的提取和融合;将融合后的图像特征送入分割网络主干进行语义信息特征的提取;将具有高语义信息的高层低分辨率特征进行上采样,再与具有丰富空间细节信息的低层高分辨率特征进行融合;根据不同版面元素的属性,设置相应的分割网络分支进行分割识别,同时,将输出的特征图像恢复到预先指定的分辨率,完成文档版面分析。采用了本发明专利技术的技术方案,能够融合多尺度输入图像,增加分割网络对不同尺度输入图像的适应能力,降低输入图像缩放操作对模型的影响,针对版面元素不同属性增加不同分割网络分支,降低不同版面元素的相互影响。

【技术实现步骤摘要】
一种文档版面分析方法
本专利技术涉及光学字符识别
,尤其涉及一种文档版面分析方法。
技术介绍
版面分析是光学字符识别(OCR)系统的基本步骤之一,是对文档版面中的图像、文本、表格特征和位置关系进行分析、识别和理解的过程。版面分析结果的优劣会直接影响到OCR后续模块的性能,随着深度学习的发展,基于深度学习的文档版面分析系统逐渐成为主流方法。由于图像语义分割技术具有像素级别的识别和定位能力,非常适用于文档版面分析任务。众所周知,文字是一种稀疏的非刚体结构,其尺度变化大、结构复杂、种类繁多、含有极为丰富的语义信息。因此,相比于通用物体的图像处理过程,文档版面对图像的缩放操作更加敏感,如果操作不当很容易导致文字严重变形、模糊,甚至丢失其所包含的语义信息。这些原因导致基于语义分割的文档版面分析方法需要输入图像和输出特征图都具有较高的分辨率,才能保证有较高的精确度。但是,高分辨率的文档图像版面分析不仅会增加深度神经网络模型的复杂度,而且也会增加其计算负荷和显存需求。另一方面,文档版面的结构非常复杂,大多数文档都存在不同版面元素互相嵌套本文档来自技高网...

【技术保护点】
1.一种文档版面分析方法,其特征在于,包括以下步骤:/n将输入的版面图像缩放成3种尺度的图像;/n将各个尺度的图像进行特征的提取和融合;/n将融合后的图像特征送入分割网络主干进行语义信息特征的提取;/n将具有高语义信息的高层低分辨率特征进行上采样,再与具有丰富空间细节信息的低层高分辨率特征进行融合;/n根据不同版面元素的属性,设置相应的分割网络分支进行分割识别,同时,将输出的特征图像恢复到预先指定的分辨率,完成文档版面分析。/n

【技术特征摘要】
1.一种文档版面分析方法,其特征在于,包括以下步骤:
将输入的版面图像缩放成3种尺度的图像;
将各个尺度的图像进行特征的提取和融合;
将融合后的图像特征送入分割网络主干进行语义信息特征的提取;
将具有高语义信息的高层低分辨率特征进行上采样,再与具有丰富空间细节信息的低层高分辨率特征进行融合;
根据不同版面元素的属性,设置相应的分割网络分支进行分割识别,同时,将输出的特征图像恢复到预先指定的分辨率,完成文档版面分析。


2.根据权利要求1所述的文档版面分析方法,其特征在于,所述将输入的版面图像缩放成3种尺度的图像,进一步包括以下步骤:
将输入的版面图像进行2倍和0.5倍的缩放操作,获得3种尺度的图像。


3.根据权利要求2所述的文档版面分析方法,其特征在于,所述将多尺度的文本图像进行特征的提取和融合,进一步包括以下步骤:
将所述2倍尺度的版面图像经过输出特征通道数为16、步长为2的3×3的卷积层进行下采样;
与所述原尺度的版面图像的输出特征通道数为32、步长为1的3×3卷积特征进行特征向量拼接;
使用1个输出特征通道数为64、步长为1的3×3卷积层进行第一次特征融合;
使用1个输出特征通道数为64、步长为2的3×3卷积层进行下采样;
与所述0.5倍尺度的版面图像的输出特征通道数为16、步长为1的3×3卷积特征进行特征向量拼接;
使用1个输出特征通道数为64、步长为1的3×3卷积层进行第二次特征融合;
使用1个输出特征通道数为64、步长为2的3×3卷积层进行下采样。


4.根据权利要求3所述的文档版面分析方法,其特征在于,所述融合后的图像特征送入分割网络主干时分辨率是所述原尺度的版面图像分辨率的1/4,输出特征通道数为64。


5.根据权利要求1-4中任一权利要求所述的文档版面分析方法,其特征在于,所述分割网络主干是残差网络,在残差网...

【专利技术属性】
技术研发人员:王波张百灵周炬朱华柏
申请(专利权)人:苏州开心盒子软件有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1