发行公告版面分析方法技术

技术编号:29018153 阅读:19 留言:0更新日期:2021-06-26 05:19
本发明专利技术提供发行公告版面分析方法,涉及数据处理技术领域。该发行公告版面分析方法,包括以下步骤:S1.将待分析图像输入训练好的目标检测模型中;S2.判断待分析图像中是否包含表格元素和图元素,如果包含则调整表格和图元素位置并进行下一步,不包含则进行步骤S4;S3.调整所有与图、表格元素有重叠的元素位置;S4.利用投影法计算文本行位置;S5.标记文本行所属版面元素,同时调整对应的版面元素位置;S6.判断是否需要分栏,并计算分栏位置。本发明专利技术利用一系列空间布局特征对包括所有表格、图和文本等版面元素建立基于阅读逻辑的版面元素排序,采用深度学习和图像处理混合算法标记版面元素并精确勾勒其边界,达到版面元素精确标记的目标。的目标。的目标。

【技术实现步骤摘要】
发行公告版面分析方法


[0001]本专利技术涉及数据处理
,具体为发行公告版面分析方法。

技术介绍

[0002]理想的版面分析技术能够定位给定文档版面中的文本段落、表格和图等元素,并构建版面各个元素的阅读逻辑顺序。然而当前的版面分析技术存在着诸多不足。
[0003]当前基于图像处理方法的版面分析,主要通过对图像进行滤波、锐化等处理,利用投影,连通域分析和形态学处理方法来划分区域。由于该方法依赖于图像的形态学等特征,对背景复杂、字符较少的版面图像版面元素定位效果不佳。现有基于深度学习的目标检测技术能够将版面中的文本段落、表格和图等元素视为不同的目标进行检测,从而获得版面元素的类别和位置信息。现阶段版面逻辑阅读顺序的构建方法主要分为两类,一类利用OCR识别的结果信息,根据中文词语和英文单词字母的连续性来重建阅读顺序,另一类则基于图论理论来构建阅读顺序,此类方法把文字块的邻接关系表示为有向图,利用自然语言处技术计算连接间的权重值,采用最优化的方法建立文字块的阅读顺序。
[0004]现有专利技术专利(公开号为CN104516891B)公开了一种版面分析方法及系统,该专利技术采用逻辑参考信息与基本图元数据信息结合的方式,并在版面分析过程中充分利用这部分逻辑参考消息,从而得到更准确的版面文档的版面分析结果,有效地改进了版式文档的版面分析结果,然而该方法只是利用OCR结果作为参考的逻辑阅读顺序重构方法,未考虑版面元素的位置信息且对OCR的识别结果要求过高,导致其阅读顺序判断正确率较低。
[0005]现有专利技术专利(公开号为CN100568221C)公开了一种对报纸版面进行文字阅读顺序恢复的方法,该专利技术以图论理论进行数学建模,把文字块的邻接关系表示为有向图,并把有向图拆分转化为加权二分图,采用自然语言处理技术计算二分图边权值,通过最优匹配得到多个连续序列,每个序列再根据文字块样式信息分割成多个子序列,子序列对应内容的连接即是独立篇章的具有阅读顺序的文字流,利用了语义、空间关系和样式信息,阅读顺序恢复的正确率大大改进且以篇章为单位具有独立性。然而这种根据图论进行建模的方法需要利用自然语言处理技术,只能处理纯文本类的版面,对包含表格、图等其它元素版面,无法构建完整和准确的阅读逻辑顺序。
[0006]现有专利技术专利(公开号为CN110674721A)公开了一种试卷版面公式自动检测的方法,该试卷版面公式自动检测的方法针对扫描及拍照试卷这种特殊的文档图像数据,提出将mobilenetv2、advance east和ssd算法结合的整体解决方案,整体基于ssd网络架构,将原有主干网络替换成更加轻量级的mobilenetv2网络,并引入advance east算法中的特征融合方式,最后,从融合后的特征图上,分阶段从不同层中预测大小不同的目标物体,然而利用目标检测算法获取到的版面元素位置,通常元素边界处分割不准确,具体表现为边界与文本相交、部分短文本行被遗漏、多个版面元素边界互相重叠等现象,导致版面元素定位效果不佳。
[0007]综上所述,需要对现有版面分析技术进行改进。

技术实现思路

[0008](一)解决的技术问题
[0009]针对现有技术的不足,本专利技术提供了发行公告版面分析方法,解决了现有技术利用OCR结果作为参考的逻辑阅读顺序重构方法,未考虑版面元素的位置信息且对OCR的识别结果要求过高,导致其阅读顺序判断正确率较低;根据图论进行建模的方法需要利用自然语言处理技术,只能处理纯文本类的版面,对包含表格、图等其它元素版面,无法构建完整和准确的阅读逻辑顺序;利用目标检测算法获取到的版面元素位置,通常元素边界处分割不准确,具体表现为边界与文本相交、部分短文本行被遗漏、多个版面元素边界互相重叠等现象,导致版面元素定位效果不佳的问题。
[0010](二)技术方案
[0011]为实现以上目的,本专利技术通过以下技术方案予以实现:发行公告版面分析方法,包括以下步骤:
[0012]S1.将待分析图像输入训练好的目标检测模型中;
[0013]S2.判断待分析图像中是否包含表格元素和图元素,如果包含则调整表格和图元素位置并进行下一步,不包含则进行步骤S4;
[0014]S3.调整所有与图、表格元素有重叠的元素位置;
[0015]S4.利用投影法计算文本行位置;
[0016]S5.标记文本行所属版面元素,同时调整对应的版面元素位置;
[0017]S6.判断是否需要分栏,并计算分栏位置;
[0018]S7.对版面元素进行排序;
[0019]S8.输出结果。
[0020]优选的,所述发行公告版面分析方法选择Faster

RCNN深度学习框架结构来检测版面元素,该方法将版面元素分为页眉、页脚、文本段落、图和表格5类,标注8300张样本上的版面元素类别和位置,用标注好的样本训练Faster

RCNN模型。
[0021]优选的,所述S2中调整表格元素位置的具体步骤包括:以深度学习模型输出的表格位置为基准进行扩大和缩小,扩大1.3倍得到位置A,缩小0.7倍得到位置B,在原始输入图像上裁切位置A和位置B之间的部分,二值化后,用直线段检测算法检测并合并直线,根据检测到的直线坐标调整表格元素的位置,如果没有检测到直线,通过纵向和横向投影定位文本行,根据文本位置调整表格元素的位置,图元素的调整方式和表格元素相同。
[0022]优选的,所述S3后还包括以下步骤:如果版面含有图或者表格元素,将原图中调整后的表格或图位置置为背景,更新后的输入图像最多只有页眉页脚和文本段落三个类别的元素。
[0023]优选的,所述S4中计算文本行位置的具体方式包括:二值化更新后的样本图片,用10*1的核心对其腐蚀,使得文字可以连续成行,在竖直方向和水平方向上进行投影,获取文本行的位置坐标。
[0024]优选的,所述S5的具体步骤包括:
[0025]a.遍历网络模型输出的非表格和图元素D,筛选出D中互相有重叠的元素,计算重叠区域坐标,根据重叠区域与文本行的交并比,筛选出重叠区域内的文本行,以任意一条文本行的起点纵坐标为边界分割重叠的版面元素;
[0026]b.计算D与每条文本行E的交并比,当交并比大于0.5,并且文本长度大于当前版面元素D的宽度的50%时,标记当前文本行E属于当前版面元素D;对于不与任何版面元素相交的文本行,计算其中心位置与所有版面元素D中心位置的距离,标记其属于距离最近的版面元素;
[0027]c.标记完所有文本对应版面元素之后,在横向计算每个版面元素下属的文本行的起点和终点平均值,更新版面元素的左右位置为计算得到的平均值,上下位置为纵向上每个版面元素下属文本行坐标的最小和最大值。
[0028]优选的,所述S6的具体步骤如下:
[0029]1).若w为样本图片宽度,如果版面中含有宽度小于1/2*w的表格或者图元素,那么该版面需要分栏,并且这两种元素的横向边界就可以作为分栏位置,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.发行公告版面分析方法,其特征在于:包括以下步骤:S1.将待分析图像输入训练好的目标检测模型中;S2.判断待分析图像中是否包含表格元素和图元素,如果包含则调整表格和图元素位置并进行下一步,不包含则进行步骤S4;S3.调整所有与图、表格元素有重叠的元素位置;S4.利用投影法计算文本行位置;S5.标记文本行所属版面元素,同时调整对应的版面元素位置;S6.判断是否需要分栏,并计算分栏位置;S7.对版面元素进行排序;S8.输出结果。2.根据权利要求1所述的发行公告版面分析方法,其特征在于:所述发行公告版面分析方法选择Faster

RCNN深度学习框架结构来检测版面元素,该方法将版面元素分为页眉、页脚、文本段落、图和表格5类,标注8300张样本上的版面元素类别和位置,用标注好的样本训练Faster

RCNN模型。3.根据权利要求1所述的发行公告版面分析方法,其特征在于:所述S2中调整表格元素位置的具体步骤包括:以深度学习模型输出的表格位置为基准进行扩大和缩小,扩大1.3倍得到位置A,缩小0.7倍得到位置B,在原始输入图像上裁切位置A和位置B之间的部分,二值化后,用直线段检测算法检测并合并直线,根据检测到的直线坐标调整表格元素的位置,如果没有检测到直线,通过纵向和横向投影定位文本行,根据文本位置调整表格元素的位置。调整图元素位置的具体步骤包括:以模型输出的图元素位置为基准扩大1.3倍得到位置C,由于图片与文档图像的背景之间通常有明显梯度,在上下左右四个方向上以滑动窗口的的方式寻找灰度值第一次发生突变的位置作为当前方向的图元素边界,最终得到调整后的图元素的位置。4.根据权利要求1所述的发行公告版面分析方法,其特征在于:所述S3后还包括以下步骤:如果版面含有图或者表格元素,将原图中调整后的表格或图位置置为背景,更新后的输入图像最多只有页眉页脚和文本段落三个类别的元素。5.根据权利要求1所述的发行公告版面分析方法,其特征在于:所述S4中计算文本行位置的具体方式包括:二值化更新后的样本图片,用10*1的核心对其腐蚀,使得文字可以连续成行,在竖直方向和水平方向上进行投影,获取文本行的位置坐标。6.根据权利要求1所述的发行公告版面分析方法,其特征在于:所述S5的具体步骤包括:a.遍历网络模型输出的非表格和图元素D,筛选出D中互相有重叠的元素,计算重叠区域坐标,根据重叠区域与文本行的交并比,筛选出重叠区域内的文本行,以任意一条文本行的起点纵坐标为边界分割重叠的版面元素;b.计算D与每条文本行E的交并比,当交并比大于0.5,并且文本长度大于当前版面元素D的宽度的50%时,标记当前文本行E属于当前版面元素D;对于不与任何版面元素相交的文本行,计算其中心位置与所有版面元素D中心位置的距离,标记其属于距离最近的版面元素;c.标记完所有文本对应版面元素之后,在水平方向计算每个...

【专利技术属性】
技术研发人员:周玉飞
申请(专利权)人:北京合众鼎成科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1