文档图像的区域分离方法、装置及存储介质制造方法及图纸

技术编号:28202625 阅读:20 留言:0更新日期:2021-04-24 14:25
本发明专利技术提供一种文档图像的区域分离方法、装置及存储介质。通过对文档图像进行预处理得到二值化图像,对二值化图像进行连通区域分析得到第一连通区域集合,根据第一连通区域集合中各连通区域的属性特征,将第一连通区域集合划分为第二连通区域集合和第三连通区域集合,其中第二连通区域集合中包括非文本元素的连通区域,第三连通区域集合中包括文本元素的连通区域,进一步根据第三连通区域集合中各连通区域的属性特征和相邻位置信息,从第三连通区域集合中确定文本元素的连通区域。上述方法可以从文本区域中提取更多的非文本元素,提高了文档图像的文本非文本分离的准确性。文档图像的文本非文本分离的准确性。文档图像的文本非文本分离的准确性。

【技术实现步骤摘要】
文档图像的区域分离方法、装置及存储介质


[0001]本专利技术涉及版面分析
,尤其涉及一种文档图像的区域分离方法、装置及存储介质。

技术介绍

[0002]随着电子期刊和电子图书等电子读物的推广与普及,人们将越来越多的传统纸张读物通过图文扫描仪、照相机等图像采集设备转化成数字图像,并放入网络中共享。我们将这种主要载荷文字、图片、表格等文本信息的数字图像称为文档图像。文档图像是由纸张文件衍生而来,具有内容直观,便于携带与传输等特点,因此在各个行业领域中都有着广泛的应用。
[0003]对文档图像的版面分析主要是利用计算机自动地对文档图像的版面数据进行处理和分割,识别图像版面上的文字、图片、图形及表格等区域的位置、属性。目前现有的文档图像的区域分离方法主要有以下两种:一种是逐像素判定方法,该方法主要针对图像中的每一个像素点,根据像素点的灰度值计算每一个像素点的边缘强度值,然后根据各像素点的边缘强度值确定与待处理图像对应的二值图,根据二值图和各像素点的灰度值,确定各像素点文本区域判定值,最后根据各像素点判定值判定图像的文本区域和非文本区域。另一种是基于深度学习的文本检测技术,该方法使用深度学习网络对图像中的文字进行检测,例如Faster RCNN、EAST、Textbox++等文字检测方法,然后将检测出的文本作为文本区域。
[0004]上述第一种方法基于单个像素和周边像素值进行计算,只能关注图像局部,不能把握图像的整体结构和各元素间的位置,区域分离的准确性和鲁棒性较低。上述第二种方法仅能检测出文字,无法将图片、表格中的文字与正常文档中的段落文字进行区分。

技术实现思路

[0005]本专利技术提供一种文档图像的区域分离方法、装置及存储介质,提高了文档图像的文本非文本分离的准确性。
[0006]本专利技术的第一方面提供一种文档图像的区域分离方法,包括:
[0007]对文档图像进行预处理,得到二值化图像;
[0008]对所述二值化图像进行连通区域分析得到第一连通区域集合;
[0009]获取并根据所述第一连通区域集合中各连通区域的属性特征,将所述第一连通区域集合划分为第二连通区域集合和第三连通区域集合;所述第二连通区域集合中包括非文本元素的连通区域,所述第三连通区域集合中包括文本元素的连通区域;
[0010]获取并根据所述第三连通区域集合中各连通区域的属性特征和相邻位置信息,从所述第三连通区域集合中确定文本元素的连通区域。
[0011]可选的,每一个所述连通区域的属性特征包括每一个所述连通区域的像素数量、像素密度、宽高比,以及嵌套在每一个所述连通区域的最小外接矩形中的其他连通区域的
第一数量。
[0012]在一种可能的实现方式中,所述根据所述第一连通区域集合中各连通区域的属性特征,将所述第一连通区域集合划分为第二连通区域集合和第三连通区域集合,包括:
[0013]判断所述第一连通区域集合中各连通区域的属性特征是否满足第一非文本元素条件,将连通区域的属性特征满足第一非文本元素条件的连通区域划分到第二连通区域集合。
[0014]在一种可能的实现方式中,所述第一非文本元素条件包括以下条件的至少一项:
[0015]连通区域的像素数量小于预设像素数量;
[0016]连通区域的像素密度小于预设像素密度;
[0017]连通区域的宽高比小于预设宽高比;
[0018]嵌套在连通区域的最小外接矩形中的其他连通区域的第一数量大于第一值。
[0019]在一种可能的实现方式中,获取所述第三连通区域集合中各连通区域的相邻位置信息,包括:
[0020]对所述第三连通区域集合中各连通区域进行空白区域分析,确定所述第三连通区域集合中各连通区域对应的相邻连通区域;
[0021]获取所述第三连通区域集合中各连通区域对应的相邻位置信息,所述相邻位置信息包括每一个连通区域与所述每一个连通区域对应的相邻连通区域的距离,每一个连通区域的左连通区域数量以及右连通区域数量。
[0022]在一种可能的实现方式中,所述根据所述第三连通区域集合中各连通区域的属性特征和相邻位置信息,从所述第三连通区域集合中确定文本元素的连通区域,包括:
[0023]判断所述第三连通区域集合中各连通区域的属性特征是否满足第二非文本元素条件;
[0024]判断所述第三连通区域集合中各连通区域的相邻位置信息是否满足第三非文本元素条件;
[0025]将所述第三连通区域集合中不满足所述第二非文本元素条件的连通区域,以及满足所述第二非文本元素条件但不满足所述第三非文本元素条件的连通区域确定为文本元素的连通区域。
[0026]在一种可能的实现方式中,所述第二非文本条件包括:
[0027]第一条件和第二条件;或者,
[0028]所述第一条件和第三条件;或者,
[0029]所述第一条件、所述第二条件和所述第三条件;
[0030]其中,所述第一条件为A
i
=max(Ω1)∩A
i
>k1×
median(Ω1);所述第二条件为H
i
=max(Ω2)∩H
i
>k2×
median(Ω2);所述第三条件为W
i
=max(Ω3)∩W
i
>k3×
median(Ω3);
[0031]式中,Ω1表示所述第三连通区域集合中各连通区域的像素数量的集合,Ω2表示所述第三连通区域集合中各连通区域的高度的集合,Ω3表示所述第三连通区域集合中各连通区域的宽度的集合,mean表示计算平均值,median表示计算中位数,A
i
表示所述第三连通区域集合中第i个连通区域的像素数量,H
i
表示所述第三连通区域集合中第i个连通区域的最小外接矩形的高度,W
i
表示所述第
三连通区域集合中第i个连通区域的最小外接矩形的宽度。
[0032]在一种可能的实现方式中,所述第三非文本元素条件包括:
[0033]每一个连通区域与所述每一个连通区域对应的相邻连通区域的距离大于或者等于预设距离;和/或
[0034]所述每一个连通区域对应的相邻连通区域的第二数量大于或者等于第二值,所述第二数量为左连通区域数量与右连通区域数量中的最大值。
[0035]在一种可能的实现方式中,所述方法还包括:
[0036]获取与所述非文本元素的连通区域交叠的连通区域的最小外接矩形的第一像素数量;
[0037]获取对所述非文本元素的连通区域进行膨胀操作后的第二像素数量;
[0038]若所述第一像素数量大于所述第二像素数量,则将与所述非文本元素的连通区域交叠的连通区域确定为文本元素的连通区域。
[0039]本专利技术的第二方面提供一种文档图像的区域分离装置,包括:
[0040]图像预处理模块,用于对文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档图像的区域分离方法,其特征在于,包括:对文档图像进行预处理,得到二值化图像;对所述二值化图像进行连通区域分析得到第一连通区域集合;获取并根据所述第一连通区域集合中各连通区域的属性特征,将所述第一连通区域集合划分为第二连通区域集合和第三连通区域集合;所述第二连通区域集合中包括非文本元素的连通区域,所述第三连通区域集合中包括文本元素的连通区域;获取并根据所述第三连通区域集合中各连通区域的属性特征和相邻位置信息,从所述第三连通区域集合中确定文本元素的连通区域。2.根据权利要求1所述的方法,其特征在于,每一个所述连通区域的属性特征包括每一个所述连通区域的像素数量、像素密度、宽高比,以及嵌套在每一个所述连通区域的最小外接矩形中的其他连通区域的第一数量。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一连通区域集合中各连通区域的属性特征,将所述第一连通区域集合划分为第二连通区域集合和第三连通区域集合,包括:判断所述第一连通区域集合中各连通区域的属性特征是否满足第一非文本元素条件,将连通区域的属性特征满足第一非文本元素条件的连通区域划分到第二连通区域集合。4.根据权利要求3所述的方法,其特征在于,所述第一非文本元素条件包括以下条件的至少一项:连通区域的像素数量小于预设像素数量;连通区域的像素密度小于预设像素密度;连通区域的宽高比小于预设宽高比;嵌套在连通区域的最小外接矩形中的其他连通区域的第一数量大于第一值。5.根据权利要求1所述的方法,其特征在于,获取所述第三连通区域集合中各连通区域的相邻位置信息,包括:对所述第三连通区域集合中各连通区域进行空白区域分析,确定所述第三连通区域集合中各连通区域对应的相邻连通区域;获取所述第三连通区域集合中各连通区域对应的相邻位置信息,所述相邻位置信息包括每一个连通区域与所述每一个连通区域对应的相邻连通区域的距离,每一个连通区域的左连通区域数量以及右连通区域数量。6.根据权利要求1所述的方法,其特征在于,所述根据所述第三连通区域集合中各连通区域的属性特征和相邻位置信息,从所述第三连通区域集合中确定文本元素的连通区域,包括:判断所述第三连通区域集合中各连通区域的属性特征是否满足第二非文本元素条件;判断所述第三连通区域集合中各连通区域的相邻位置信息是否满足第三非文本元素条件;将所述第三连通区域集合中不满足所述第二非文本元素条件的连通区域,以及满足所述第二非文本元素条件但不满足所述第三非文本元素条件的连通区域确定为文本元素的连通区域。7.根据权利要求6所述的方法,其特征在于,所述第二非文本条件包括:
第一条件和第二条件;或者,所述第一条件和第三条件;或者,所述第一条件、所述第二条件和所述第三条件;其中,所述第一条件为A
i
=max(Ω1)∩A
i
>k1×
median(Ω1...

【专利技术属性】
技术研发人员:王祺尧
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1