文档版面智能化分析方法及装置制造方法及图纸

技术编号:21478953 阅读:25 留言:0更新日期:2019-06-29 05:06
本申请公开了一种文档版面智能化分析方法及装置,通过对原文档图像进行灰度化,得到灰度图像;对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;将所述过滤结果输入分离投影深度卷积网络进行分类。具备了区分复杂布局文档中的文本与非文本区域;能够针对线的特点进行定制化要素分析,效果好且效率高;高效率智能化地实现了对表格和图像的分类;适合所有文档版面进行智能化地分析等优点。

【技术实现步骤摘要】
文档版面智能化分析方法及装置
本申请涉及智能识别
,具体而言,涉及一种文档版面智能化分析方法及装置。
技术介绍
在当今时代,人工智能的飞速发展,带来了对文档智能处理的极大需求,如何区分文档里面的文字、图像、表格以及其他辅助元素等是智能化理解文档的关键一环,文档版面的智能化分析则是实现这关键一环的技术。此外,OCR(光学字符识别)作为计算机信息录入的一个重要技术,旨在将纸质文档、扫描件的文本内容转化为计算机可以进行编码的数字化信息,也非常依赖于文档版面分析技术,版面分析的结果直接影响到最终的识别准确率。故而文档版面分析在近年来得到了广泛的关注与研究。因此,文档版面的智能化分析是文档智能处理以及OCR系统的关键组成部分。能否准确地将文档中的全部版面元素准确的提取和分割出来是文档版面分析功能的重要衡量指标。对于一般的非倾斜纯文本图片,很多版面分析算法都能够达到较好的结果,但是像经过扫描而产生的图片难免在扫描的过程中发生页面的整体倾斜,这将导致大多数无论是基于自顶向下还是基于自底向上的版面分析算法失效,比如大多数自顶向下的版面分析算法是基于投影法(比如X-Ycut方法)与图形形态学实现的,在对文本进行水平投影时的结果如图3非倾斜与倾斜的纯文本向水平投影的结果所示:其中,(3a)非倾斜文本水平投影,(3b)倾斜文本水平投影;可以从图3中清楚的看出:对于非倾斜文档,非文本区域投影后的数值为0,表明该水平区域没有任何文本,因此能够很精确的定位到每行文本的基线和顶线,进而完成文档分割的任务。但是对于倾斜文档,能够明显的看出这种特征几乎全部消失,将会导致文本分割结果出现错误。同样的,基于自底向上的文档版面分析方法的前提也应该是无倾斜文本,否则各个连通域之间的关系极易判断错误,也会导致最终分析结果的不准确性。2.2版面布局的复杂度高对于文档布局方式为曼哈顿布局的图像,大多数版面分析算法都能够进行较为精准的布局分析,然而对于非曼哈顿布局的文档,它们的布局特点往往是文本段、图片以及表格共存且有着极为不规则的布局方式,如图2所示;可以从图4中看出,这张非曼哈顿文本布局的图像中充斥着大量不规则布局的文本、图片以及横竖线,这些非文本区域会对版面分析产生较为严峻的挑战,导致无法够提取出全部的文本信息,降低最终的识别准确率。目前在文档版面分析领域大多数传统算法都无法较好的处理这类版面,因此文本提取率很低。针对相关技术中不规则布局的文本、图片以及横竖线,这些非文本区域会对版面分析产生较为严峻的挑战,导致无法够提取出全部的文本信息,降低最终的识别准确率的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种文档版面智能化分析方法及装置,以解决不规则布局的文本、图片以及横竖线,导致无法够提取出全部的文本信息问题。为了实现上述目的,根据本申请的一个方面,提供了一种文档版面智能化分析方法。根据本申请的文档版面智能化分析方法包括:对原文档图像进行灰度化,得到灰度图像;对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;将所述过滤结果输入分离投影深度卷积网络进行分类。进一步的,如前述的文档版面智能化分析方法,所述对所述灰度图像进行文本倾斜矫正,并得到第一二值图像,包括:获取所述灰度图像中文本倾斜角度;在所述文本倾斜角度超过时,通过最大行间方差算法对所述灰度图片进行倾斜矫正;通过Sauvola局部二值化算法进行二值化处理,并得到所述第一二值图像。进一步的,如前述的文档版面智能化分析方法,在所述所有前景元素的连通域中剔除非文本的连通域,包括:判断所述前景元素的连通域是否满足下述条件中的至少一个:所述前景元素的连通域内像素个数小于6个;一个所述前景元素的连通域内包含4个或者4个以上的子连通域;所述前景元素的连通域内像素个数除以它的最小外接矩形的比率小于0.05;所述前景元素的连通域最小外接矩形的短边与长边之比小于6%;在一个所述前景元素的连通域满足以上4个条件中的任意一种,则判定为一个非文本连通域,将所述非文本连通域从所述第一二值图像中剔除。进一步的,如前述的文档版面智能化分析方法,提取出所述第二二值图像中的全文本区域图像以及第一非文本图像,包括:提取出所述第二二值图像中竖直方向的竖直多级同构区域;针对每一个所述竖直多级同构区域,再依次进行水平方向的多级同构区域提取得到水平多级同构区域;根据所述竖直多级同构区域和水平多级同构区域确定所有多级同构区域,并在所述第二二值图像中提取出全文本区域图像;根据所述全文本区域图像确定所述第二二值图像中的第一非文本图像。进一步的,如前述的文档版面智能化分析方法,所述提取出所述第二二值图像中竖直方向的多级同构区域,包括:对所述第二二值图像做竖直投影,得到第一投影向量集;将第一投影向量集中数值大于零的地方置为-1,等于零的地方保持为0,并得到第一赋值集;根据所述第一赋值集对所述第一投影向量集进行游程编码,确定所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽;根据所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽,分别得到第一黑线线宽组以及第一白线线宽组;分别计算所述第一黑线线宽组以及第一白线线宽组的第一方差;如果所述第一方差大于2.3,则根据所述第一黑线线宽组中最宽黑线或者第一白线线宽组中最宽白线进行图像分割;其中,根据所述第一黑线线宽组中最宽黑线进行图像分割为:在所述第一黑线线宽组中最宽黑线处两侧的白线垂直分割图像;根据第一白线线宽组中最宽白线进行图像分割为:在所述第一白线线宽组中最宽白线处垂直分割图像;将进行图像分割后新生成的分割图像存储并继续计算,按此递归执行,直到所述第一黑线线宽组以及第一白线线宽组的方差均小于等于2.3,则表明已经提取出所有的竖直方向的竖直多级同构区域。进一步的,如前述的文档版面智能化分析方法,所述针对每一个所述竖直方向的多级同构区域,再依次进行水平方向的多级同构区域提取,包括:对所述第二二值图像做水平投影,得到第二投影向量集;将第二投影向量集中数值大于零的地方置为-1,等于零的地方保持为0,并得到第二赋值集;根据所述第二赋值集对所述第二投影向量集进行游程编码,确定所述第二二值图像的水平方向的所有黑线以及所有白线的线宽;根据所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽,分别得到第二黑线线宽组以及第二白线线宽组;分别计算所述第二黑线线宽组以及第二白线线宽组的第二方差;如果所述第二方差大于2.3,则根据所述第二黑线线宽组中最宽黑线或者第二白线线宽组中最宽白线进行图像分割;其中,根据所述第二黑线线宽组中最宽黑线进行图像分割为:在所述第二黑线线宽组中最高黑线处两侧的白线水平分割图像;根据第二白线线宽组中最宽白线进行图像分割为:在所述第二白线线宽组中最高白线处水平分割图像;将进行图像分割后新生成的分割图像存储并继续计算,按此递归执行,直到所述第二黑线线宽组以及第二白线线宽组的方差均小于等于2.3,则表明已经提取出所有的水平方向的水本文档来自技高网
...

【技术保护点】
1.一种文档版面智能化分析方法,其特征在于,包括:对原文档图像进行灰度化,得到灰度图像;对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;将所述过滤结果输入分离投影深度卷积网络进行分类。

【技术特征摘要】
1.一种文档版面智能化分析方法,其特征在于,包括:对原文档图像进行灰度化,得到灰度图像;对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;将所述过滤结果输入分离投影深度卷积网络进行分类。2.根据权利要求1所述的文档版面智能化分析方法,其特征在于,所述对所述灰度图像进行文本倾斜矫正,并得到第一二值图像,包括:获取所述灰度图像中文本倾斜角度;在所述文本倾斜角度超过时,通过最大行间方差算法对所述灰度图片进行倾斜矫正;通过Sauvola局部二值化算法进行二值化处理,并得到所述第一二值图像。3.根据权利要求1所述的文档版面智能化分析方法,其特征在于,在所述所有前景元素的连通域中剔除非文本的连通域,包括:判断所述前景元素的连通域是否满足下述条件中的至少一个:所述前景元素的连通域内像素个数小于6个;一个所述前景元素的连通域内包含4个或者4个以上的子连通域;所述前景元素的连通域内像素个数除以它的最小外接矩形的比率小于0.05;所述前景元素的连通域最小外接矩形的短边与长边之比小于6%;在一个所述前景元素的连通域满足以上4个条件中的任意一种,则判定为一个非文本连通域,将所述非文本连通域从所述第一二值图像中剔除。4.根据权利要求1所述的文档版面智能化分析方法,其特征在于,提取出所述第二二值图像中的全文本区域图像以及第一非文本图像,包括:提取出所述第二二值图像中竖直方向的竖直多级同构区域;针对每一个所述竖直多级同构区域,再依次进行水平方向的多级同构区域提取得到水平多级同构区域;根据所述竖直多级同构区域和水平多级同构区域确定所有多级同构区域,并在所述第二二值图像中提取出全文本区域图像;根据所述全文本区域图像确定所述第二二值图像中的第一非文本图像。5.根据权利要求4所述的文档版面智能化分析方法,其特征在于,所述提取出所述第二二值图像中竖直方向的多级同构区域,包括:对所述第二二值图像做竖直投影,得到第一投影向量集;将第一投影向量集中数值大于零的地方置为-1,等于零的地方保持为0,并得到第一赋值集;根据所述第一赋值集对所述第一投影向量集进行游程编码,确定所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽;根据所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽,分别得到第一黑线线宽组以及第一白线线宽组;分别计算所述第一黑线线宽组以及第一白线线宽组的第一方差;如果所述第一方差大于2.3,则根据所述第一黑线线宽组中最宽黑线或者第一白线线宽组中最宽白线进行图像分割;其中,根据所述第一黑线线宽组中最宽黑线进行图像分割为:在所述第一黑线线宽组中最宽黑线处两侧的白线垂直分割图像;根据第一白线线宽组中最宽白线进行图像分割为:在所述第一白线线宽组中最宽白线处垂直分割图像;将进行图像分割后新生成的分割图像存储并继续计算,按此递归执行,直到所述第一黑线线宽组以及第一白线线宽组的方差均小于等于2.3,则表明已经提取出所有的竖直方向的竖直多级同构区域。6.根据权利要求4所述的文档版面智能化分析方法,其特征在于,所述针对每一个所述竖直方向的多级同构区域,再依次进行水平方向的多级同构区域提取,包括:对所述第二二值图像做水平投影,得到第二投影向量集;将第二投影向量集中数值大于零的地方置为-1,等于零的地方保持为0,并得到第二赋值集;根据所述第二赋值集对所述第二投影向量集进行游程编码,确定所述第二二值图像的水平方向的所有黑线以及所有白线...

【专利技术属性】
技术研发人员:王文广马振宇周炳诚蔡华陈运文纪达麒
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1