一种文档图像中复杂公式区域的检测方法及系统技术方案

技术编号:7543375 阅读:267 留言:0更新日期:2012-07-13 06:54
本发明专利技术公开了一种文档图像中复杂公式区域的检测方法及系统,涉及计算机图像处理技术领域。本发明专利技术解决上述技术问题的关键在于:1、连通域邻域信息编码计算方法;2、利用连通域邻域信息编码检测图像中复杂公式区域的方法。利用本发明专利技术提出的公式区域检测方法及系统可以较为准确地检测文档图像中复杂的公式区域,速度快效率高。将其应用于数字化加工流程中,可以提高数字化加工流程的效率,大大减少人力成本。

【技术实现步骤摘要】

本专利技术涉及计算机图像处理
,尤其涉及ー种文档图像中复杂公式区域的检测方法及系统
技术介绍
在文档图像数字化的过程中,需要对公式进行处理。现有的操作方式是由人工对公式区域进行标记,然后以图片的形式贴到对应的数字化版面中。由于科技文献和技术文档中往往存在着大量的数学公式,而数学公式又是ー种非常复杂的文档结构,在目前的数字化加工流程中主要采取手工方式对公式区域进行标记。这不仅带来人力成本的剧增,而且会导致整个加工流程受到公式的制约导致效率低下,会影响到整个数字化的加工流程。目前国内有部分专利涉及几种公式区域检测方法,具体如下(1)中国专利申请 《中文印刷体公式识别方法》(申请号200710144588. 8,公开日期2008年3月沈日)公开的方法是利用OCR对各个字符进行识别,将拒识区域标记为公式。该方法的缺点是检测的精度和效率主要依赖于汉字识别模块的识别率和识别速度。(2)中国专利申请《图像中数学公式的自动识别方法》(申请号200810053443. 1,公开日期2008年12月M日)公开的方法是将公式分为独立行公式和内嵌公式两种,并且利用不同的方法进行分别提取。其中独立公式行通过parzen windown的方法实现,内嵌公式通过ニ维特征和识别特征进行提取, 该方法提取了多个特征,算法复杂度较高。
技术实现思路
针对现有技术中所存在的不足,本专利技术提出了ー种文档图像中复杂公式区域的检测方法及系统,大大提高文档图像数字化加工流程的效率。本专利技术解决上述技术问题所采用的技术方案如下所描述ー种文档图像中复杂公式区域的检测方法,包括以下步骤(1)对文档图像进行ニ值化,得到ニ值图像;(2)对ニ值图像进行连通区域标记;(3)对文档图像进行成行处理;(4)对行内的连通域逐个进行处理,记录其邻域信息编码并分析是否为异常区域;(5)对行内所有连通域的编码进行直方图统计,并将直方图进行归ー化,然后与不包含公式的文本图像的归ー化编码直方图进行对比,计算两个直方图的距离,如果距离超过阈值T,该行就为可疑的复杂公式区域;(6)对可疑行进行进一歩判断,区分独立行公式和行内公式。进一歩,步骤2中,在对ニ值图像进行连通区域标记后,如果初始连通域中存在包含、相交关系,则合并初始连通域中的包含、相交关系。进一歩,步骤4中,判断一个连通域是否为异常区域的方法如下1)设当前处理的连通域为C,对当前处理的连通域的周围邻域进行划分并标号, 将其周围邻域划分为8个区域,分別标记为0-7,每个区域对应ー个1位ニ进制码,将每个码均初始化为0 ;2)寻找与其直接相邻的连通域,设置8个区域的编码,如果区域中存在与其直接相邻的其他连通域,则将该区域的编码设置为1 ;3)构造字符邻域模板表达式,获得每个连通域邻域信息的编码,将区域0-7的编码按照从右至左的順序排列組成一个ニ进制序列,然后将该ニ进制序列转换为十进制,则得到该连通域的邻域信息编码;4)标记异常连通域。更进一歩,步骤4)中,编码0、1、16、17代表正常字符之间的相邻关系,编码2、8、9、 18代表普通字符和标点相邻的情況,将编码不是以上数值的连通域标记为异常连通域。进一歩,步骤5中,根据语种与不包含公式的相同语种的文本图像的归ー化编码直方图进行对比,计算两个直方图的距离采用欧式距离或余弦距离。进一歩,所述阈值T的取值范围为W. 1,0.8],优选为0.3。进一歩,步骤6中,如果行内异常区域的比例大于吋,就为独立行公式,否则为行内公式,所述的N%取值范围为,优选为0. 85。进一歩,步骤6中,根据步骤5中计算出的距离进行区分,对于行内公式的标定采用计算机辅助标定和人工手动标定相结合的方式进行。本专利技术还提供了ー种文档图像中复杂公式区域的检测系统,包括以下装置图像ニ值化装置用于对文档图像进行ニ值化,得到ニ值图像;连通区域标记装置用于对ニ值图像进行连通区域标记;成行处理装置用于对文档图像进行成行处理;连通域处理装置用于对行内的连通域逐个进行处理,记录其邻域信息编码并分析是否为异常区域;公式区域判断装置用于对行内所有连通域的编码进行直方图统计,并将直方图进行归一化,然后与不包含公式的归ー化文本图像的编码直方图进行对比,计算两个直方图的距离,如果距离超过阈值T,该行就为可疑的复杂公式区域,所述阈值T的取值范围为 ;公式判断装置用于对可疑行进行进一歩判断,区分独立行公式和行内公式。本专利技术的效果在于连通域邻域信息编码方法可以有效的区分公式和普通文本, 并且计算简単,效果显著。与专利《中文印刷体公式识别方法》(申请号200710144588. 8) 相比,该方法不需要依赖OCR引擎,并且速度快,效率高;与专利《图像中数学公式的自动识别方法》(申请号200810053443. 1)相比,该方法只需要ー个特征,算法简单高效,并且该算法能够应用于中文文档和英文文档,其适用范围较广。附图说明图1为本专利技术单个连通域周围邻域划分示意图;图2为邻域信息编码计算示意图;图3为实施例中不包含公式的文本图像;图4为图3所示图像的编码直方图;图5为图3所示图像异常区域标识图;图6为实施例中的公式图像;图7为图6所示编码图像的直方图;图8为图6所示图像异常区域标识图;图9为本专利技术实施例中所述方法的整体流程图;图10为本专利技术所述方法连通域邻域信息编码计算流程图。具体实施例方式下面结合附图和具体实施例来对本专利技术进行描述。本专利技术通过分析文本区域和公式区域的结构特征,设计了ー种区分两种区域的特征,利用该特征能够检测文档图像中复杂的公式区域,并自动对公式区域进行标记。本专利技术的核心步骤就是公式区域的检测,本专利技术解决上述技术问题的关键在干1、连通域邻域信息编码计算方法。2、利用连通域邻域信息编码检测图像中复杂公式区域的方法。本实施例中,ー种文档图像中复杂公式区域的检测系统,包括以下装置图像ニ值化装置用于对文档图像进行ニ值化,得到ニ值图像;连通区域标记装置用于对ニ值图像进行连通区域标记;合并装置用于合并初始连通域中的包含、相交关系;成行处理装置用于对文档图像进行成行处理;连通域处理装置用于对行内的连通域逐个进行处理,记录其邻域信息编码并分析是否为异常区域;公式区域判断装置用于对行内所有连通域的编码进行直方图统计,并将直方图进行归一化,然后根据语种与不包含公式的归ー化文本图像的编码直方图进行对比,计算两个直方图的距离,如果距离超过阈值T,该行就为可疑的复杂公式区域,所述阈值T的取值范围为;公式判断装置用于对可疑行进行进一歩判断,区分独立行公式和行内公式。如图9所示,本专利技术所述的ー种文档图像中复杂公式区域的检测方法,具体步骤如下(1)对文档图像进行ニ值化,得到ニ值图像;(2)对ニ值图像进行连通区域标记;(3)如果初始连通域中存在包含、相交关系,则合并初始连通域中的包含、相交关系,如果不存在包含、相交关系,则直接转入步骤;(4)对文档图像进行成行处理;(5)对行内的连通域逐个进行处理,记录其邻域信息编码并分析是否为异常区域;如图10所示,判断一个连通域是否为异常区域的方法如下设当前处理的连通域为C,1)对当前处理的连通域的周围邻域进行划分并标号,如图1所示,方框表示当前处理的连通域C,将其周围邻域划分为8个区域(可以不为8个区域,划分为其他数量本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:胡希驰史培培
申请(专利权)人:方正国际软件有限公司方正国际软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术