图像中文本区域自动定位方法和系统技术方案

技术编号:2931395 阅读:276 留言:0更新日期:2012-04-11 18:40
公开了一种用于在数字图像中自动定位文本区域的系统,该系统包括:转换单元(150;160),用于把输入数字图像转换为二值图像;定位单元(170),被应用于二值图像以定位可能文本区域;以及选择单元(180),用于选择由定位单元(170)高亮显示的实际文本区域。定位单元(170)有利地设置有用于向二值图像应用至少一个形态学筛选器的装置,该二值图像是通过将数字图像转换为二值图像而获得的。选择单元(180)执行灰度级强度细分方法,该灰度级强度细分方法被应用于由转换单元(150;160)中包括的处理单元(160)提供的图像。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及图像中文本区域的自动定位方法和系统。
技术介绍
有很多论文,例如Ohya,J.,Shio,A.,Akomatsu,S.的论文(题目“Recognizing characters in scene images”,发表于IEEE Trans.On PAMI,Vol.16,No.2,pp.214-220,February 1994),对关于自动识别数字图像中的字符的工作进行了描述。这些光学字符识别(OCR)技术操作如下首先,通过向灰度级图像应用局部阈值来形成二值图像。接着从二值图像中提取相关的分部(component),以获得可能的字符区块(segment)。然后利用字符识别技术来检查每个可能的字符区块。不幸的是,当把这些光学字符识别方法应用于具有复杂背景的数字图像如视频图像时,它们将引起两个严重问题。实际上,由于数字图像中存在各种噪声,所以将发现每个字符区块会被错误地分成多个相关的分部。而且,这些方法在计算开销方面成本非常大,因为它们对每个候选字符区块都将应用OCR技术。为了限制要经受字符验证的区块数,Zhong,Y.,Kary,K.,Jain,A.K.的论文(题目“Locating text in complex color images”,发表于“Pattern recognition”,Vol.28,No.10,1995,pp.1523-1535),提出了两种自动检测彩色图像中的文本区域的特殊方法。第一种方法使用相关分部的分块。因为它预先假定字符是与图像中的其它对象分离的相关分部,所以对于视频图像很难使用。第二种方法基于空间变化的原理。事实上,文本区域的空间变化通常大于图像背景的空间变化。已经进行的尝试表明这有助于使文本检测变得容易,但是本质上还不够。文献WO 01/69529 A2描述了一种定位数字图像中的文本的方法。在该方法中,首先对数字图像进行比例缩放,以产生具有不同分辨率的图像,然后使用神经网络来确定具有不同分辨率的图像中的像素是否为文本区域的部分。然后由环绕文本的初始框(initial box)表示获得的结果。然后利用具有自适应阈值的水平或垂直投影轮廓(projectionprofile)来检查这些环绕文本的初始框。文献WO 00/63833描述了一种把图像分割成文本区域和无文本区域的方法。该方法使用简单的基于块的包括15个强度级的灰度级直方图空间量化。因此,本领域已知的用于提取图像中文本的各种技术缺少可靠性或精确性,或者受限于具有特殊特征的图像。
技术实现思路
本专利技术的一个目的是消除现有技术系统和方法的缺点,并使能够可靠检测图像中的文本区域,从而使得由本专利技术的方法和系统定位的文本区域可以接着经受传统的光学字符识别处理以获得完整的文本。本专利技术特别致力于使得即使在图像背景复杂的情况下,也可以在来自不同类型节目(广告、电视新闻、短篇或长篇电影等)的视频图像中定位文本区域,而不管文本的呈现,字符的不同类型和字体。因此,本专利技术致力于,基于图像序列的语义内容,考虑到的指示不仅采用图像中出现的自然文本(例如街名或店牌)的形式,而且采用在拍摄之后的图像后处理中引入的人工文本(例如副标题)的形式,来进行搜索。上述目的是通过一种在数字图像中自动定位文本区域的方法来实现的,该方法包括第一步骤,用于把数字图像转换为二值图像;第二步骤,用于定位可能文本区域;以及第三步骤,用于选择实际文本区域。用于定位可能文本区域的第二步骤有利地包括对二值图像应用形态学操作以便在可能包含文本的原始图像中生成封闭块。如果待处理图像还不是数字形式的,在对该待处理图像的模数转换中就可能涉及一个预备步骤。根据本专利技术,第一步骤包括把数字图像转换为灰度级图像。用于把数字图像转换为二值图像的第一步骤有利地包括用于把数字图像转换为灰度级图像的步骤、以及多分辨率化步骤,多分辨率化步骤使用插值法来把输入图像I转换为其大小为输入图像I的M倍的更低分辨率的输出图像J,其中0<M<1。根据本专利技术的另一方面,用于把数字图像转换为二值图像的第一步骤包括二值化步骤,该二值化步骤使用阈值处理法来把输入灰度级图像I转换为二值图像BW,输入图像I中的值低于预定阈值的每个像素在二值图像BW中被转换为对应于黑色的值“0”,而输入图像I的所有其它像素在二值图像BW中被转换为对应于白色的值“1”。如果同时使用了多分辨率处理和使用阈值法的二值化,则根据所设想的应用,可以交换这两种操作的顺序。用于定位可能文本区域的第二步骤包括,按照可以适合本专利技术的特定应用背景的顺序,来应用多个不同的形态学掩模(morphologicalmask)。更具体来说,用于定位可能文本区域的第二步骤包括应用一形态学掩模,以对二值图像应用一形态学操作,由此,如果在二值图像中一行或一列的端部处的像素的值都为“1”,则将值“1”赋给该行或该列的所有像素。根据本专利技术的另一方面,用于定位可能文本区域的第二步骤包括应用一形态学掩模,以对二值图像应用一形态学操作,由此,如果在二值图像中限定在两行或两列上的矩形或正方形的对角线端部处的两个像素的值都为“1”,则将值“1”赋给该矩形或该正方形的所有像素。在多分辨率化步骤之后,用于定位可能文本区域的第二步骤有利地包括初始步骤,由此应用一形态学掩模,以对二值图像应用一形态学操作,从而将值“0”赋给在两端处具有值为“1”的像素并且长度大于一阈值的每行或每列的所有像素,所述阈值对应于从多分辨率化步骤获得的图像的尺寸的一个小于100%的百分比。例如,如果行方向是优先方向,则这个阈值可以是由多分辨率化步骤获得的图像的宽度的75%。根据本专利技术的另一方面,用于定位可能文本区域的第二步骤可以首先应用一形态学掩模,以对二值图像应用一形态学操作,由此将值“0”赋给二值图像中每个由值都为“0”的像素包围的像素。在一特定实施例中,在用于定位可能文本区域的第二步骤中,仅对二值图像的行应用所述形态学操作。在这种情况下,在第一实现中,将由位图G表示的灰度级图像转置成由转置位图tG表示的转置图像,并对该转置位图tG应用用于定位可能文本区域的第二步骤的仅涉及二值图像的行的形态学操作。在第二实现中,通过使用转置形态学算子(operator),仅针对二值图像的列对由位图G表示的灰度级图像G应用用于定位可能文本区域的第二步骤的形态学操作。根据本专利技术的有利特征,用于选择实际文本区域的第三步骤包括一预备步骤,该预备步骤用于分离属于图像背景的像素,在此期间,对灰度级图像的强度进行了细分。在这种情况下,在第一实现中,在用于分离属于图像背景的像素的预备步骤中,根据函数v=f(a)将范围中的每个灰度级映射到范围中的灰度级v,在范围中,O对应于黑色级而L对应于白色级,其中 其中,u是表示O到L间的灰度级值的常数。在另一实现中,在用于分离属于图像背景的像素的预备步骤中,根据函数v=f(a)将范围中的每个灰度级a映射到范围中的灰度级v,在范围中,O对应于黑色级而L对应于白色级,其中,u是表示O到L间的灰度级值的常数,其中 常数u的值,可以根据在用于把数字图像转换为灰度级图像的步骤之后从输入图像I获得的包括N个灰度级的灰度级图像G的直方图H,按照以下步骤来动态确定1/把L初始化为表示白颜色的值N,2/为了确定本文档来自技高网
...

【技术保护点】
一种在数字图像中自动定位文本区域的方法,包括:第一步骤(10,20),用于把数字图像转换为二值图像;第二步骤(30),用于定位可能文本区域;以及第三步骤(40),用于选择实际文本区域,其特征在于,用于把数字图像转换为二值图像的第一步 骤(10,20)包括用于把数字图像转换为灰度级图像的步骤(10)、以及多分辨率化步骤(21),多分辨率化步骤(21)使用插值法来把输入图像I转换为其大小为输入图像I的M倍的更低分辨率的输出图像J,其中0<M<1,并且用于定位可能文本 区域的第二步骤(30)包括:对二值图像应用形态学操作以便在可能包含文本的原始图像中生成封闭块。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:瓦利德迈赫迪穆赫辛阿德比利安陈立明
申请(专利权)人:里昂中央理工学院
类型:发明
国别省市:FR[法国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利