一种图像中的文字定位方法和装置制造方法及图纸

技术编号:3901336 阅读:224 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种图像中的文字定位的方法和装置,该方法包括:将图像划分成图像块,并对所述图像块进行离散余弦DCT变换,得到所述图像块对应的DCT变换系数;根据所述图像块对应的DCT变换系数计算所述图像块的纹理能量差异程度值;确定图像中图像块纹理能量差异程度值的最大的值,根据所述图像块纹理能量差异程度值的最大值确定第一阈值;将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图像块;将重要图像块的组成的区域确定为文字区域。根据本发明专利技术实施例,能够提高检测文字区域的准确度。

【技术实现步骤摘要】

本专利技术涉及数字图像处理领域,尤其涉及一种在图像中文字定位方法和装置。
技术介绍
字幕作为视频图像中常见的文字信息被大量的应用新闻、卡拉0K、电影等视频场 合,并通常用来描述当前视频图像的重要内容,为人们理解视频提供了重要而凝练的注释, 所以相对于视频图像,其中的字幕文字更适宜用来做索引,所以从视频图像中提取字幕文 字可以有效地帮助进行基于内容的视频图像检索。从图像中提取文字重要是进行文字定位的操作。现有的文字定位方法包括连 通区域法、纹理分类法。其中连通区域法中假定文字颜色均勻,在颜色量化后,符合一定大 小、形状、空间对齐约束的单一颜色的连通区域作为文字被提取出来。该连通区域法在背 景均勻的情况下是有效的,但当背景比较复杂时,其有效性会下降。纹理分类法将文字区 域看作是一种特殊类型的纹理,基于纹理的方法比连通区域法性能更鲁棒。授予Zhang, Hongjiang 和 Zhong,Yu 的专利号为 US6, 185,329,名称为 “Automatic caption text detection andprocessing for digital images,,的美国专利中以及 Zhang,Hongjiang、 Zhong, Yu 和 Anil K. Jain 所著的"Automatic Caption Localization in Compressed Video," IEEE Transactions on Pattern Analysis and Machine Intelligence,vol. 22, No. 4,pp. 385-392,Apr. 2000”中公开了一种基于图像的纹理能量分类的方法来图像中的文 字定位算法,该算法第一次提出了首先在DCT (Discrete CosineTransformation,离散余弦 变换)域中得到图像块的DCT变换系数,利用部分水平第一行的变换系数幅值之和来表示 图像块的水平纹理能量,以部分垂直第一列的变换系数幅值之和来表示图像块的垂直纹理 能量,然后分别用水平纹理能量阈值和垂直纹理能量阈值对该图像块进行判断,对于水平 纹理能量和垂直纹理能量均高于相应的阈值的图像块初步判定为文字区域,之后在空间域 上检测图像的边缘,对边缘点数量进行阈值判决,进一步排除非文字区,完成精确定位文字 区。专利技术人在实现本专利技术的过程中,发现现有技术至少有以下缺陷由于图像中的文字区域背景的复杂程度未知,所以基于DCT变换系数计算的不同 图像中文字区域的纹理能量差异也很巨大,而现有技术中的方案中不论是水平纹理能量阈 值还是垂直纹理能量阈值都是预先定义好的,这样在对多个不同的图像中的文字区域判别 时,现有技术中用来判决的纹理能量阈值不具有普遍的适用性,造成判决结果的不准确。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种图像中的文字定位的方法和装置, 能够对不同图像具有普遍的适用性,判决结果准确。为实现上述目的,本专利技术实施例提供了如下技术方案一种图像中的文字定位的方法,包括A.将图像划分成图像块,并对所述图像块进行离散余弦DCT变换,得到所述图像 块对应的DCT变换系数;B.根据所述图像块对应的DCT变换系数计算表示所述图像块内各个子块之间的纹理能量值之间差异的纹理能量差异程度值;C.确定图像中图像块纹理能量差异程度值的最大值,根据所述图像块纹理能量差 异程度值的最大值确定第一阈值;D.将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图像块;E.将重要图像块的组成的区域确定为文字区域。一种图像中的文字定位装置,包括变换单元,用于将图像划分图像块,并对图像块进行离散余弦DCT变换,得到所述 图像块对应的DCT变换系数;计算单元,根据图像块对应的DCT变换系数计算图像块的纹理能量差异程度值;阈值确定单元,用于确定图像中图像块纹理能量差异程度值的最大的值,根据图 像块纹理能量差异程度值的最大值确定第一阈值;标记单元,用于将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要 图像块;文字区域确定单元,用于将重要图像块的组成的区域确定为文字区域。由上述公开的技术方案可知,在本专利技术实施例中,在确定文字区域之前首先确定 重要图像块,而在判定重要图像块的时候,根据当前图像计算出的纹理能量差异程度值得 出判定用的第一阈值,这样对于每个图像在进行文字识别的时候,都可以根据该图像具体 的情况确定与其相应的第一阈值,从而使标定重要图像块的过程更准确,相对于现有技术 中采用预先设定的阈值进行判断,本专利技术实施例提供的方法对于不同的图像更具有普适 性,进一步地,本专利技术实施例中计算图像块的纹理能量差异程度值,专利技术人在实现本专利技术的 过程中,发现文字区域的纹理能量差异程度值比非文字区域的大很多,因此本专利技术实施例 相对于现有技术中通过纹理能量差异程度值这个量来定位文字区域更能体现出文字区域 的特性,使定位结果更准确。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 这些附图获得其他的附图。图1是本专利技术实施例提供的一种图像中的文字定位方法的流程图;图2是本专利技术实施例一提供的一种图像中的文字定位方法的流程图;图3是本专利技术实施例一中计算各个子块的亮度空间的纹理能量的方法流程图;图4是本专利技术实施例一中对重要图像块进行扩充的方法的流程图;图5是本专利技术实施例二提供的图像中的文字定位方法的流程图;图6是本专利技术实施例二中对重要图像块进行进一步扩充的一种方法的流程图;图7是本专利技术实施例二中对重要图像块进行进一步扩充的另一种方法的流程图8是本专利技术实施例三提供的一种图像中的文字定位装置的示意图;图9是本专利技术实施例三提供的另一种图像中的文字定位装置的示意图;图10是本专利技术实施例三提供的再一种图像中的文字定位装置的示意图。具体实施例方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例 中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种图像中的文字定位方法,如图1所示,该方法包括步骤SlOl 将图像划分分成图像块,并对所述图像块进行离散余弦DCT变换,得到 所述图像块对应的DCT变换系数;步骤S102 根据图像块对应的DCT变换系数计算表示所述图像块内各个子块之间 的纹理能量值之间差异的纹理能量差异程度值;步骤S103 确定图像中图像块纹理能量差异程度值的最大值,并根据该最大值确 定第一阈值;步骤S104:将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图 像块;步骤S105 将重要图像块的组成的区域确定为文字区域。由此可见,本专利技术实施例提供的方法在确定文字区域之前首先确定重要图像块, 而在判定重要图像块的时候,根据当前图像计算出的纹理能量差异程度值得出判定用的第 一阈值,这样对于每个图本文档来自技高网
...

【技术保护点】
一种图像中的文字定位方法,其特征在于,包括:A.将图像划分成图像块,并对所述图像块进行离散余弦DCT变换,得到所述图像块对应的DCT变换系数;B.根据所述图像块对应的DCT变换系数计算表示所述图像块内各个子块之间的纹理能量值之间差异的纹理能量差异程度值;C.确定图像中图像块纹理能量差异程度值的最大值,根据所述图像块纹理能量差异程度值的最大值确定第一阈值;D.将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图像块;E.将重要图像块的组成的区域确定为文字区域。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵嵩王静刘源李凯
申请(专利权)人:华为终端有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1