一种图像中的文字定位方法和装置制造方法及图纸

技术编号：3901336 阅读：224 留言：0更新日期：2012-04-11 18:40

本发明专利技术实施例公开了一种图像中的文字定位的方法和装置，该方法包括：将图像划分成图像块，并对所述图像块进行离散余弦ＤＣＴ变换，得到所述图像块对应的ＤＣＴ变换系数；根据所述图像块对应的ＤＣＴ变换系数计算所述图像块的纹理能量差异程度值；确定图像中图像块纹理能量差异程度值的最大的值，根据所述图像块纹理能量差异程度值的最大值确定第一阈值；将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图像块；将重要图像块的组成的区域确定为文字区域。根据本发明专利技术实施例，能够提高检测文字区域的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字图像处理领域，尤其涉及一种在图像中文字定位方法和装置。
技术介绍
字幕作为视频图像中常见的文字信息被大量的应用新闻、卡拉0K、电影等视频场合，并通常用来描述当前视频图像的重要内容，为人们理解视频提供了重要而凝练的注释，所以相对于视频图像，其中的字幕文字更适宜用来做索引，所以从视频图像中提取字幕文字可以有效地帮助进行基于内容的视频图像检索。从图像中提取文字重要是进行文字定位的操作。现有的文字定位方法包括连通区域法、纹理分类法。其中连通区域法中假定文字颜色均勻，在颜色量化后，符合一定大小、形状、空间对齐约束的单一颜色的连通区域作为文字被提取出来。该连通区域法在背景均勻的情况下是有效的，但当背景比较复杂时，其有效性会下降。纹理分类法将文字区域看作是一种特殊类型的纹理，基于纹理的方法比连通区域法性能更鲁棒。授予Zhang， Hongjiang 和 Zhong，Yu 的专利号为 US6, 185，329，名称为 “Automatic caption text detection andprocessing for digital images，，的美国专利中以及 Zhang，Hongjiang、 Zhong, Yu 和 Anil K. Jain 所著的"Automatic Caption Localization in Compressed Video," IEEE Transactions on Pattern Analysis and Machine Intelligence,vol. 22, No. 4,pp. 385-39...

【技术保护点】
一种图像中的文字定位方法，其特征在于，包括：Ａ．将图像划分成图像块，并对所述图像块进行离散余弦ＤＣＴ变换，得到所述图像块对应的ＤＣＴ变换系数；Ｂ．根据所述图像块对应的ＤＣＴ变换系数计算表示所述图像块内各个子块之间的纹理能量值之间差异的纹理能量差异程度值；Ｃ．确定图像中图像块纹理能量差异程度值的最大值，根据所述图像块纹理能量差异程度值的最大值确定第一阈值；Ｄ．将纹理能量差异程度值大于或等于第一阈值的图像块标记为重要图像块；Ｅ．将重要图像块的组成的区域确定为文字区域。

【技术特征摘要】

【专利技术属性】
技术研发人员：赵嵩，王静，刘源，李凯，
申请(专利权)人：华为终端有限公司，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人