基于形态滤波增强的最稳定极值区视频文本检测方法技术

技术编号:7917907 阅读:274 留言:0更新日期:2012-10-25 02:54
本发明专利技术属于视频检索技术领域,涉及到图像处理相关知识,特别涉及到视频文字检测方法。其特征是从待测视频中提取出视频字幕用于识别和视频检索。首先,利用梯度幅度图(GAM)来增强输入图像的文本边界;其次,使用两个方向的形态滤波滤除部分背景干扰并增强了文本与背景的对比度;再次,我们使用最稳定极值区(MSER)区域检测器来检测视频文本的显著图,利用Graph?Cuts得到文本的最佳分割;最后利用文本的几何分布特性将文本连成文本行,并用多帧确认和一些启发教育的方法去除非文本区域。本发明专利技术的效果和益处是克服了在本文检测中比较敏感的文本边界模糊、对比度低以及背景复杂等技术难题,并且检测结果可以直接用于文字识别。

【技术实现步骤摘要】

本专利技术属于视频检索领域,涉及到图像处理相关知识,特别涉及到视频文字检测方法。
技术介绍
自上世纪九十年代以来,基于视频字幕信息的视频检索技术倍受研究者关注,出现了很多优秀的技术和方法,研究的热点主要集中在视频图像文本检测与定位上。下面将对从2005年开始陆续发表的具有代表性的文章以及专利描述如下。Lyu, M. R 等人在“A comprehensive method for multilingual video textdetection, localization, and extraction. In T-CSVT, 2005” 文中通过分析文本的 sobel边缘密度来定位文本的位置。Wonjun Kim等人在文章“A New Approach for Overlay Text Detection and Extraction From Complex Video Scene. In TIP, 2009”利用颜色的过度图来定位文本的位置。Palaiahnakote Shivakumara等人在总结前人工作的基础上提出了一种新的变换域分析法,在文章“ALaplacian approach to multi-oriented text detectionin video. In PAMI, 2011”中提出了一个两步处理法,称为Fourier-Laplacian滤波法。该方法第一步使用一个理想的低通滤波器在频率域对图像进行去噪处理,依据的原理是噪声在傅里叶变换域呈现很高的频率,应该予以处理掉。第二步,在傅里叶变换域使用拉普拉斯变换,得到文本区域的显著图,在文本区域会有一个很大的正向峰值,在背景区域会有一个负向峰值,通过前景与背景的差分值来突出文本区域,然后利用文本的差分值的欧氏距离将计算的差分值聚成两类,一类是文本区,另一类是背景区,最后通过提取区域骨架来区分文本区域与背景区域,去除错误的候选文本区域。在专利ZL2008102365033中公开了《一种快速准确的视频字幕提取方法》,利用小波变换生成视频关键帧亮度图像的纹理图,利用纹理图投影差分的方法来定位关键帧图像中字幕条的位置;利用字幕点匹配方法来判断两帧是否存在同一条字幕,确定字幕条在视频中的起始帧和终止帧;利用OTSU分割同一条字幕的多帧亮度图像的字幕条区域的平均和图像,得到文本区域,去除非文字噪声。在专利ZL2007101185950中公开了《一种视频字幕提取的方法》,首先使用改进后的Sobel边缘检测算子计算每个像素点的边缘强度值;然后,根据背景的复杂程度自动调整分割尺度,多次应用水平垂直投影的方法分割出字幕区域,确认字幕颜色是深色还是浅色,反转浅色字幕的灰度图为深色字幕图片;最后根据对灰度图片进行基于局部窗口分析二值化,并进行OCR软件识别。上述方法多数是通过文本的边缘或纹理的特征来定位文本的特征,然而,当背景具有与字幕区相似的纹理结构或视频背景比较复杂时,基于纹理的方法提取字幕将变得比较困难,而且这些方法定位后的文本不能直接用于识别,需要经过进一步处理后才能用于识别
技术实现思路
本专利技术要解决的技术问题是在视频有损压缩促使文本边界出现模糊的情况、视频背景与视频文本对比度比较低的情况、视频中含有与字幕的纹理及颜色等特征非常相似的复杂背景,例如窗格、栅栏、树叶等情况下提取视频中的两种颜色极的文本,并且提取的视频文本可以直接用于识别。本专利技术的技术方案是依据视频文字与视频背景间的亮度差异,利用基于连通域的方法来检测文本,采用最稳定极值区(MSER)作为区域检测算子来检测文本连通区域的显著图。由于MSER对复杂背景、文本边缘模糊、视频文本与背景对比度低都比较敏感,本专利技术使用梯度幅度图来增强视频文本的边缘,采用形态滤波的方法不仅滤除了复杂背景干扰,而且增强视频文本与背景的对比度。得到文本的连通域的显著图后,利用颜色和亮度特征使用Graph Cuts算法得到文本的最佳分割。在本专利技术中我们还提出了一种基于文本几何特征去除背景干扰的方案,并通过多帧确认的方法来确认输出候选文本区,去除误检。具体实现步骤包括 (I)图像变换与处理从视频中每隔五帧取一帧图像,通过线性内插的方法把视频图像大小转换为448X336像素;HSI颜色空间是近似的均匀颜色空间,相对于RGB空间,它更符合人眼的直觉感受。另外,它有个重要的特征亮度分量与色度分量(H,S)是分开的,亮度分量I与图像的色彩信息无关,所以我们将RGB彩色图像转换到HSI颜色空间再做处理。(2)文本边界增强为了克服文字边界模糊给视频文字检索带来的困难,本专利技术使用局部亮度的梯度幅值图(简称为GAM)来增强视频文本的边界,依据的基本思想是视频文本的边界和背景之间的亮度会有很大的梯度变化,视频文本的形状和轮廓可以由梯度的幅度值来表征,并且由于HSI颜色空间的图像的色度和亮度之间具有相对独立的特征,因此,在本专利技术中我们仅使用图像的亮度值I来求梯度值,为了方便计算,我们将所求梯度值拉伸到0-255之间,梯度幅度计算公式如下权利要求1.,其特征包括如下步骤 (1)图像抽取与色彩空间变换从视频中每隔五帧取一帧图像,通过线性内插的方法把视频图像大小转换为448X336像素,再将RGB彩色图像转换到HSI颜色空间; (2)文本边界增强对亮颜色极文本和暗颜色极文本分别使用梯度幅度图来增强视频文本的边界,梯度幅度图计算如下全文摘要本专利技术属于视频检索
,涉及到图像处理相关知识,特别涉及到视频文字检测方法。其特征是从待测视频中提取出视频字幕用于识别和视频检索。首先,利用梯度幅度图(GAM)来增强输入图像的文本边界;其次,使用两个方向的形态滤波滤除部分背景干扰并增强了文本与背景的对比度;再次,我们使用最稳定极值区(MSER)区域检测器来检测视频文本的显著图,利用Graph Cuts得到文本的最佳分割;最后利用文本的几何分布特性将文本连成文本行,并用多帧确认和一些启发教育的方法去除非文本区域。本专利技术的效果和益处是克服了在本文检测中比较敏感的文本边界模糊、对比度低以及背景复杂等技术难题,并且检测结果可以直接用于文字识别。文档编号G06K9/40GK102750540SQ20121019269公开日2012年10月24日 申请日期2012年6月12日 优先权日2012年6月12日专利技术者卢湖川, 陈丽娇 申请人:大连理工大学本文档来自技高网
...

【技术保护点】
基于形态滤波增强的最稳定极值区视频文本检测方法,其特征包括如下步骤:(1)图像抽取与色彩空间变换:从视频中每隔五帧取一帧图像,通过线性内插的方法把视频图像大小转换为448×336像素,再将RGB彩色图像转换到HSI颜色空间;(2)文本边界增强:对亮颜色极文本和暗颜色极文本分别使用梯度幅度图来增强视频文本的边界,梯度幅度图计算如下:g(i,j)=(I(i,j)-I(i-1,j))2+(I(i,j)-I(i,j-1))2---(1)梯度幅度值拉伸为0?255,计算如下,拉伸后的值用ValueMapT表示:ValueMapT(i,j)=g(i,j)max(g)×255---(2)对于亮颜色极文本,文本边界增强公式为,边界增强后的图像用L表示:L(i,j)=I(i,j)?μ×ValueMapT(i,j)????????????????(3)对于暗颜色极文本,文本边界增强公式为,边界增强后的图像用D表示:D(i,j)=I(i,j)+μ×ValueMapT(i,j)???????????????(4)μ为梯度图权重系数。(3)形态滤波增强MSER:利用水平和垂直两方向高底帽变换的组合来分别增强亮颜色极和暗颜色极文字,抑制复杂的背景干扰,得到文本的显著性图,两个方向高/底帽滤波分别用Itop0,Itop90,Ibot0,Ibot90表示,综合两个方向高帽变换,用Itop表示:Itop(i,j)=max(Itop0(i,j),Itop90(i,j))????????????????(5)综合两个方向的底帽变换,用Ibot表示:Ibot(i,j)=max(Ibot0(i,j),Ibot90(i,j))?????????????????(6)亮颜色极文字增强图像由下面公式计算得到,用bEnhanceImg表示:bEnhanceImg(i,j)=α×Itop(i,j)?β×Ibot(i,j)???????????(7)暗颜色极文字增强图像由下面公式计算得到,用dEnhanceImg表示:dEnhanceImg(i,j)=α×Ibot(i,j)?β×Itop(i,j)?????????????(8)α,β为权重系数。使用MSER算法作为区域检测算子,检测亮颜色极文本显著图的连通区域;(4)使用Graph?Cuts算法进行文本分割:Graph?Cuts算法的能量函数如公式(9)所示,Edata数据项,Esmooth为光滑项,λ为光滑项权重系数,f代表像素到标签集的映射:E(f)=Edata(f)+λEsmooth(f)??????????????(9)利用SMER检测到的区域亮度均值图来定义终端项,对于暗颜色极的文本检测,首先对亮度图进行取反,即I(i,j)=255?I(i,j)?????????????????(10)得到区域亮度均值图像MeanImg后,归一化为:MeanImg(i,j)=MeanImg(i,j)max(MeanImg)---(11)终端项为:Edata(obj)=MeanImg?????????????????(10)Edata(bkg)=1?MeanImg???????????????(11)Graph?Cuts算法的能量函数如公式(9)所示,Edata数据项,为光Edata(Obj)表示前景终端,Ebkj(bkg)表示背景终端。使用H、S、I三通道的欧氏距离作为光滑项,对于亮度通道有:当分割亮颜色极文本时令I=L,分割暗颜色极文本时令I=D;Graph?Cuts能量函数的光滑项为:Esmooth(p,q)=exp(-ΣF∈{H,S,I}(Fp-Fq)22σ2)·1dist(p,q)---(12)其中dist(p,q)表示像素p,q间的距离,Fp,Fq分别为对应颜色通道值。通过增加Graph?Cuts算法的平滑项权重系数,增强像素间的关系,将使用的MSER 检测算子得到区域均值不显著的像素分为背景,并把原显著性图中漏检的显著目标的一部分重新分为前景;(5)文本定位:使用游程平滑算法(RLSA)将文本视频字幕中的上下结构的字符平滑成为一个连通区域,通过文本排列的几何特征:视频文本的中心点排列在同一条水平直线上,去除干扰背景区域;使用水平和垂直投影定位文本区域,通过限制最小字体和文本框的宽高比去除误检文本区域,并利用视频字幕的多帧信息确定候选文本区域,去除误检。...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈丽娇卢湖川
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1