基于形态滤波增强的最稳定极值区视频文本检测方法技术

技术编号：7917907 阅读：274 留言：0更新日期：2012-10-25 02:54

本发明专利技术属于视频检索技术领域，涉及到图像处理相关知识，特别涉及到视频文字检测方法。其特征是从待测视频中提取出视频字幕用于识别和视频检索。首先，利用梯度幅度图（GAM）来增强输入图像的文本边界；其次，使用两个方向的形态滤波滤除部分背景干扰并增强了文本与背景的对比度；再次，我们使用最稳定极值区（MSER）区域检测器来检测视频文本的显著图，利用Graph?Cuts得到文本的最佳分割；最后利用文本的几何分布特性将文本连成文本行，并用多帧确认和一些启发教育的方法去除非文本区域。本发明专利技术的效果和益处是克服了在本文检测中比较敏感的文本边界模糊、对比度低以及背景复杂等技术难题，并且检测结果可以直接用于文字识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于视频检索领域，涉及到图像处理相关知识，特别涉及到视频文字检测方法。
技术介绍
自上世纪九十年代以来，基于视频字幕信息的视频检索技术倍受研究者关注，出现了很多优秀的技术和方法，研究的热点主要集中在视频图像文本检测与定位上。下面将对从2005年开始陆续发表的具有代表性的文章以及专利描述如下。Lyu, M. R 等人在“A comprehensive method for multilingual video textdetection, localization, and extraction. In T-CSVT, 2005” 文中通过分析文本的 sobel边缘密度来定位文本的位置。Wonjun Kim等人在文章“A New Approach for Overlay Text Detection and Extraction From Complex Video Scene. In TIP, 2009”利用颜色的过度图来定位文本的位置。Palaiahnakote Shivakumara等人在总结前人工作的基础上提出了一种新的变换域分析法，在文章“ALaplacian approach to multi-oriented text detectionin video. In PAMI, 2011”中提出了一个两步处理法,称为Fourier-Laplacian滤波法。该方法第一步使用一个理想的低通滤波器在频率域对图像进行去噪处理，依据的原理是噪声在傅里叶变换域呈现很高的频率，应该予以处理掉。第二步，在傅里叶变换域使用拉普拉斯变换，得到文本区域的显...

【技术保护点】
基于形态滤波增强的最稳定极值区视频文本检测方法，其特征包括如下步骤：（1）图像抽取与色彩空间变换：从视频中每隔五帧取一帧图像，通过线性内插的方法把视频图像大小转换为448×336像素，再将RGB彩色图像转换到HSI颜色空间；（2）文本边界增强：对亮颜色极文本和暗颜色极文本分别使用梯度幅度图来增强视频文本的边界，梯度幅度图计算如下：g(i,j)=(I(i,j)-I(i-1,j))2+(I(i,j)-I(i,j-1))2---(1)梯度幅度值拉伸为0？255，计算如下，拉伸后的值用ValueMapT表示：ValueMapT(i,j)=g(i,j)max(g)×255---(2)对于亮颜色极文本，文本边界增强公式为，边界增强后的图像用L表示：L(i，j)＝I(i，j)？μ×ValueMapT(i，j)？？？？？？？？？？？？？？？？（3）对于暗颜色极文本，文本边界增强公式为，边界增强后的图像用D表示：D(i，j)＝I(i，j)+μ×ValueMapT(i，j)？？？？？？？？？？？？？？？（4）μ为梯度图权重系数。（3）形态滤波增强MSER：利用水平和垂直两方向高底帽变换的组合来...

【技术特征摘要】

【专利技术属性】
技术研发人员：陈丽娇，卢湖川，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人