一种利用边缘特征的视频文本增强方法技术

技术编号：2944807 阅读：151 留言：0更新日期：2012-04-11 18:40

一种基于边缘采样的视频文本增强方法：（１）检测视频帧中出现的文本图像ｆ；（２）对文本图像ｆ进行颜色降维操作；（３）利用彩色空间的梯度算子计算文本图像ｆ的梯度图；（４）将梯度图的相对高频部分作为边缘，将边缘像素对应的图像ｆ的ＲＧＢ值作为采样点，得到采样点集合Ｐ；（５）利用ｋ－均值聚类算法将集合Ｐ的元素聚集为５个子类Ｑ↓［ｊ］；（６）根据Ｑ↓［ｊ］计算子类采样点的均值和方差，作为平均颜色估计ｕ↓［ｊ］和分割半径Ｔ↓［ｊ］；（７）利用马氏距离度量将文本图像ｆ分割为５个二值图像ｇ↓［ｉ］；（８）对分割操作得到的二值图像ｇ↓［ｉ］进行连通域分析，从中挑选出包含文本的二值图像，作为文本图像ｆ的文本增强结果。本发明专利技术能够较好的估计出文本和背景的颜色分布范围，同时即使在文本颜色不一致，或者背景颜色具有相似色调时，也能很好的将文本和背景分离开来，达到文本增强的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频中的文本识别，特别是，属于多媒体检索技术和数字图像处理领域。技术背景视频中的文本提供了和视频内容高度相关的信息，比如场景地点、事件时间，以及体育比赛中的比分、运动员姓名等信息，但是相对于文档图像中的文本，视频中的文本识别面临以下难点(1)由于电视制式、视频传输和存储的原因，视频图像分辨率较低；(2)视频中的文本往往叠加在视频场景中。由于大多数商用光学字符识别(OCR， Optical Character Recognition)软件只能处理具有干净背景的二值图像，所以在检测到视频中的文本区域以后，还必须将文本和背景分离开来，得到具有干净背景的文本图像，然后才能进行OCR识别。关于图像二值化，已经有了很多的相关工作，但是这些方法并不适用于视频文本的二值化操作。在"Victor Wuj Raghavan Manmathaj Edward M. Risemaa. TextFinder: an Automatic System to Detect and Recognize Text in Image. ffiEE Trans. Pattern anal. Machine Intelligence, 1999， V21(ll):1224-1229"中，Wu等人公开了一种利用局部阈值的方法分割图片中的文字的方法，由于灰度图并不能反映彩色图像的边缘信息，且其采用的灰度直方图可能会具有多个波谷，该方法对于稍微复杂的背景效果不理想。在"C.M Tsai and H.J Lee. Binarization of Color Docu...

【技术保护点】
一种基于边缘采样的视频文本增强方法，其特征在于包括以下步骤：　　　　（１）利用文本检测方法检测视频帧中出现的文本区域，记为文本图像ｆ；　　　　（２）对文本图像ｆ进行颜色降维操作，其ＲＧＢ通道值以８ｂｉｔ的高４位ｂｉｔ来代替；　　　　（３）利用彩色空间的梯度算子计算文本图像ｆ的梯度图；　　　　（４）将梯度图的相对高频部分作为边缘，将边缘像素对应的文本图像ｆ的ＲＧＢ值作为采样点，得到采样点集合Ｐ，对于采样点集合Ｐ中的每一个元素ｐ↓［ｉ］，ｐ↓［ｉ］＝（ｒ↓［ｉ］，ｇ↓［ｉ］，ｂ↓［ｉ］）是一个三维矢量；　　　　（５）利用ｋ－均值聚类算法将集合Ｐ的元素聚集为５个子类Ｑ↓［ｊ］，ｊ＝１，２，…，５；　　　　（６）根据Ｑ↓［ｊ］计算子类采样点的平均颜色估计ｕ↓［ｊ］和分割半径Ｔ↓［ｊ］；　　　　（７）利用马氏距离度量将马氏Ｍａｈａｌａｎｏｂｉｓ距离文本图像ｆ分割为５个二值图像ｇ↓［ｉ］，ｉ＝１，…，５；　　　　（８）对分割操作得到的二值图像ｇ↓［ｉ］进行连通域分析，从中挑选出包含文本的二值图像，作为文本图像ｆ的文本增强结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：朱成军，李超，刘伟，熊璋，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人