基于边缘信息和分布熵的视频字幕识别设计方法技术

技术编号：6613045 阅读：243 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于边缘信息和分布熵的视频字幕识别方法。它使用角点加强的边缘检测方法得到图像边缘信息，然后连接边缘点并收集连通域，使用分割算法对连通域进行适当分割，再使用精化操作得到它们的准确位置，使用拖尾过滤器和联合熵过滤器过滤掉非文本区域，剩下的就是文本区域。对于检测出的文本域，统一成黑底白字后，使用局部阀值二值化、基于禁止扩展点约束的边缘噪声点扩展移除操作及基于环绕边缘点计数的噪声移除操作，得到二值图送入OCR软件中进行识别。该方法能克服一般方法对语言、字幕排列方式、背景复杂度等较敏感的缺点，通过引入分割算法和联合熵过滤器，能得到很好的检测效果，改进传统的二值化方法极大的提高了识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于边缘信息和分布熵的视频字幕识别方法，该方法用于实现在视频中检测并提取字幕用于OCR识别，属于计算机图像处理领域。
技术介绍
随着多媒体和电子工业的发展，越来越多的视频信息被生产出来。如何有效的组织和检索它们就成为一个难题。很多视频资料如电视新闻、体育比赛、电影、综艺节目等都有后期制作中加入的字幕信息，这些字幕信息与视频内容密切相关。如能有效的识别这些字幕，则能利用它们对视频资料进行组织和检索，具有很强的实用价值。视频字幕识别分为四步字幕检测、字幕定位、字幕提取和OCR识别。字幕检测用于确定字幕区域；字幕定位用于定位每一行字幕的精确位置；字幕提取用于将字幕区域二值化，只保留笔划像素；最后一步一般交由商用OCR软件实现。字幕检测可以分为四种方法基于边的方法、基于连通域的方法、基于颜色聚类的方法和基于纹理的方法。基于边的方法使用边过滤器来检测文本边，然后用形态学操作来合并它们。第八届文档分析与识别会议(In Proceedings of 8rd International Conference on Document Analysis and Recognition (ICDAR)，2005，610-614)公布的方法使用边缘检测方法得到四个边缘映射图，然后使用K-MEANS算法检测候选文本区域，最后使用启发式规则和投影分析来确定和精化文本区域。如果没有复杂的背景，基于边的方法的效果会很好，但是当背景包含很多边信息时，它们的效果就不太好。基于纹理的方法使用Gabor过滤器、小波变换、快速傅里叶变换等提取纹理特征，然后用神经网络、SVM分类...

【技术保护点】
１．一种基于边缘信息和分布熵的视频字幕识别方法，其特征在于它的步骤如下：１）检测当前帧与前一已处理帧的差别，若差别大，则进行以下字幕识别操作，否则继续取下一帧进行判断；２）字幕识别首先进行字幕检测，在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置，再用联合熵过滤器移除非文本域，只留下字幕区域；３）对字幕区域进行重复性检测，若该区域未重复，则将其颜色极统一为黑底白字，然后进行字幕抽取，否则处理下一字幕区域；在字幕抽取中对颜色极统一后的字幕区域进行二值化，去除噪声点后送ＯＣＲ软件识别。

【技术特征摘要】

【专利技术属性】
技术研发人员：魏宝刚，庄越挺，袁杰，鲁伟明，
申请(专利权)人：浙江大学，
类型：发明
国别省市：86

全部详细技术资料下载我是这个专利的主人