当前位置: 首页 > 专利查询>浙江大学专利>正文

基于边缘信息和分布熵的视频字幕识别设计方法技术

技术编号:6613045 阅读:243 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于边缘信息和分布熵的视频字幕识别方法。它使用角点加强的边缘检测方法得到图像边缘信息,然后连接边缘点并收集连通域,使用分割算法对连通域进行适当分割,再使用精化操作得到它们的准确位置,使用拖尾过滤器和联合熵过滤器过滤掉非文本区域,剩下的就是文本区域。对于检测出的文本域,统一成黑底白字后,使用局部阀值二值化、基于禁止扩展点约束的边缘噪声点扩展移除操作及基于环绕边缘点计数的噪声移除操作,得到二值图送入OCR软件中进行识别。该方法能克服一般方法对语言、字幕排列方式、背景复杂度等较敏感的缺点,通过引入分割算法和联合熵过滤器,能得到很好的检测效果,改进传统的二值化方法极大的提高了识别准确率。

【技术实现步骤摘要】

本专利技术涉及一种基于边缘信息和分布熵的视频字幕识别方法,该方法用于实现在视频中检测并提取字幕用于OCR识别,属于计算机图像处理领域。
技术介绍
随着多媒体和电子工业的发展,越来越多的视频信息被生产出来。如何有效的组织和检索它们就成为一个难题。很多视频资料如电视新闻、体育比赛、电影、综艺节目等都有后期制作中加入的字幕信息,这些字幕信息与视频内容密切相关。如能有效的识别这些字幕,则能利用它们对视频资料进行组织和检索,具有很强的实用价值。视频字幕识别分为四步字幕检测、字幕定位、字幕提取和OCR识别。字幕检测用于确定字幕区域;字幕定位用于定位每一行字幕的精确位置;字幕提取用于将字幕区域二值化,只保留笔划像素;最后一步一般交由商用OCR软件实现。字幕检测可以分为四种方法基于边的方法、基于连通域的方法、基于颜色聚类的方法和基于纹理的方法。基于边的方法使用边过滤器来检测文本边,然后用形态学操作来合并它们。第八届文档分析与识别会议(In Proceedings of 8rd International Conference on Document Analysis and Recognition (ICDAR),2005,610-614)公布的方法使用边缘检测方法得到四个边缘映射图,然后使用K-MEANS算法检测候选文本区域,最后使用启发式规则和投影分析来确定和精化文本区域。如果没有复杂的背景,基于边的方法的效果会很好,但是当背景包含很多边信息时,它们的效果就不太好。基于纹理的方法使用Gabor过滤器、小波变换、快速傅里叶变换等提取纹理特征,然后用神经网络、SVM分类器等机器学习的方法检测字幕区域。IEEE 通信技术 2008 年会议论文集中(In Proceeding of IEEE International Conference on Communication Technology (ICCT), 2008, 722-725)公布的一种方法使用 HARR小波变换通过将4小块小波系数合并成一大块来定位大字体文本中,然后使用形态学膨胀操作和神经网格来增强效果。基于连通域的方法将一帧分割成多个小连通域,然后将它们合并到较大的连通域中用来定位字幕。ACM多媒体技术2007年会议论文集中(In Proceedings of the ACM International Multimedia Conference and Exhibition 2007(MM),847-850) 的一种方法使用基于信用的颜色的聚类去掉噪声,他们根据各颜色面板的文本对比度差异来适应性的选择相对最好的颜色面板执行二值化操作。基于颜色聚类的方法假设视频帧中的文本颜色都是统一的,然而这一假设在大多数情况下是不成立的,因此其应用的局限性较大。由于利用一种特征进行字幕检测其效果不理想,因此很多方法联合使用以上多种特征。对于字幕定位,一般使用灰度投影的方法。字幕提取方法可以分为基于颜色的方法和基于笔划的方法。很多基于颜色的方法使用Otsu方法对灰度图进行二值化,但当字幕和背景的灰度级非常相近时,该方法不能很好的分辨出它们,从而不能很好的去噪。《电气和电子工程师协会视频技术电路与系统学报》2005年第15期(IEEE Transactions on Circuits and Systems for Video Technology 2005,15 (2) :243-255)和《电气和电子工程师协会图像处理学报》2009 年第 18 期(IEEE Transactions on Image Processing 2009,18 (2)401-411)中公布的一种方法使用有更好的分辨力的局部适应性阀值,结合dam点标记和向内填充,使得大部分噪声点能去被移除。上面这些字幕检测方法均对视频字幕检测工作作出了一些有益的尝试,但这些方法对字幕与背景的分辨效果不是很好,仅采用这些方法检测一些语言、字体及文字对齐方式多变的视频进行处理效果不佳。另外已存的字幕提取方法虽然能去掉大部分噪音,但由于OCR软件对噪声点非常敏感,导致复杂背景下文本识别的效果不佳。
技术实现思路
本专利技术的目的是克服现有技术的不足,提供一种基于边缘信息和分布熵的视频字幕识别方法。基于边缘信息和分布熵的视频字幕识别方法的步骤如下1)检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断;2 )字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域;3)对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域;4)在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别。所述的检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作, 否则继续取下一帧进行判断步骤为设本帧为Ii,其边缘二值图为Ei,其前一已处理帧即前面第5帧为Ii_5,其边缘二值图为Ei-5,令Di^5=Ei Ei +5,令上一次检测出的字幕区域为 Areai^,又上一次各字幕区域边缘二值图累加和的最小值为则当前帧中字幕区域累加差值计算如下^ = ZdW-J^c1M./)1J若cFD小于或等于/7MWX0. 5,则不需要对本帧进行字幕识别操作,继续取后面第5帧进行判断,否则就需要对本帧进行字幕识别操作,为了进一步防止漏掉字幕,另设一计数值 ck,每次cFD小于或等于pMESX 0. 5时ck值加1,反之则ck重置为0,若ck等于5,则无论前面判断如何,都需要对本帧进行字幕识别操作,同时ck重赋值0。所述的字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域步骤为(1)边缘检测方法给定图像I,采用Sobel算子检测边缘,Sobel算子由水平&、垂直Sv、对角线S111、逆对角线Skd四个方向上的梯度模板组成,边缘场由下式计算权利要求1.一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于它的步骤如下1)检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断;2 )字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域;3)对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域;在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别。2.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于所述的检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断步骤为设本帧为Ii,其边缘二值图为Ei,其前一已处理帧即前面第5帧为Ii_5,其边缘二值图为Eh5,令Di^5=Ei Ei本文档来自技高网
...

【技术保护点】
1.一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于它的步骤如下:1)检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断;2)字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域;3)对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域;在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:魏宝刚庄越挺袁杰鲁伟明
申请(专利权)人:浙江大学
类型:发明
国别省市:86

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1