一种视频字幕的提取方法及装置制造方法及图纸

技术编号：8300944 阅读：172 留言：0更新日期：2013-02-07 04:35

本发明专利技术实施例公开了一种视频字幕的提取方法及装置，属于图像处理领域。方法包括：将各图像帧进行叠加平均，则得到边缘强度图；在各边缘强度图中逐点扫描，统计边缘强度图中的笔画强度，并基于笔画强度将图像帧进行二值化；分析二值图中的连通域定位出对应的文字区域；在文字区域中拟合各颜色通道进行颜色聚类后滤波，从而在文字区域中提取对应的文字，进行OCR识别后得到视频中的字幕。本发明专利技术通过从图像增强后的各图像帧中定位文字区域，并以颜色聚类的方式提取文字区域中的文字后识别，通过颜色聚类在文字区域中有效地对视频帧中的文字进行了提取，不受文字区域中复杂背景的影响，从而提高了字幕的识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频字幕的提取方法及装置
本专利技术涉及图像处理领域，尤其涉及一种视频字幕的提取方法及装置。
技术介绍
随着数字化网络化的发展，数字图像和视频越来愈多。由于图片或视频中的文字能够提供直接的语义信息，因此，对文字进行检测有助于理解和管理视频图像。比如，检测和分析图片中文字内容，有助于为不良内容图片过滤和监控提供有效的特征；新闻视频中的标题通常标示的时间地点人物为新闻内容分析和检索提供了支撑，体育比赛视频中出现的比分、运动员号码等为视频内容的自动分析、瞬间检测具有重要作用。同样，自然场景中的图像也包含重要的文字信息，如对交通指示牌的内容进行分析可帮助外国游客理解中国的交通规则，通过文字转为语音可以帮助盲人在街道无障碍行走等，因此，对图片中的文字进行识别后检索一直都是非常具有意义和挑战性的工作。由于视频或图像中的文字识别存在很多难点，比如，视频或图像的背景比较复杂时，对文字的检测和识别都比较困难。在实际拍摄视频或图像时，摄像机的位置姿态或者物体反光等原因会造成图片中的文字发生畸变，同样会影响检测和识别。
技术实现思路
本专利技术的实施例提供了一种视频字幕的提取方法及装置，通过从图像增强后的各图像帧中定位文字区域，并以颜色聚类的方式提取文字区域中的文字后识别，不受文字区域中复杂背景的影响，提高了文字检测的识别率。为达到上述目的，采用如下技术方案：一种视频字幕的提取方法，包括如下步骤：抽取视频中的图像帧，将各图像帧进行叠加平均，则得到边缘强度图；在各边缘强度图中逐点扫描，统计边缘强度图中的笔画强度，并基于笔画强度将图像帧进行二值化；分析所述二值图中的连通域，从图像帧...
一种视频字幕的提取方法及装置

【技术保护点】
一种视频字幕的提取方法，其特征在于，包括如下步骤：抽取视频中的图像帧，将各图像帧进行叠加平均，则得到边缘强度图；在各边缘强度图中逐点扫描，统计边缘强度图中的笔画强度，并基于笔画强度将图像帧进行二值化；分析所述二值图中的连通域，从图像帧中定位出对应的文字区域；在文字区域中拟合各颜色通道进行颜色聚类后滤波，从而按得到的类别在含有字幕的文字区域中提取对应的文字；将所述文字进行OCR识别，得到视频中的字幕。

【技术特征摘要】
1.一种视频字幕的提取方法，其特征在于，包括如下步骤：抽取视频中的图像帧，将各图像帧进行叠加平均，则得到边缘强度图；在各边缘强度图中逐点扫描，统计边缘强度图中的笔画强度，并基于笔画强度将图像帧进行二值化；分析二值图中的连通域，从图像帧中定位出对应的文字区域；在文字区域中拟合各颜色通道进行颜色聚类后滤波，所述拟合各颜色通道进行颜色聚类时，统计文字区域中各个颜色通道的直方图，并根据所述直方图中的波峰数量确定待聚类的类别数量，按类别数量用模糊C聚类算法进行颜色聚类，将各类别分别进行文字滤波，统计各类别中的非零像素数，将非零像素数最多的对应类别图像作为包含字幕的文字区域，从而按得到的类别在含有字幕的文字区域中提取对应的文字；将所述文字进行OCR识别，得到视频中的字幕。2.根据权利要求1所述的方法，其特征在于：所述统计边缘强度图中的笔画强度时，统计边缘强度图中每个像素点的边缘强度值，得到图像帧对应的笔画强度图。3.根据权利要求1所述的方法，其特征在于：所述分析所述二值图中的连通域时，对所述二值图分别进行水平投影和垂直投影，选取长宽比在0.1至4.5之间的连通域作为文字区域。4.根据权利要求1或3所述的方法，其特征在于：所述从图像帧中定位出对应的文字区域时，对二值图像进行形态学滤波，滤除连通域中的噪声。5.根据权利要求1所述的方法，其特征在于...

【专利技术属性】
技术研发人员：徐洪伟，苏鹏宇，
申请(专利权)人：北京捷成世纪科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人