一种视频字幕的提取方法及装置制造方法及图纸

技术编号:8300944 阅读:172 留言:0更新日期:2013-02-07 04:35
本发明专利技术实施例公开了一种视频字幕的提取方法及装置,属于图像处理领域。方法包括:将各图像帧进行叠加平均,则得到边缘强度图;在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;分析二值图中的连通域定位出对应的文字区域;在文字区域中拟合各颜色通道进行颜色聚类后滤波,从而在文字区域中提取对应的文字,进行OCR识别后得到视频中的字幕。本发明专利技术通过从图像增强后的各图像帧中定位文字区域,并以颜色聚类的方式提取文字区域中的文字后识别,通过颜色聚类在文字区域中有效地对视频帧中的文字进行了提取,不受文字区域中复杂背景的影响,从而提高了字幕的识别效果。

【技术实现步骤摘要】
一种视频字幕的提取方法及装置
本专利技术涉及图像处理领域,尤其涉及一种视频字幕的提取方法及装置。
技术介绍
随着数字化网络化的发展,数字图像和视频越来愈多。由于图片或视频中的文字能够提供直接的语义信息,因此,对文字进行检测有助于理解和管理视频图像。比如,检测和分析图片中文字内容,有助于为不良内容图片过滤和监控提供有效的特征;新闻视频中的标题通常标示的时间地点人物为新闻内容分析和检索提供了支撑,体育比赛视频中出现的比分、运动员号码等为视频内容的自动分析、瞬间检测具有重要作用。同样,自然场景中的图像也包含重要的文字信息,如对交通指示牌的内容进行分析可帮助外国游客理解中国的交通规则,通过文字转为语音可以帮助盲人在街道无障碍行走等,因此,对图片中的文字进行识别后检索一直都是非常具有意义和挑战性的工作。由于视频或图像中的文字识别存在很多难点,比如,视频或图像的背景比较复杂时,对文字的检测和识别都比较困难。在实际拍摄视频或图像时,摄像机的位置姿态或者物体反光等原因会造成图片中的文字发生畸变,同样会影响检测和识别。
技术实现思路
本专利技术的实施例提供了一种视频字幕的提取方法及装置,通过从图像增强后的各图像帧中定位文字区域,并以颜色聚类的方式提取文字区域中的文字后识别,不受文字区域中复杂背景的影响,提高了文字检测的识别率。为达到上述目的,采用如下技术方案:一种视频字幕的提取方法,包括如下步骤:抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;分析所述二值图中的连通域,从图像帧中定位出对应的文字区域;在文字区域中拟合各颜色通道进行颜色聚类后滤波,从而按得到的类别在含有字幕的文字区域中提取对应的文字;将所述文字进行OCR识别,得到视频中的字幕。优选的,所述统计边缘强度图中的笔画强度时,统计边缘强度图中每个像素点的边缘强度值,得到图像帧对应的笔画强度图。优选的,所述分析所述二值图中的连通域时,对所述二值图分别进行水平投影和垂直投影,选取长宽比在0.1至4.5之间的连通域作为文字区域。优选的,所述从图像帧中定位出对应的文字区域时,对二值图像进行形态学滤波,滤除连通域中的噪声。优选的,所述拟合各颜色通道进行颜色聚类时,统计文字区域中各个颜色通道的直方图,并根据所述直方图中的波峰数量确定待聚类的类别数量;按类别数量用FCM聚类算法进行颜色聚类,将各类别分别进行文字滤波;统计各类别中的非零像素数,将非零像素数最多的对应类别图像作为包含字幕的文字区域。特别的,所述将各类别分别进行文字滤波后,将与图像边缘粘连的连通域为非文字纹理滤除。本专利技术还公开了一种视频字幕的提取装置,包括如下模块:抽取模块,用于抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;统计模块,用于在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;定位模块,用于分析所述二值图中的连通域,从图像帧中定位出对应的文字区域;提取模块,用于在文字区域中拟合各颜色通道进行颜色聚类后滤波,从而按得到的类别在含有字幕的文字区域中提取对应的文字;识别模块,用于将所述文字进行OCR识别,得到视频中的字幕。优选的,所述抽取模块统计边缘强度图中的笔画强度时,统计边缘强度图中每个像素点的边缘强度值,得到图像帧对应的笔画强度图。优选的,所述定位模块分析所述二值图中的连通域时,对所述二值图分别进行水平投影和垂直投影,选取长宽比在0.1至4.5之间的连通域作为文字区域。优选的,所述提取模块拟合各颜色通道进行颜色聚类时,统计文字区域中各个颜色通道的直方图,并根据所述直方图中的波峰数量确定待聚类的类别数量;按类别数量用FCM聚类算法进行颜色聚类,将各类别分别进行文字滤波;统计各类别中的非零像素数,将非零像素数最多的对应类别图像作为包含字幕的文字区域。本专利技术实施例提供的一种视频字幕的提取方法及装置,通过从图像增强后的各图像帧中定位文字区域,并以颜色聚类的方式提取文字区域中的文字后识别,通过颜色聚类在文字区域中有效地对视频帧中的文字进行了提取,不受文字区域中复杂背景的影响,从而提高了字幕的识别效果。附图说明图1为本专利技术实施例一提供的一种视频字幕的提取方法的流程图;图2a、图2b为本专利技术实施例一提供的一种视频字幕的提取方法视频截图求反后得到的笔画强度图像;图3为图2a对应的图像帧中形态学滤波后形成的文字区域;图4a为本专利技术实施例一提供的一种视频字幕的提取方法对文字区域准备进行颜色聚类的原始图;图4b为本专利技术实施例一提供的一种视频字幕的提取方法对文字区域进行颜色聚类后的结果图;图4c为本专利技术实施例一提供的一种视频字幕的提取方法对文字区域进行连通域分析后剔除非文字连通域的结果图;图5为本专利技术实施例二提供的一种视频字幕的提取装置的模块结构图。具体实施方式下面结合附图对本专利技术实施例一种视频字幕的提取方法和装置进行详细描述。本专利技术的实施例一公开了一种视频字幕的提取方法,如图1所示,包括如下步骤:步骤101、抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;本实施例中,提取一段视频中的各图像帧,将各图像帧的像素值进行叠加平均,由于图像帧中的边缘像素在相邻的几个图像帧中将保持相对稳定,因此各图像帧叠加平均后,可以得到同一像素位置对应的各边缘像素的均值,从而有效地将图像帧中对应的边缘强度值。步骤102、在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;所述统计边缘强度图中的笔画强度时,统计边缘强度图中每个像素点的边缘强度值,得到图像帧对应的笔画强度图。由于视频帧中,笔画的纹理具有以下特性:1)对比度较强;2)笔画可认为是小于特定宽度的双边结构;3)笔画以0,90,45,135四个角度为主。因此,在选取笔画强度时,采用下面的做法,笔画强度的值为:其中,d为选用的文字强度方向,w为在选用的文字强度方向上宽度,f(p)为图像p点的灰度值,则逐点扫描图像上所有点,并按下式给出笔画强度图像。00otherwise]]>最终像素p对应的笔画强度为:其中,d为四个方向上的极大值。记原始灰度图像为F+,并计算F+的笔画强度图像P+,考虑到灰度图像中的文字一般为白底黑字或黑底白字类型,则将原始灰度图像求反,记为F-,并同理计算F-的笔画强度图像P-。如图2a和图2b所示,为视频截图求反后得到的笔画强度图像,从图中可以看出,视频中的文字边缘显示得非常清晰,能够实现对文字区域的定位。由于视频图像中的文字区域一般的对比度强,可将笔画强度图像P进行二值化,进而实现文字定位。因此,本实施例中,采用基于熵阈值的将笔画强度图像P进行二值化。1、计算图像各阶灰度对应的概率;其中,Ni为对应于灰度i时的像素个数,w*h为图像的尺寸。2、根据设定的既定灰度t(t=0,1,,2,...255),以t为阈值,将原始图像分为前景和背景两部分,并计算对应于阈值t的总信息本文档来自技高网...
一种视频字幕的提取方法及装置

【技术保护点】
一种视频字幕的提取方法,其特征在于,包括如下步骤:抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;分析所述二值图中的连通域,从图像帧中定位出对应的文字区域;在文字区域中拟合各颜色通道进行颜色聚类后滤波,从而按得到的类别在含有字幕的文字区域中提取对应的文字;将所述文字进行OCR识别,得到视频中的字幕。

【技术特征摘要】
1.一种视频字幕的提取方法,其特征在于,包括如下步骤:抽取视频中的图像帧,将各图像帧进行叠加平均,则得到边缘强度图;在各边缘强度图中逐点扫描,统计边缘强度图中的笔画强度,并基于笔画强度将图像帧进行二值化;分析二值图中的连通域,从图像帧中定位出对应的文字区域;在文字区域中拟合各颜色通道进行颜色聚类后滤波,所述拟合各颜色通道进行颜色聚类时,统计文字区域中各个颜色通道的直方图,并根据所述直方图中的波峰数量确定待聚类的类别数量,按类别数量用模糊C聚类算法进行颜色聚类,将各类别分别进行文字滤波,统计各类别中的非零像素数,将非零像素数最多的对应类别图像作为包含字幕的文字区域,从而按得到的类别在含有字幕的文字区域中提取对应的文字;将所述文字进行OCR识别,得到视频中的字幕。2.根据权利要求1所述的方法,其特征在于:所述统计边缘强度图中的笔画强度时,统计边缘强度图中每个像素点的边缘强度值,得到图像帧对应的笔画强度图。3.根据权利要求1所述的方法,其特征在于:所述分析所述二值图中的连通域时,对所述二值图分别进行水平投影和垂直投影,选取长宽比在0.1至4.5之间的连通域作为文字区域。4.根据权利要求1或3所述的方法,其特征在于:所述从图像帧中定位出对应的文字区域时,对二值图像进行形态学滤波,滤除连通域中的噪声。5.根据权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:徐洪伟苏鹏宇
申请(专利权)人:北京捷成世纪科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1