一种视频图像文字的检测方法和装置制造方法及图纸

技术编号:11701586 阅读:77 留言:0更新日期:2015-07-09 01:09
本发明专利技术实施例提供了一种视频图像文字的检测方法和装置,其中的方法具体包括:对视频图像进行文字检测,确定所述视频图像的文本区域;利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割,得到二值化文字图像;对所述二值化文字图像进行过滤处理,得到过滤后的文字图像。本发明专利技术实施例能够提高视频图像文字检测的效果。

【技术实现步骤摘要】

本专利技术涉及视频文字处理
,特别是涉及一种视频图像文字的检测方法和 装置。
技术介绍
随着数字化网络化的发展,数字图像和视频越来越多,图片或视频中的文字能够 提供直接的高层语义信息,因此开发视频图像文字的检测技术,有助于对视频图像进行理 解和管理。 现有的光学字符识别技术(OpticalCharacterRecognition,OCR)主要针对的 是图像,尤其是照片中文字的检测,并且对图像预处理效果较为敏感。若想获得较好的文字 识别效果,必须通过图像处理技术,将文字与背景清晰的分割出来。然而,对于视频文字检 测,由于背景较为复杂,视频压缩造成的画质损失,以及为了视觉效果在视频文字的边缘加 入阴影等处理,使得通用的文字检测技术如OCR,很难取得满意的检测效果。 此外,还有一个比较重要的影响因素是光照变化,因此必须考虑文字颜色的变化 问题。而视频文字一般为后期添加,虽然背景比较复杂,但是文字颜色比较均一,因此,若使 用针对图像的检测方法,由于考虑了不必要的因素,会导致检测精度有所降低。
技术实现思路
本专利技术实施例所要解决的技术问题是提供一种视频图像文字的检测方法和装置, 能够提高视频图像文字检测的效果。 为了解决上述问题,本专利技术公开了一种视频图像文字的检测方法,包括: 对视频图像进行文字检测,确定所述视频图像的文本区域; 利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割, 得到二值化文字图像; 对所述二值化文字图像进行过滤处理,得到过滤后的文字图像。 优选地,所述确定所述视频图像的文本区域之后,还包括: 对所述视频图像的文本区域进行侵蚀处理,得到侵蚀后的文本区域。 优选地,所述利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字 和背景分割,得到二值化文字图像的步骤,包括: 确定所述视频图像文字对应的三通道中心像素值; 判断所述文本区域中每个像素点与所述中心像素值是否符合预置条件,若符合, 则确定当前像素点为文字;若不符合,则确定当前像素点为背景。 优选地,所述确定所述视频图像文字对应的三通道中心像素值的步骤,包括: 利用所述文本区域作为掩板,从所述视频图像中过滤掉背景,得到文字; 提取所述文字的三通道像素值; 对每个通道提取的像素值进行排序,并依据排序结果确定中位数为所述文字对应 的三通道中心像素值。 优选地,所述对所述二值化文字图像进行过滤处理,得到过滤后的文字图像的步 骤,包括: 依据对所述文本区域分割出的文字,获取所述文字的笔画宽度信息以及所述文字 的宽度信息; 依据所述文字的笔画宽度信息和所述文字的宽度信息,对所述文本区域的文字进 行切割紧缩处理; 对所述切割紧缩处理后的文本区域进行去噪处理,得到过滤后的文字图像。 优选地,所述得到过滤后的文字图像之后,还包括: 利用所述过滤后的文字图像作为掩板,从所述视频图像中获取文字颜色信息,得 到彩色文字图像。 优选地,所述对视频图像进行文字检测,确定所述视频图像的文本区域的步骤,包 括: 利用笔画宽度变换的检测方法对所述视频图像进行文字检测,确定所述视频图 像的文本区域。 依据本专利技术的另一个方面,提供了一种视频图像文字的检测装置,包括: 检测模块,用于对视频图像进行文字检测,确定所述视频图像的文本区域; 分割模块,用于利用所述视频图像的颜色信息对所述视频图像的文本区域进行文 字和背景分割,得到二值化文字图像; 过滤模块,用于对所述二值化文字图像进行过滤处理,得到过滤后的文字图像。 优选地,所述装置还包括: 侵蚀模块,用于对所述视频图像的文本区域进行侵蚀处理,得到侵蚀后的文本区 域。 优选地,所述分割模块,具体包括: 中心确定子模块,用于确定所述视频图像文字对应的三通道中心像素值; 判断子模块,用于判断所述文本区域中每个像素点与所述中心像素值是否符合预 置条件,若符合,则确定当前像素点为文字;若不符合,则确定当前像素点为背景。 优选地,所述中心确定子模块,具体包括: 背景过滤单元,用于利用所述文本区域作为掩板,从所述视频图像中过滤掉背景, 得到文字; 提取单元,用于提取所述文字的三通道像素值; 中心确定单元,用于对每个通道提取的像素值进行排序,并依据排序结果确定中 位数为所述文字对应的三通道中心像素值。 优选地,所述过滤模块,具体包括: 文字信息获取子模块,用于依据对所述文本区域分割出的文字,获取所述文字的 笔画宽度信息以及所述文字的宽度信息; 切割紧缩子模块,用于依据所述文字的笔画宽度信息和所述文字的宽度信息,对 所述文本区域的文字进行切割紧缩处理; 去噪子模块,用于对所述切割紧缩处理后的文本区域进行去噪处理,得到过滤后 的文字图像。 优选地,所述装置还包括: 颜色获取模块,用于利用所述过滤后的文字图像作为掩板,从所述视频图像中获 取文字颜色信息,得到彩色文字图像。 优选地,所述检测模块,具体包括: 检测子模块,用于利用笔画宽度变换的检测方法对所述视频图像进行文字检测, 确定所述视频图像的文本区域。 与现有技术相比,本专利技术实施例包括以下优点: 本专利技术实施例首先对视频图像进行文字检测,确定文本区域,然后利用颜色信息 对文本区域的文字和背景进行分割,得到二值化文字图像,最后对二值化文字图像进行过 滤得到去除噪点的文字图像。由于视频图像文字具有背景复杂、文字颜色均一的特点,而本 专利技术实施例在对视频图像进行文字检测之后,再利用颜色信息进行图像分割,可以进一步 地区分文字和复杂的背景,避免单独利用针对图像的边缘检测方法如OCR导致检测效果较 差的问题;此外,由于视频文字颜色均一,利用颜色信息进行图像分割,还可以避免光照变 化对于检测效果的影响,从而可以提高视频图像文字检测的效果。【附图说明】 图1示出了本专利技术的一种视频图像文字的检测方法实施例的步骤流程图; 图2示出了两幅视频图像的局部图像示意图; 图3示出了应用SWT算法对图2中的视频图像进行文字检测的结果示意图; 图4示出了本专利技术的一种基于颜色信息进行图像分割后得到的二值化文字图像 示意图; 图5示出了本专利技术的一种对ROI侵蚀处理后的结果示意图; 图6示出了本专利技术利用所述视频图像的颜色信息对所述视频图像的文本区域进 行文字和背景分割,得到二值化文字图像的步骤流程图; 图7示出了本专利技术对二值化文字图像进行过滤处理,得到过滤后的文字图像的步 骤流程图; 图8示出了本专利技术的一种获取文字笔画宽度的示意图; 图9示出了本专利技术的一种文字垂直方向灰度投影的结果示意图; 图10示出了本专利技术的一种文字水平方向灰度投影的结果示意图; 图11示出了本专利技术的一种切割粘连文字的结果示意图; 图12示出了本专利技术对二值化文字图像去除噪音后的结果示意图; 图13示出了本专利技术的一种视频图像文字的检测方法系统流程图; 图14示出了图13对应的检测方法步骤流程图;及 图15示出了本专利技术一种视频图像文字的检测装置的结构框图。【具体实施方式】 为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本专利技术作进一步详细的说明。 实施例一 参照图1,示出了本专利技术的一种视频图像文字的检测方法实施例的步骤流程图,具 体可以包括: 步骤101、对视频图像进行文字检测,确定所述视频本文档来自技高网...

【技术保护点】
一种视频图像文字的检测方法,其特征在于,所述方法包括:对视频图像进行文字检测,确定所述视频图像的文本区域;利用所述视频图像的颜色信息对所述视频图像的文本区域进行文字和背景分割,得到二值化文字图像;对所述二值化文字图像进行过滤处理,得到过滤后的文字图像。

【技术特征摘要】

【专利技术属性】
技术研发人员:许鹏王涛张彦刚
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1