基于特征摘要图的视频中的户外场景文本自动获取方法技术

技术编号:17971164 阅读:46 留言:0更新日期:2018-05-16 11:48
一种基于特征摘要图的视频中的户外场景文本自动获取方法,首先获取场景文本的视频帧图像,并基于视频帧图像的RGB色彩空间生成视频帧特征摘要图:先在RGB色彩空间上分别提取水平、垂直、45度和135度四个方向的四个卷积图,得到表征色彩空间的四个方向特征向量,进而获得代表不同方向视频帧的十个显著图并进行融合计算,得到视频帧特征摘要图。然后基于视频帧特征摘要图和RGB色彩空间进行K均值颜色聚类计算,得到表示背景、前景文字字符、字符轮廓和噪音的四个区域的四类结果后,再分别分析四类结果的连通域,删除背景和噪音两个区域,自动获取最终的户外场景文本。本发明专利技术操作步骤简单、计算容易,能够实时识别和获取的户外场景文本,推广应用前景好。

【技术实现步骤摘要】
基于特征摘要图的视频中的户外场景文本自动获取方法
本专利技术涉及一种数字图像处理方法,确切地说,涉及一种基于特征摘要图的视频中的户外场景文本自动获取方法,属于计算机视觉处理的

技术介绍
过去的几年中,随着数字图像采集装置、智能手机和实用视觉系统及其设备的普及,基于内容的图像理解技术得到越来越多的关注。因为图像/视频中的场景文本具有比较丰富、直接的语义信息线索,因此,场景文本被认为是必须要被检测和识别的重要对象。其中,文本检测、定位、提取和识别是获取文本信息的主要步骤。通常是将文本检测、定位和提取的操作统一称为文本获取。对于文本识别而言,文本获取是非常重要的前提,因为它减少了复杂背景,消除了照明效果,从而使得识别相对简单和容易。然而,由于室内外的不均匀光照,图像/视频的模糊不清,背景复杂,透视变形,颜色多样性,字体复杂和笔划宽度的不同等等多种不利因素,都对视频场景文本的获取产生很大的挑战性和严峻性。目前,国内外的研究人员已经在视频场景文本的获取技术方面研制成功了多种方法。现在,将场景文本的提取分为两个步骤:(1)场景文本的检测定位,(2)场景文本的提取。现有技术的场景文本检测定位方法可分为:基于颜色的、基于边缘/梯度的、基于纹理的和基于笔划的四种不同的场景文本检测方法。其中:基于颜色的场景文本检测:这是一种早就提出并已经用了20余年的传统方法,该方法简单又高效:通常采用基于局部阈值的场景文本检测算法,也有研究人员采用改进尼布拉克Niblack算法中的局部阈值获取方法,使得该方法能够用于一些背景比较简单的场景文本进行快速检测。研究人员还提出使用均值移动(meanshift)算法生成颜色层,以便显著提高在复杂背景下文本检测的鲁棒性。但是,在视频/图像中存在多种颜色的字符和光照不均匀时,基于颜色特征的文本检测会遇到许多难题。基于边缘/梯度的场景文本检测:假设在背景区域上显示的文本区域出现强烈且对称的变化时,具有大的、对称的梯度值的像素可被视为文本像素,这就可以将边缘特征和梯度特征用于场景文本检测中。研究人员还提出一种基于边缘增强的场景文本检测算法。这类研究包括基于尺寸、位置和颜色距离的空间限制,将水平排列的“梯度矢量流”通过聚类方式找到文本候选区域。当前,研究人员提出将梯度/边缘特征与各种分类器(例如人工神经网络或AdaBoost算法)相结合的基于AdaBoost分类器的场景文本检测算法;甚至进一步提出在基于AdaBoost分类器的基础上,再增加一种基于神经网络的文本定位器的检测方法。但是,这类算法难以检测具有强烈梯度的复杂背景下的场景文本。基于纹理的场景文本检测:当字符区域比较密集时,场景文本可被视为一种纹理。当前许多方法都采用提取纹理特征来检测场景文本,包括采用傅立叶变换,离散余弦变换DCT(DiscreteCosineTransform),小波,局部二值模式LBP(LocalBinaryPattern)和方向梯度直方图HOG(HistogramofOrientedGradient)等等。虽然纹理特征能被用于有效检测密集的字符,然而该方法可能无法检测稀疏的字符。于是,研究人员分别提出基于傅里叶频域特征检测场景文本和基于频域中的DCT系数检测场景文本的方法。近来又提出一种基于局部二值模式(LocalHaarBinaryPattern)特征检测场景文本算法。然而,当呈现的背景复杂时,许多背景噪音也都显示出与文本相似的纹理,这样就降低了该方法的检测精度。基于笔划的场景文本检测方法:笔划宽度变换SWT(StrokeWidthTransform)被用于计算最有可能的笔划像素宽度。基于笔划的特征已被证明能够非常有效地应用于高分辨率场景文本的检测,特别是当其结合适当的学习方法、或将笔划特征与包括边缘方向差EOV(edgeorientationvariance)、相反边缘对OEPs(oppositeedgepairs)或空间-时序分析(spatial-temporalanalysis)的其它特征相互融合时。最近,引入基于Bandlet的边缘检测器来提高SWT、增强场景文本的边缘差异,并消除噪音点边缘,使得SWT能够被用于低分辨率文字的检测中。然而,在检测具有多种尺寸和字体的字符的场景文本时,该方法的检测精度会明显地大幅度下降。现有技术的场景文本提取方法至少可以分为:基于阈值的、基于颜色的和基于字符笔划的三种文本提取算法。其中:基于阈值的文本提取算法:该方法又分为两个子类算法:一是使用全局阈值方法,如大津算法(Otsu)等;另一是使用局部阈值方法。现在又提出一种多阈值算法:该算法中的第二阶段阈值取决于第一阶段的阈值基础,这样显著增强了提取效果。但是,因为基于阈值的方法不考虑场景文本的特征,所以该方法并没有得到令人满意的执行与推广。基于颜色的文本提取算法:该方法是先使用k均值或其他聚类算法生成几个候选二进制图像,然后基于图像分析选择二进制图像。其特点是假设文本颜色是一致的,并将颜色聚类引入场景文本的提取。缺点是:因其属于全局计算方法,对非均匀照明比较敏感,且在分析多个候选图像时的计算成本和参数k的选择,都是非常复杂的。基于字符笔划的文本提取算法:先用两组非对称Gabor滤波器提取图像中的纹理方向和尺度,再将这些特征用于最可能表示文本字符的边缘,以增强对比度。然而,该算法对提取的字符大小很敏感,不适合在视频中提取场景文本。总之,上述各种现有技术的场景文本的检测与定位和场景文本的提取技术存在多方面的不尽人意之处,因此,如何研制一种性能比较优良、或特点完善的视频中的场景文本获取方法,就成为业内科技人员非常关注的新课题。
技术实现思路
有鉴于此,本专利技术的目的是提供一种基于特征摘要图的视频中的户外场景文本自动获取方法,该方法能够较好地解决现有技术中的多种缺陷,能够正确、完整地获取在不均匀光照、模糊、或复杂的背景下,存在透视变形、颜色多样、字体复杂和笔划宽度不等的各种不同状况下的场景文本。。为了达到上述目的,本专利技术提供了一种基于特征摘要图的视频中的户外场景文本自动获取方法,其特征在于:该方法包括下列操作步骤:步骤1,获取场景文本的视频帧图像,并基于该视频帧图像的红绿蓝RGB色彩空间生成视频帧特征摘要图:首先在RGB色彩空间上分别提取包括水平方向、垂直方向、45度方向和135度方向的四个卷积图,得到用于表征RGB色彩空间的四个方向特征向量;再将该四个方向特征向量分别进行两两向量的乘积运算,以获得分别代表不同方向视频帧的十个显著图;然后对该不同方向的十个显著图进行融合计算,得到视频帧特征摘要图,作为后续获取视频中的场景文本的视觉表征,并删除背景和噪声干扰,提高识别精准度;步骤2,自动获取场景文本:首先基于该视频帧特征摘要图和RGB色彩空间进行K均值颜色聚类计算,将该视频帧摘要图细分为分别表示背景、前景文字字符、字符轮廓和噪音的四个区域的四类结果;再对该四类结果分别进行连通域分析,删除背景和噪音两个区域,获取最终的场景文本。目前,在背景复杂和光照多变的情况下,户外视频场景文本的获取非常困难。本专利技术作为一种创新的自动获取视频中的户外场景文本的方法,它的技术关键是提出如何获取一种全新的视频帧特征摘要图,用作视频中的场景文本自动获取本文档来自技高网
...
基于特征摘要图的视频中的户外场景文本自动获取方法

【技术保护点】
一种基于特征摘要图的视频中的户外场景文本自动获取方法,其特征在于:该方法包括下列操作步骤:步骤1,获取场景文本的视频帧图像,并基于该视频帧图像的红绿蓝RGB色彩空间生成视频帧特征摘要图:首先在RGB色彩空间上分别提取包括水平方向、垂直方向、45度方向和135度方向的四个卷积图,得到用于表征RGB色彩空间的四个方向特征向量;再将该四个方向特征向量分别进行两两向量的乘积运算,以获得分别代表不同方向视频帧的十个显著图;然后对该不同方向的十个显著图进行融合计算,得到视频帧特征摘要图,作为后续获取视频中的场景文本的视觉表征,并删除背景和噪声干扰,提高识别精准度;步骤2,自动获取场景文本:首先基于该视频帧特征摘要图和RGB色彩空间进行K均值颜色聚类计算,将该视频帧摘要图细分为分别表示背景、前景文字字符、字符轮廓和噪音的四个区域的四类结果;再对该四类结果分别进行连通域分析,删除背景和噪音两个区域,获取最终的场景文本。

【技术特征摘要】
1.一种基于特征摘要图的视频中的户外场景文本自动获取方法,其特征在于:该方法包括下列操作步骤:步骤1,获取场景文本的视频帧图像,并基于该视频帧图像的红绿蓝RGB色彩空间生成视频帧特征摘要图:首先在RGB色彩空间上分别提取包括水平方向、垂直方向、45度方向和135度方向的四个卷积图,得到用于表征RGB色彩空间的四个方向特征向量;再将该四个方向特征向量分别进行两两向量的乘积运算,以获得分别代表不同方向视频帧的十个显著图;然后对该不同方向的十个显著图进行融合计算,得到视频帧特征摘要图,作为后续获取视频中的场景文本的视觉表征,并删除背景和噪声干扰,提高识别精准度;步骤2,自动获取场景文本:首先基于该视频帧特征摘要图和RGB色彩空间进行K均值颜色聚类计算,将该视频帧摘要图细分为分别表示背景、前景文字字符、字符轮廓和噪音的四个区域的四类结果;再对该四类结果分别进行连通域分析,删除背景和噪音两个区域,获取最终的场景文本。2.根据权利要求1所述的方法,其特征在于:所述在RGB色彩空间上分别提取的包括水平方向、垂直方向、45度方向和135度方向的四个卷积图中,水平方向卷积图采用的水平方向卷积核是索贝尔Sobel算子中计算水平方向微分的计算模板:垂直方向卷积图采用的垂直方向卷积核是Sobel算子中计算垂直方向微分的计算模板:45度方向卷积图采用的45度方向卷积核是计算45度方向微分的计算模板:135度方向卷积图采用的135度方向卷积核是计算135度方向微分的计算模板:基于卷积核的卷积图特征提取方法特点是算法简单、运算速度快、有利于工程实现,且提取的卷积特征不容易受到户外场景中的光照变化影响。3.根据权利要求1所述的方法,其特征在于:所述步骤1包括下列操作内容:(11)先分别在红色通道上分别提取水平方向卷积图Rh、垂直方向卷积图Rv、45度方向卷积图Rl和135度方向卷积图Rr,在绿色通道上分别提取水平方向卷积图Gh、垂直方向卷积图Gv、45度方向卷积图Gl和135度方向卷积图Gr,在蓝色通道上分别提取水平方向卷积图Bh、垂直方向卷积图Bv、45度方向卷积图Bl和135度方向卷积图Br;再将上述各个方向卷积图按照RGB色彩空间排列,得到用于表征RGB色彩空间的四个方向特征向量:水平方向特征向量H={Rh,Gh,Bh},垂直方向特征向量V={Rv,Gv,Bv},45度方向特征向量L={Rl,Gl,Bl},135度方向特征向量R={RrGr,Br};(12)将该四个方向特征向量分别进行两两向量的乘积运算,获得代表视频帧的不同方向的十个显著图,以便在保留多个设定方向边缘特征的同时,删除其余方向的背景和噪音干扰,并获取场景文本多种方向的笔划特征,有助于自动提取场景文本;(13)对该不同方向的十个显著图进行融合计算,得到视频帧特征摘要图,为后续获取视频中的场景文本提供视觉表征,并删除背景和噪声干扰,提高场景文本自动获取结果的精准度和完整度。4.根据权利要求3所述的方法,其特征在于:所述步骤(12)包括下列操作内容:(120)按照公式Shh={Rh,Gh,Bh}×{Rh,Gh,Bh}计算水平方向特征向量的自乘之积,得到水平方向显著图Shh,用于保留和强化水平方向的边缘特征,并弱化其他方向边缘特征;(121)按照公式Svv={Rv,Gv,Bv}×{Rv,Gv,Bv}计算垂直方向特征向量的自乘之积,得到垂直方向显著图Svv,用于保留和强化垂直方向的边缘特征,并弱化其他方向边缘特征;(122)按照公式Sll={Rl,Gl,Bl}×{Rl,Gl,Bl}计算45度方向特征向量的自乘之积,得到45度方向显著图Sll,用于保留和强化45度方向的边缘特征,并弱化其他方向边缘特征;(123)按照公式Srr={Rr,Gr,Br}×{Rr,Gr,Br}计算135度方向特征向量的自乘之积,得到135度方向显著图Srr,用于保留和强化135度方向的边缘特征,并弱化其他方向边缘特征;(124)按照公式Shv={Rh,Gh,Bh}×{Rv,Gv,Bv}计算水平与垂直两个方向特征向量的相乘之积,得到水平垂直方向显著图Shv,用于保留和强化水平垂直方向的边缘特征,并弱化其他方向边缘特征;(125)按照公式Shl={Rh,Gh,Bh}×{Rl,Gl,Bl}计算水平与45度两个方向特征向量的相乘之积,得到水平45度方向显著图Shl,用于保留和强化水平45度方向的边缘特征,并弱化其他方向边缘特征;(126)按照公式Shr={Rh,Gh,Bh}×{Rr,Gr,Br}计算水平与135度两个方向特征向量的相乘之积,得到水平135度方向显著图Shr,用于保留和强化水平135度方向的边缘特征,并弱化其他方向边缘特征;(127)按照公式Svl={Rv,Gv,Bv}×{Rl,Gl,Bl}计算垂直与45度两个方向特征向量的相乘之积,得到垂直45度方向显著图Svl,用于保留和强化垂直45度...

【专利技术属性】
技术研发人员:黄晓冬王勤
申请(专利权)人:首都师范大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1