一种健壮的复杂背景视频文本定位和抽取方法技术

技术编号:14774389 阅读:134 留言:0更新日期:2017-03-09 12:01
本发明专利技术公开了一种健壮的复杂背景视频文本定位和抽取方法。主要是解决目前的视频文本定位和抽取方法在复杂背景下不够健壮的难题。在文本定位阶段,本发明专利技术选取角点作为文字的基本特征,然后利用粗定位和精定位相结合的方法实现文本行的定位。粗定位是利用二值文本区域分布图的Area,Saturation,Ratio和Position四个特性得到候选文本区域,最后,利用角点的水平投影和角点密度融合的方法将候选文本区域分割成文本行,实现文本行精确定位并去除伪文本行。文本抽取阶段,通过基于二值图像的极性判断与改进的局部OTSU方法来完成,可以有效的解决复杂背景下的最佳阈值选取和笔画细节丢失的问题。本发明专利技术在各类节目视频文本定位和抽取中具有较高的召回率。

【技术实现步骤摘要】

本专利技术属于视频图像处理领域,具体涉及一种健壮的复杂背景视频文本定位和抽取方法
技术介绍
随着现代科技的快速发展,生活中的很多信息都是通过多媒体的形式传递。其中,视频中的文字是最有用的信息类型之一,这些文本提供了很多有价值的信息,例如节目介绍、场景位置、特别公告、扬声器的名称、赛事比分、日期和时间、房地产走势、新闻事件和视频内容等。文本识别已经有很多现实应用,如视频分类、文档分析、基于视频内容的视频检索、帮助盲人、自动标注、车牌识别等。所以对视频的文本信息进行提取,对理解视频的深层语义信息具有重要意义。现在国内外已有了很多视频文字定位和抽取的算法,主要可以分为基于连通域的、基于纹理的、基于边缘的和基于学习的方法。其中基于连通域的方法定位速度比较快,但是易受图像对比度变化的干扰;基于纹理和边缘的方法定位比较稳定,但却有时间复杂度高的缺点;而基于学习的方法定位好坏完全取决于样本的训练。
技术实现思路
本专利技术针对现有技术中复杂背景下视频文本定位不健壮的问题,提出了一种视频中复杂背景文本的定位和抽取健壮方法。本专利技术的目的是通过以下技术方案来实现的:一种健壮的复杂背景视频文本定位和抽取方法,包括以下步骤:预处理:输入视频帧,将视频帧转化为灰度图像,对视频帧进行角点检测,得到角点二值分布图;文本粗定位:首先利用角点二值分布图通过滑动窗口进行区域合并,形成二值文本区域分布图,然后利用二值文本区域分布图的四个属性过滤掉非文本区域内的角点,实现文本区域粗定位;文本精定位:通过角点水平投影和角点密度融合的方法,实现文本行精定位;文本抽取:对定位后的文本行图像进行基于二值图像的极性判断,然后利用改进的局部OTSU算法计算每一块区域内的阈值,并根据极性判断结果调整为最佳阈值,最后完成文本行的二值化。进一步地,所述的二值文本区域分布图经过区域融合得到,具体是选择一个n*n的矩形框,5≤n≤15,以角点为中心,对矩形框区域内的颜色置为角点颜色,遍历完所有角点,最终得到二值文本区域分布图。进一步地,所述的二值文本区域分布图具有多个连通区域。进一步地,所述的二值文本区域分布图的属性包括:Area,Saturation,Ratio和Position。进一步地,所述的过滤掉非文本区域内的角点是指通过四个属性特征Area,Saturation,Ratio和Position逐步进行过滤,具体是:首先,Area属性过滤是指对当前二值文本区域分布图中的每一个连通区域Area按照面积大小进行排序,过滤掉相对较小的区域Area;然后,Saturation过滤是指计算每个连通区域Area的面积A(Area)与外接矩形框Rect的面积A(Rect)的比例,Saturation=A(Area)/A(Rect),(Saturation∈(0,1)),过滤掉Saturation较小的连通区域;然后,Ratio过滤是指计算每个连通区域外接矩形框的高宽比,过滤掉Ratio大于1:2.5的连通区域;最后,Position过滤方法具体是计算连通区域的位置信息,过滤掉视频帧2/3上部分的连通区域。进一步地,所述的角点水平投影和角点密度融合的方法是指:首先,通过统计每行的角点直方图,利用直方图的波峰波谷将文本区域分割为文本行,其波谷判断依据是将连续q行的角点数小于角点平均值数的1/4或1/3视为波谷,3≤q≤6。然后利用角点密度融合的方法去除文本行的背景区域或伪文本行。进一步地,所述的角点密度融合的方法是指过滤掉文本行残存的背景或去除伪文本行,其过滤规则利用H*1/2H(H为文本行的高度)水平滑动窗口进行水平滑动,去除角点密度小于阈值C的区域,C为角点个数,最后再将矩形框间距小于H的矩形框融合成新的文本行。进一步地,所述的基于二值图像的极性判断是基于局部OTSU二值图像进行的极性判断,首先,利用局部OTSU方法进行文本行的二值化,然后把上述二值图像后的四个边界作为种子像素点,进行四连通域种子填充算法填充,填充值为p,0<p<255,最后计算黑白二值所占的比例,比重大的颜色则为文字的极性。进一步地,所述的根据极性判断结果调整为最佳阈值是指利用局部OTSU算法计算出每个块内的阈值T,但不进行二值化处理。然后利用文本极性判断结果,再修改当前阈值为最佳阈值,最后利用修改后的最佳阈值执行二值化操作。进一步地,所述的修改当前阈值为最佳阈值具体是指,如果极性判断文字颜色为黑色,则新阈值T1=T-T*0.1,反之,白色文字时,新阈值T1=T+T*0.1。本专利技术的有益效果是:在文本定位阶段,本专利技术选取健壮的角点作为文字的基本特征,然后通过粗定位完成候选文本区域的定位,尽可能多的保留文本区域;再利用精定位实现文本区域的文本行的分割和校验。文本抽取阶段,通过基于二值图像的极性判断与局部OTSU相结合的方法完成复杂背景下最佳阈值选取困难的问题。经过对本专利技术的大量实验测试,本专利技术的文本定位和抽取算法对复杂背景视频具有很好的健壮性。附图说明图1为本专利技术方法流程图。具体实施方式以下结合附图对本专利技术作进一步说明。如图1所示,本专利技术提供的一种健壮的复杂背景视频文本定位和抽取方法,包括以下步骤:预处理:输入视频帧,将视频帧转化为灰度图像,对视频帧进行角点检测,得到角点二值分布图;文本粗定位:首先利用角点二值分布图通过滑动窗口进行区域合并,形成二值文本区域分布图,然后利用二值文本区域分布图的四个属性过滤掉非文本区域内的角点,实现文本区域粗定位;文本精定位:通过角点水平投影和角点密度融合的方法,实现文本行精定位;文本抽取:对定位后的文本行图像进行基于二值图像的极性判断,然后利用改进的局部OTSU算法计算每一块区域内的阈值,并根据极性判断结果调整为最佳阈值,最后完成文本行的二值化。进一步地,所述的二值文本区域分布图经过区域融合得到,具体是选择一个n*n的矩形框,5≤n≤15,以角点为中心,对矩形框区域内的颜色置为角点颜色,遍历完所有角点,最终得到二值文本区域分布图。进一步地,所述的二值文本区域分布图具有多个连通区域。进一步地,所述的二值文本区域分布图的属性包括:Area,Saturation,Ratio和Position。进一步地,所述的过滤掉非文本区域内的角点是指通过四个属性特征Area,Saturation,Ratio和Position逐步进行过滤,具体是:首先,Area属性过滤是指对当前二值文本区域分布图中的每一个连通区域Area按照面积大小进行排序,过滤掉相对较小的区域Area;然后,Saturation过滤是指计算每个连通区域Area的面积A(Area)与外接矩形框Rect的面积A(Rect)的比例,Saturation=A(Area)/A(Rect),(Saturation∈(0,1)),过滤掉Saturation较小的连通区域;然后,Ratio过滤是指计算每个连通区域外接矩形框的高宽比,过滤掉Ratio大于1:2.5的连通区域;最后,Position过滤方法具体是计算连通区域的位置信息,过滤掉视频帧2/3上部分的连通区域。进一步地,所述的角点水平投影和角点密度融合的方法是指:首先,通过统计每行的角点直方图,利用直方图的波峰波谷将文本区域分割为文本行,其波谷判断本文档来自技高网...
一种健壮的复杂背景视频文本定位和抽取方法

【技术保护点】
一种健壮的复杂背景视频文本定位和抽取方法,其特征在于,包括以下步骤:预处理:输入视频帧,将视频帧转化为灰度图像,对视频帧进行角点检测,得到角点二值分布图;文本粗定位:首先利用角点二值分布图通过滑动窗口进行区域合并,形成二值文本区域分布图,然后利用二值文本区域分布图的四个属性过滤掉非文本区域内的角点,实现文本区域粗定位;文本精定位:通过角点水平投影和角点密度融合的方法,实现文本行精定位;文本抽取:对定位后的文本行图像进行基于二值图像的极性判断,然后利用改进的局部OTSU算法计算每一块区域内的阈值,并根据极性判断结果调整为最佳阈值,最后完成文本行的二值化。

【技术特征摘要】
1.一种健壮的复杂背景视频文本定位和抽取方法,其特征在于,包括以下步骤:预处理:输入视频帧,将视频帧转化为灰度图像,对视频帧进行角点检测,得到角点二值分布图;文本粗定位:首先利用角点二值分布图通过滑动窗口进行区域合并,形成二值文本区域分布图,然后利用二值文本区域分布图的四个属性过滤掉非文本区域内的角点,实现文本区域粗定位;文本精定位:通过角点水平投影和角点密度融合的方法,实现文本行精定位;文本抽取:对定位后的文本行图像进行基于二值图像的极性判断,然后利用改进的局部OTSU算法计算每一块区域内的阈值,并根据极性判断结果调整为最佳阈值,最后完成文本行的二值化。2.根据权利要求1所述的方法,其特征在于,所述的二值文本区域分布图经过区域融合得到,具体是选择一个n*n的矩形框,5≤n≤15,以角点为中心,对矩形框区域内的颜色置为角点颜色,遍历完所有角点,最终得到二值文本区域分布图。3.根据权利要求2所述的方法,其特征在于,所述的二值文本区域分布图具有多个连通区域。4.根据权利要求1所述的方法,其特征在于,所述的二值文本区域分布图的属性包括:Area,Saturation,Ratio和Position。5.根据权利要求1所述的方法,其特征在于,所述的过滤掉非文本区域内的角点是指通过四个属性特征Area,Saturation,Ratio和Position逐步进行过滤,具体是:首先,Area属性过滤是指对当前二值文本区域分布图中的每一个连通区域Area按照面积大小进行排序,过滤掉相对较小的区域Area;然后,Saturation过滤是指计算每个连通区域Area的面积A(Area)与外接矩形框Rect的面积A(Rect)的比例,Saturation=A(Area)/A(Rect),(Saturation∈(0,1)),过滤掉Saturation较...

【专利技术属性】
技术研发人员:汤景凡王兴起姜明李志涛
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1