基于BP神经网络和频谱分析的视频文字区域定位方法技术

技术编号:18367708 阅读:59 留言:0更新日期:2018-07-05 09:21
基于BP神经网络和频谱分析的视频文字区域定位方法,通过构建BP神经网络对视频帧中的像素点进行分类,对分类到文字类的像素点进行一个基于距离的聚类算法的处理后得到候选文本区域,将候选区域通过快速傅里叶转换到频率域后,再次构建神经网络,基于频谱图对候选区域进行分类,滤除分类为假阳性类的候选区域,从而滤除假阳性。本发明专利技术有益效果:定位准确率高,实用性更加全面。

Video text location method based on BP neural network and spectrum analysis

Based on the BP neural network and spectrum analysis, the video text region location method is used to classify the pixels in the video frame by constructing the BP neural network. The candidate text area is obtained after the processing of a distance based clustering algorithm for the pixel points classified to the text class, and the candidate region is converted to the frequency through the fast Fourier transform. After the rate domain, the neural network is constructed again, the candidate regions are classified based on the spectrum map, and the candidate regions are classified as false positive, thus filtering false positive. The invention has the advantages of high accuracy and high practicability.

【技术实现步骤摘要】
基于BP神经网络和频谱分析的视频文字区域定位方法
本专利技术涉及图像处理
,具体地说是基于BP神经网络和频谱分析的视频文字区域定位方法。
技术介绍
随着多媒体数据呈爆炸性增长,文本、图像、语音、视频等各种形式的多媒体信息都将被传入网上,人们正在飞速进入信息化社会。多媒体信息在网络以及通信中的应用也越来越广泛,尤其以视频数据为代表,该类数据成为人们分享信息的重要资源。视频数据以其丰富、直观而具体的信息表达形式成为最重要的信息载体,为人们传递着大量的信息和知识。其中新闻视频作为视频数据中有代表性的一种媒体,在视频资源中占有重要比例,相对于文本新闻,视频新闻生动、直观、易于理解、信息量大,广泛地受到人们的关注。由于新闻视频的特殊性,绝大部分高层语义都在文本字幕中,而音频和图像特征几乎被文本特征所包含,因此对新闻视频中字幕区域的定位提取就尤为重要。由于文本的颜色、大小、字体和位置是可变的,因此很难找到一种通用的方法将其与背景分离。文本位置方法可以分为两大类:基于区域的方法和基于纹理的方法。这些方法各有优缺点,针对不同的情况选用合适的方法才可以有很好的效果。但大多数方法定位后都包含很多假阳性区域,降低了文本定位的准确率。因此本专利技术提出一种新的方法,基于BP神经网络和频谱分析来对新闻视频字幕区域进行有效地定位并对定位后的假阳性区域进行滤除。
技术实现思路
本专利技术所要解决的技术问题是提供基于BP神经网络和频谱分析的视频文字区域定位方法,解决目前现有方法中存在假阳性的问题,提高算法定位的准确率。本专利技术为解决上述技术问题所采用的技术方案是:基于BP神经网络和频谱分析的视频文字区域定位方法,包括以下步骤:步骤1、提取新闻视频帧,并将所提取的新闻视频帧转化为灰度图像;步骤2、构建BP神经网络作为分类器,将每个图像内的所有像素点进行分类,获得分类为文字类的像素点;步骤3、对步骤2获得的分类为文字类的像素点进行基于距离的聚类处理,获得候选文字区域;步骤4、对步骤3中获得的候选文字区域进行快速傅里叶变换得到频谱图;步骤5、再次构建BP神经网络作为分类器,将候选文字区域分类,滤除假阳性区域。本专利技术所述步骤2构建BP神经网络作为分类器,将每个图像内的所有像素点进行分类的具体方法为:步骤2.1、对图像内的所有像素点进行角点检测,将被判定为角点的像素点赋予特征值1,非角点赋予特征值0;步骤2.2、依次将每个像素点作为中心像素点,取其M*M大小的邻域窗口作为特征窗口;步骤2.3、构建神经网络,将所取窗口内所有像素点的灰度值以及角点判定值作为神经网络的输入,输入层结点的个数m设置为M*M*2个,输出层结点个数n设置为2;步骤2.4、设置隐含层结点,隐含层结点的个数N的设置由公式(1)或(2)计算得到:其中,N表示所设置隐含层结点的个数,m和n分别表示输入层和输出层结点的个数,a为常数;步骤2.5、输出层2个结点分别代表文字类和非文字类,输出为一个包含两个浮点值的向量,标定样本时,将属于文字类的像素点标定为(1,0),将非文字类的像素点标定为(0,1);步骤2.6、对神经网络进行训练和测试,测试样本的像素点的输出向量中,如果第一个值大于第二个值,那么该像素点被分类为文字类,如果第二个值大于第一个值,那么该像素点被分类为非文字类,最后将所有被判定为文字类的像素点进行标记。本专利技术所述步骤3对分类为文字类的像素点进行基于距离的聚类处理,获得候选文字区域的具体方法为:步骤3.1、设置距离阈值d1,在所有被分类为文字类的像素点中,随机选择一个像素点P1作为基本像素点,并计算P1和其它被分类为文字类的像素点之间的欧氏距离,并将欧氏距离小于d1的像素点加入P1的集合G1,直到所有满足条件的像素点都被找到,然后将G1中除P1外的其他像素点依次作为基本像素点进行同样的操作,直到没有新的像素点加入该集合,则集合G1将被分类为K1类;步骤3.2、对所有被分类为文字类的除K1类外的其他像素点依次重复以上操作,直到所有文字类像素点被分类,得到所有的类Kt,t≥1;步骤3.3、将所有包含过少像素点的类清除;步骤3.4、做出每个类的最小外接矩形,即获得了候选文字区域。本专利技术所述步骤4对获得的候选文字区域进行快速傅里叶变换得到频谱图的具体方法为:步骤4.1、对候选文字区域进行图像的二值化;步骤4.2、将二值化后的图像进行竖直方向上的灰度投影;步骤4.3、对投影后的函数进行快速傅里叶变换,将时间域转换到频率域,得到频谱图。本专利技术所述步骤5将候选文字区域分类,滤除假阳性区域的具体方法为:步骤5.1、在频谱图中,选取平均文字宽度的2到3倍大小的特征窗口,此窗口不包含频率1;步骤5.2、构建BP神经网络,将所取窗口范围内频率所对应的的幅值以及平均文字宽度附近频率内最高幅值所处的频率值作为神经网络的输入值,设置输出层结点数为2;步骤5.3、使用公式(1)或公式(2)进行隐含层结点的选取;步骤5.4、2个输出层结点数分别代表真阳性区域(含有文字的候选文字区域)和假阳性区域(不含有文字的候选文字区域),输出为一个包含两个浮点值的向量,标定样本时,将真阳性文字区域标定为(1,0),将假阳性区域标定为(0,1);步骤5.5、对神经网络进行训练和测试,测试样本的候选文字区域的输出向量中,如果第一个值大于第二个值,那么该候选区域将被分类为真阳性类,如果第二个值大于第一个值,那么该候选区域将被分类为假阳性类并予以滤除;步骤5.6、滤除假阳性区域后所剩的真阳性候选文字区域即为最终文字定位区域。本专利技术所述步骤2.1中进行角点检测的方法为Harris角点检测法。本专利技术所述步骤2.4中常数a的取值为1-10。本专利技术所述步骤3.3中被清除的类的像素点的个数小于20个。本专利技术的有益效果是:本专利技术所提供的的方法通过构建BP神经网络对视频帧中的像素点进行分类,对分类到文字类的像素点进行一个基于距离的聚类算法的处理后得到候选文本区域,将候选区域通过快速傅里叶转换到频率域后,再次构建神经网络,基于频谱图对候选区域进行分类,滤除分类为假阳性类的候选区域,从而滤除假阳性,提高算法的准确率,使对于视频文字区域的定位更加准确,实用性更加全面。附图说明图1为本专利技术所涉及定位方法的流程示意图;图2为本专利技术所构建的BP神经网络模型;图3为本专利技术基于距离的广度优先聚类算法图;图4为本专利技术候选文字区域定位例图;图5为本专利技术含有假阳性的候选文字区域定位示例图;图6为本专利技术候选文本区域中真阳性例图;图7为本专利技术候选文本区域中假阳性例图;图8为图6真阳性例图的频谱图;图9为图7假阳性例图的频谱图;图10为图5经过假阳性滤除后的效果图;图11为本专利技术与现有方法在不同情况下定位结果对比图。具体实施方式下面结合说明书附图对本专利技术的具体实施方式(实施例)进行描述,使本领域的技术人员能够更好地理解本专利技术。图1为本专利技术方法的流程图。基于BP神经网络和频谱分析的视频文字区域定位方法,具体分为以下步骤:步骤1:构建如图2所示的BP神经网络模型作为分类器,选用5*5大小的邻域窗口作为特征窗口,设置输入层结点数为50个,隐含层结点数为17个,输出层结点数为2个,对数据集内的视频帧像素点进行人工标注,并进行神经网络的训练和测试。如图3所示,被分类为文本文档来自技高网...
基于BP神经网络和频谱分析的视频文字区域定位方法

【技术保护点】
1.基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:包括以下步骤:步骤1、提取新闻视频帧,并将所提取的新闻视频帧转化为灰度图像;步骤2、构建BP神经网络作为分类器,将每个图像内的所有像素点进行分类,获得分类为文字类的像素点;步骤3、对步骤2获得的分类为文字类的像素点进行基于距离的聚类处理,获得候选文字区域;步骤4、对步骤3中获得的候选文字区域进行快速傅里叶变换得到频谱图;步骤5、再次构建BP神经网络作为分类器,将候选文字区域分类,滤除假阳性区域。

【技术特征摘要】
1.基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:包括以下步骤:步骤1、提取新闻视频帧,并将所提取的新闻视频帧转化为灰度图像;步骤2、构建BP神经网络作为分类器,将每个图像内的所有像素点进行分类,获得分类为文字类的像素点;步骤3、对步骤2获得的分类为文字类的像素点进行基于距离的聚类处理,获得候选文字区域;步骤4、对步骤3中获得的候选文字区域进行快速傅里叶变换得到频谱图;步骤5、再次构建BP神经网络作为分类器,将候选文字区域分类,滤除假阳性区域。2.根据权利要求1所述的基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:所述步骤2构建BP神经网络作为分类器,将每个图像内的所有像素点进行分类的具体方法为:步骤2.1、对图像内的所有像素点进行角点检测,将被判定为角点的像素点赋予特征值1,非角点赋予特征值0;步骤2.2、依次将每个像素点作为中心像素点,取其M*M大小的邻域窗口作为特征窗口;步骤2.3、构建神经网络,将所取窗口内所有像素点的灰度值以及角点判定值作为神经网络的输入,输入层结点的个数m设置为M*M*2个,输出层结点个数n设置为2;步骤2.4、设置隐含层结点,隐含层结点的个数N的设置由公式(1)或(2)计算得到:其中,N表示所设置隐含层结点的个数,m和n分别表示输入层和输出层结点的个数,a为常数;步骤2.5、输出层2个结点分别代表文字类和非文字类,输出为一个包含两个浮点值的向量,标定样本时,将属于文字类的像素点标定为(1,0),将非文字类的像素点标定为(0,1);步骤2.6、对神经网络进行训练和测试,测试样本的像素点的输出向量中,如果第一个值大于第二个值,那么该像素点被分类为文字类,如果第二个值大于第一个值,那么该像素点被分类为非文字类,最后将所有被判定为文字类的像素点进行标记。3.根据权利要求1所述的基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:所述步骤3对分类为文字类的像素点进行基于距离的聚类处理,获得候选文字区域的具体方法为:步骤3.1、设置距离阈值d1,在所有被分类为文字类的像素点中,随机选择一个像素点P1作为基本像素点,并计算P1和其它被分类为文字类的像素点之间的欧氏距离,并将欧氏距离小于d1的像素点加入P1的集合G1,直到所有满足条件的像素点都被找到,然后将G1中除P1外的其他像素点依次作为基本像素点进...

【专利技术属性】
技术研发人员:霍华吕靖李宁波常国沁
申请(专利权)人:河南科技大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1