Based on the BP neural network and spectrum analysis, the video text region location method is used to classify the pixels in the video frame by constructing the BP neural network. The candidate text area is obtained after the processing of a distance based clustering algorithm for the pixel points classified to the text class, and the candidate region is converted to the frequency through the fast Fourier transform. After the rate domain, the neural network is constructed again, the candidate regions are classified based on the spectrum map, and the candidate regions are classified as false positive, thus filtering false positive. The invention has the advantages of high accuracy and high practicability.
【技术实现步骤摘要】
基于BP神经网络和频谱分析的视频文字区域定位方法
本专利技术涉及图像处理
,具体地说是基于BP神经网络和频谱分析的视频文字区域定位方法。
技术介绍
随着多媒体数据呈爆炸性增长,文本、图像、语音、视频等各种形式的多媒体信息都将被传入网上,人们正在飞速进入信息化社会。多媒体信息在网络以及通信中的应用也越来越广泛,尤其以视频数据为代表,该类数据成为人们分享信息的重要资源。视频数据以其丰富、直观而具体的信息表达形式成为最重要的信息载体,为人们传递着大量的信息和知识。其中新闻视频作为视频数据中有代表性的一种媒体,在视频资源中占有重要比例,相对于文本新闻,视频新闻生动、直观、易于理解、信息量大,广泛地受到人们的关注。由于新闻视频的特殊性,绝大部分高层语义都在文本字幕中,而音频和图像特征几乎被文本特征所包含,因此对新闻视频中字幕区域的定位提取就尤为重要。由于文本的颜色、大小、字体和位置是可变的,因此很难找到一种通用的方法将其与背景分离。文本位置方法可以分为两大类:基于区域的方法和基于纹理的方法。这些方法各有优缺点,针对不同的情况选用合适的方法才可以有很好的效果。但大多数方法定位后都包含很多假阳性区域,降低了文本定位的准确率。因此本专利技术提出一种新的方法,基于BP神经网络和频谱分析来对新闻视频字幕区域进行有效地定位并对定位后的假阳性区域进行滤除。
技术实现思路
本专利技术所要解决的技术问题是提供基于BP神经网络和频谱分析的视频文字区域定位方法,解决目前现有方法中存在假阳性的问题,提高算法定位的准确率。本专利技术为解决上述技术问题所采用的技术方案是:基于BP神经网络和频 ...
【技术保护点】
1.基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:包括以下步骤:步骤1、提取新闻视频帧,并将所提取的新闻视频帧转化为灰度图像;步骤2、构建BP神经网络作为分类器,将每个图像内的所有像素点进行分类,获得分类为文字类的像素点;步骤3、对步骤2获得的分类为文字类的像素点进行基于距离的聚类处理,获得候选文字区域;步骤4、对步骤3中获得的候选文字区域进行快速傅里叶变换得到频谱图;步骤5、再次构建BP神经网络作为分类器,将候选文字区域分类,滤除假阳性区域。
【技术特征摘要】
1.基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:包括以下步骤:步骤1、提取新闻视频帧,并将所提取的新闻视频帧转化为灰度图像;步骤2、构建BP神经网络作为分类器,将每个图像内的所有像素点进行分类,获得分类为文字类的像素点;步骤3、对步骤2获得的分类为文字类的像素点进行基于距离的聚类处理,获得候选文字区域;步骤4、对步骤3中获得的候选文字区域进行快速傅里叶变换得到频谱图;步骤5、再次构建BP神经网络作为分类器,将候选文字区域分类,滤除假阳性区域。2.根据权利要求1所述的基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:所述步骤2构建BP神经网络作为分类器,将每个图像内的所有像素点进行分类的具体方法为:步骤2.1、对图像内的所有像素点进行角点检测,将被判定为角点的像素点赋予特征值1,非角点赋予特征值0;步骤2.2、依次将每个像素点作为中心像素点,取其M*M大小的邻域窗口作为特征窗口;步骤2.3、构建神经网络,将所取窗口内所有像素点的灰度值以及角点判定值作为神经网络的输入,输入层结点的个数m设置为M*M*2个,输出层结点个数n设置为2;步骤2.4、设置隐含层结点,隐含层结点的个数N的设置由公式(1)或(2)计算得到:其中,N表示所设置隐含层结点的个数,m和n分别表示输入层和输出层结点的个数,a为常数;步骤2.5、输出层2个结点分别代表文字类和非文字类,输出为一个包含两个浮点值的向量,标定样本时,将属于文字类的像素点标定为(1,0),将非文字类的像素点标定为(0,1);步骤2.6、对神经网络进行训练和测试,测试样本的像素点的输出向量中,如果第一个值大于第二个值,那么该像素点被分类为文字类,如果第二个值大于第一个值,那么该像素点被分类为非文字类,最后将所有被判定为文字类的像素点进行标记。3.根据权利要求1所述的基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:所述步骤3对分类为文字类的像素点进行基于距离的聚类处理,获得候选文字区域的具体方法为:步骤3.1、设置距离阈值d1,在所有被分类为文字类的像素点中,随机选择一个像素点P1作为基本像素点,并计算P1和其它被分类为文字类的像素点之间的欧氏距离,并将欧氏距离小于d1的像素点加入P1的集合G1,直到所有满足条件的像素点都被找到,然后将G1中除P1外的其他像素点依次作为基本像素点进...
【专利技术属性】
技术研发人员:霍华,吕靖,李宁波,常国沁,
申请(专利权)人:河南科技大学,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。