【技术实现步骤摘要】
本专利技术属于计算机视觉的光学字符识别(OCR)的预处理领域,涉 及一种基于连通分量和支持向量机的真实场景图像或视频序列图像中 文本的定位方法和装置,用于智能数字图像分析和理解。
技术介绍
数字图像或视频帧中的文本拥有大量的语义信息,比如路标,广 告,指示标语等。因此一个鲁棒的针对复杂背景图像中的文本定位方法, 并联合文宇识别会带来各种实际的运用,例如基于内容的视频索引和 图像的检索,汽车辅助驾驶,移动机器人的视觉导航等应用。将该方法 加上一个机器翻译系统有助于国际游客克服语言上的障碍。然而由于在 复杂背景图像中文本定位上的困难,传统的针对扫描得到的文档图像的 光学字符识别很难直接运用到针对一般图像中的字符识别。为了能够识 别嵌入在复杂图像中的文字,首先需要能够很好的定位复杂图像中的字 符区域的准确边框,才能很好利用已有的光学字符识别技术。近年来,已有很多研究机构开展了这方面的研究工作,提出了一些方法,而且取得了一定的效果,参考,ZhongY.,KaryK.,JainA.K.的论 文(题目"Locating text in complex color image ...
【技术保护点】
一种基于连通分量和支持向量机的图像文本定位置方法,其特征在于,步骤如下:步骤S1:将需要定位的图像根据其灰度值信息进行图像的分割处理,获得图像分层结果;步骤S2:对分割后的每一层作为前景进行连通域分析,得到候选字符连通分量集 合;步骤S3:提取候选字符连通分量的特征,并用一个级联阈值分类器的结构排除非字符连通分量;每个阈值分类器的阈值通过统计样本数据获得;步骤S4:对使用级联阈值分类器未被排除的候选字符连通分量,采用基于支持向量机的分类方法进行是 否是字符连通分量的分类,支持向量机的特征向量为上述获取的所有字符连通 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:姚金良,杨一平,台宪青,薛文芳,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。