基于视频图像的字符和图像识别系统和方法技术方案

技术编号:4245195 阅读:155 留言:0更新日期:2012-04-11 18:40
一种基于视频或多幅图像的图像拼接方法,包括步骤:a)获取包括文本的视频帧或图像;b)从连续的视频帧或多幅图像中选取视频帧或图像;c)从步骤b)选取的视频帧或图像中提取文本区域或去除背景区域;d)拼接连续的视频帧或图像,或拼接连续的视频帧或图像的字符识别结果。通过本发明专利技术可以提高OCR系统的运用范围,从传统的单一图像到连续的视频信号,特别是一些特殊的OCR应用系统,比如基于视频的名片识别。

【技术实现步骤摘要】

本专利技术涉及图像处理和模式识别领域,特别涉及基于视频图像的字 符和图像识别系统和方法。
技术介绍
目前常见的图像识别系统中与文本识别相关的应用大都采用OCR(光 学字符识别技术),并已经取得非常成功的运用,被广泛应用于车牌识别, 证件/名片识别,文档电子化等领域。但是,这些现有的OCR系统或版面 分析系统的识别对象大都只针对输入完整图像中的文本,给出的识别结 果中也只存在文本信息,而在输入完整图像中所存在的图像如LOGO等 信息,则不进行识别而抛弃或者作为图像被存储下来。因而,往往会丢 失大量有用的信息。另外,照片图像,即成像一次会得到一张静止的图像,经常会受到 光照和抖动等影响造成图像质量太差而无法识别,然而视频多次成像的 方式可以在有效的弥补这类问题。并且因为传统的OCR技术大多是处理静止的图像,成像传感器的大 小限制了一幅清晰图像的大小,所以一幅图像往往只能涵盖有限的目标 文字目标区域,从而使识别系统无法处理大幅面的文本。比如大幅海报, 报纸等,同时也无法处理非平面的文本,比如贴在圆柱体上的海报等。如果使用照相机进行多次照相,然后再进行照相拼接后进行识别, 虽然最终可以取得相应的识别结果,但是大大增加了过程中人为干预的 工作量。例如为了拍一幅较大的全景图,往往需要标定好多个位置, 然后逐一拍摄,最后进行半自动合成,这样以来,必然增加了前期输入 所需时间。同时,可以看出虽然一个视频可以包含待识别的完整图像,但是通 常视频的每一帧图像可能只包含全部文本信息的部分文本图像块。如何组织视频帧的文本信息和图像信息,最终输出整个文本图像和特定种类 的图像块,以及识别结果都是本专利技术要解决的问题。目前OCR系统可以提取和识别静止图像上的文字,如果输入是文档 图像,OCR系统还可以识别文档图像的版面,甚至输出与原文档图像有 相同版面的电子文档;。比如ABBYY公司的FineReader, nuance公司的 OmniPage等,这类静止图像可以通过扫描,拍照或者多幅拼接的方式 获得。与本专利技术相关
中包括自然场景文本检测,识别和视频字幕检测,跟踪识别技术,其中自然场景文本检测和识别处理的目标是自然场景中文本,比如广告牌,路牌上的文字区域等。例如X. Chen and A丄.Yuille在文献[AdaBoost Learning for Detecting and Reading Text in City Scenes]中提到了一种基于adaboost的文本检测和识别方法和 Christian Wolf and Jean-Michel Jolion在[Extraction and recognition of Artificial Text in Multimedia Documents]提出了基于边缘密度的文字检 测方法,这些方法的目标文本区域都是路标等简短文字,通常默认整个 路标在一幅图像内,不涉及到多幅图像中属于同一文本区域的拼接和识 别问题。视频字幕检测,跟踪和识别的目标是视频的字幕,例如Rainer Lienhart, and Axel Wernicke在[Localizing and Segmenting Text in Images and Videos]中提出了一种基于神经网络的视频字幕检测和跟踪方法。通 过视频字幕跟踪可以跟踪到同一字幕在不同帧上的位置,通过利用多帧 信息提高视频字幕的识别率。与自然场景文字检测和识别一样,视频字 幕通常比较简短,同一字幕会在一帧视频中完整出现,同样没有涉及到 多帧图像的拼接识别问题。基于静态图像的字符和图像识别系统因为成像时客观条件限制容易 造成图像质量太差导致识别率低下,甚至无法识别,并且这种信息如果 不能及时反馈给用户,那么就可能会较大的增加用户的工作量,并有可 能造成无法挽回的损失。基于静态图像的字符和图像识别系统往往因为成像范围有限以至于 无法一次处理大幅文本或非平面文本,并且相对而言视频拍摄的方式通常比照片拍摄的方式更为方便。比如对一张报纸的不同区域拍照,使的 报纸的每个区域至少被一张图像涵盖的方式非常不方便,并且将多幅图 像拼接出原有报纸的图像也非常困难。而通过基于视频的识别系统,我 们可以灵活选择拼接方式以获得完整图像,并可以结合视频过程中获得 的拍摄方向等信息在获得完整图像前进行预识别,并不断修正达到理想 的效果。
技术实现思路
本专利技术的目的是提供一种。按照本专利技术的一方面, 一种基于视频或多幅图像的图像拼接方法,包括步骤a) 获取包括文本的视频帧或图像;b) 从连续的视频帧或多幅图像中选取视频帧或图像;C)从步骤b)选取的视频帧或图像中提取文本区域或去除背景区域;d)拼接连续的视频帧或图像,或拼接连续的视频帧或图像的字符识别结果。按照本专利技术的另一方面, 一种基于视频或多幅图像的图像拼接系统,包括视频获取模块,用于获取包括文本的视频帧或图像; 视频帧筛选模块,用于从连续的视频帧或多幅图像中选取视频帧或 图像;文字和非文字区分模块,从视频帧筛选楱块选取的视频帧或图像中提取文本区域或去除背景区域;视频拼接模块,拼接连续的视频帧或图像为图像,或拼接连续的视 频帧或图像的字符识别结果;输出模块,用于输出拼接后的图像或识别结果。通过本专利技术可以提高OCR系统的运用范围,从传统的单一图像到连 续的视频信号,特别是一些特殊的OCR应用系统,比如基于视频的名片 识别。附图说明图1是基于视频图像的字符和图像识别系统框图2是基于视频的文本图像拼接系统流程'图3是图像拼接流程图4是基于视频的文本识别系统流程图;: 图5是文本识别流程图; 图6是基于视频的文本图像拼接系统; 图7是基于视频的文本识别系统。具体实施例方式本专利技术用到的一些术语和定义如下文档版面是指文档各单元在文档图像上的相对位置和逻辑关系,通 常的用户要求系统根据原来文档图像,创建相同内容和版面的电子文档。图像或视频帧添加是指图像或视频帧区域的拷贝,即将图像或视频 帧部分或全部拷贝到另外一幅图像的指定区域。阅读顺序,是指字符的阅读先后关系,比如同一行的文字通常阅读 顺序是从左到右,而行与行之间为从上到下,这里所指的阅读顺序包括 行与行之间和同一行字符之间的阅读关系。文本检测,是指从视频帧或图像中检测文本区域及其在视频帧或图 像上的位置。文本跟踪,是指根据目标文本区域的在当前视频帧或图像上的位置和 特征,跟踪其在相邻的视频帧或其他图像上的位置,并计算目标文本 区域和当前跟踪文本区域的相似度。OCR系统,即光学字符识别系统。 完整图像为本系统在一次完整操作中输入的所有图像,具体在 基于静止图像的OCR系统中为一张静止图像,在基于视频图象的本 系统中是一次完整摄入视频通过拼接算法后得到的图像。 非文字信息,即输入完整图像中除了文字信息以外的所有信息,包含 版面信息、色彩信息、特别是完整图像中如徽标等子图像信息。本专利技术所描述的文本和图像识别系统包含了对文本进行识别的模块和 非文本信息的识别模块。 本专利技术的具体构成包括如下部分1) 图像输入模块获取包含文本信息或非文本信息的视频和图像的 模块,其物理构成包括图像传感器,摄像头等可以得到视频数字 图像的装置;2) 版面拼接模块版面拼接同时基于图像和识别结果,根据本文档来自技高网
...

【技术保护点】
一种基于视频或多幅图像的图像拼接方法,包括步骤: a)获取包括文本的视频帧或图像; b)从连续的视频帧或多幅图像中选取视频帧或图像; c)从步骤b)选取的视频帧或图像中提取文本区域或去除背景区域; d)拼接连续的视频 帧或图像,或拼接连续的视频帧或图像的字符识别结果。

【技术特征摘要】
1. 一种基于视频或多幅图像的图像拼接方法,包括步骤a)获取包括文本的视频帧或图像;b)从连续的视频帧或多幅图像中选取视频帧或图像;c)从步骤b)选取的视频帧或图像中提取文本区域或去除背景区域;d)拼接连续的视频帧或图像,或拼接连续的视频帧或图像的字符识别结果。2. 根据权利要求l所述的方法,其特征在于所述步骤d)拼接连续的视频帧或图像包括.-选取一副图像或视频帧为参考图像或视频帧,相应的另外一副图像 为合并图像,提取参考和合并图像或视频帧字符区域的边缘、轮廓等图像特征作为特征点;通过特征点的匹配,找出参考和合并图像或视频帧的匹配模型,并 计算基于匹配模型的相似度;当最佳匹配相似度大于指定阈值时,对合并图像做基于匹配模型变 换,将变换后的合并图像与参考图像合并。3. 根据权利要求2所述的方法,其特征在于所述图像变换包括缩放、 平移及旋转等。4. 根据权利要求2所述的方法,其特征在于所述变换模型包括通过 估计图像特征点的变换模型的参数从而计算图像的缩放、平移及旋转等 变换。5. 根据权利要求2所述的方法,其特征在于所述图像合并包括对 于合并图像和参考图像非重叠的区域采用直接填充的方式; 而重叠区域取两幅图像的均值或最大/小值或其他数学计算。6. 根据权利要求l所述的方法,其特征在于所述步骤d)拼接连 续的视频帧或图像的字符识别结果包括按照图像或视频的输入顺序,通过OCR系统...

【专利技术属性】
技术研发人员:陈又新欧文武王炎罗恒亮王华
申请(专利权)人:三星电子株式会社北京三星通信技术研究有限公司
类型:发明
国别省市:KR[韩国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利