基于视频图像的字符和图像识别系统和方法技术方案

技术编号：4245195 阅读：155 留言：0更新日期：2012-04-11 18:40

一种基于视频或多幅图像的图像拼接方法，包括步骤：ａ）获取包括文本的视频帧或图像；ｂ）从连续的视频帧或多幅图像中选取视频帧或图像；ｃ）从步骤ｂ）选取的视频帧或图像中提取文本区域或去除背景区域；ｄ）拼接连续的视频帧或图像，或拼接连续的视频帧或图像的字符识别结果。通过本发明专利技术可以提高ＯＣＲ系统的运用范围，从传统的单一图像到连续的视频信号，特别是一些特殊的ＯＣＲ应用系统，比如基于视频的名片识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理和模式识别领域，特别涉及基于视频图像的字符和图像识别系统和方法。
技术介绍
目前常见的图像识别系统中与文本识别相关的应用大都采用OCR(光学字符识别技术)，并已经取得非常成功的运用，被广泛应用于车牌识别，证件/名片识别，文档电子化等领域。但是，这些现有的OCR系统或版面分析系统的识别对象大都只针对输入完整图像中的文本，给出的识别结果中也只存在文本信息，而在输入完整图像中所存在的图像如LOGO等信息，则不进行识别而抛弃或者作为图像被存储下来。因而，往往会丢失大量有用的信息。另外，照片图像，即成像一次会得到一张静止的图像，经常会受到光照和抖动等影响造成图像质量太差而无法识别，然而视频多次成像的方式可以在有效的弥补这类问题。并且因为传统的OCR技术大多是处理静止的图像，成像传感器的大小限制了一幅清晰图像的大小，所以一幅图像往往只能涵盖有限的目标文字目标区域，从而使识别系统无法处理大幅面的文本。比如大幅海报，报纸等，同时也无法处理非平面的文本，比如贴在圆柱体上的海报等。如果使用照相机进行多次照相，然后再进行照相拼接后进行识别，虽然最终可以取得相应的识别结果，但是大大增加了过程中人为干预的工作量。例如为了拍一幅较大的全景图，往往需要标定好多个位置，然后逐一拍摄，最后进行半自动合成，这样以来，必然增加了前期输入所需时间。同时，可以看出虽然一个视频可以包含待识别的完整图像，但是通常视频的每一帧图像可能只包含全部文本信息的部分文本图像块。如何组织视频帧的文本信息和图像信息，最终输出整个文本图像和特定种类的图像块，...

【技术保护点】
一种基于视频或多幅图像的图像拼接方法，包括步骤：　ａ）获取包括文本的视频帧或图像；　ｂ）从连续的视频帧或多幅图像中选取视频帧或图像；　ｃ）从步骤ｂ）选取的视频帧或图像中提取文本区域或去除背景区域；　ｄ）拼接连续的视频帧或图像，或拼接连续的视频帧或图像的字符识别结果。

【技术特征摘要】
1. 一种基于视频或多幅图像的图像拼接方法，包括步骤a)获取包括文本的视频帧或图像；b)从连续的视频帧或多幅图像中选取视频帧或图像；c)从步骤b)选取的视频帧或图像中提取文本区域或去除背景区域；d)拼接连续的视频帧或图像，或拼接连续的视频帧或图像的字符识别结果。2. 根据权利要求l所述的方法，其特征在于所述步骤d)拼接连续的视频帧或图像包括.-选取一副图像或视频帧为参考图像或视频帧，相应的另外一副图像为合并图像，提取参考和合并图像或视频帧字符区域的边缘、轮廓等图像特征作为特征点；通过特征点的匹配，找出参考和合并图像或视频帧的匹配模型，并计算基于匹配模型的相似度；当最佳匹配相似度大于指定阈值时，对合并图像做基于匹配模型变换，将变换后的合并图像与参考图像合并。3. 根据权利要求2所述的方法，其特征在于所述图像变换包括缩放、平移及旋转等。4. 根据权利要求2所述的方法，其特征在于所述变换模型包括通过估计图像特征点的变换模型的参数从而计算图像的缩放、平移及旋转等变换。5. 根据权利要求2所述的方法，其特征在于所述图像合并包括对于合并图像和参考图像非重叠的区域采用直接填充的方式；而重叠区域取两幅图像的均值或最大/小值或其他数学计算。6. 根据权利要求l所述的方法，其特征在于所述步骤d)拼接连续的视频帧或图像的字符识别结果包括按照图像或视频的输入顺序，通过OCR系统...

【专利技术属性】
技术研发人员：陈又新，欧文武，王炎，罗恒亮，王华，
申请(专利权)人：三星电子株式会社，北京三星通信技术研究有限公司，
类型：发明
国别省市：KR[韩国]

全部详细技术资料下载我是这个专利的主人