基于图像内容的关键词搜索方法和装置制造方法及图纸

技术编号:4240645 阅读:258 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种基于图像内容的关键词搜索方法和装置。该关键词搜索装置在所输入的文档图像中搜索并定位所输入的关键词,该关键词搜索装置包括:整体匹配单元,该整体匹配单元从所述文档图像中提取多个候选关键词图像区域,提取所述多个候选关键词图像区域的图像特征,将所述图像特征与所述关键词的特征进行匹配,以获得与所述多个候选关键词图像区域相对应的匹配距离;校验单元,该校验单元对匹配距离小的前N个候选关键词图像区域进行识别,计算识别候选和所述关键词之间的校验距离;过滤单元,该过滤单元计算所述匹配距离和所述校验距离的组合距离,并根据该组合距离滤除组合距离大的候选关键词图像区域。

【技术实现步骤摘要】

本专利技术涉及一种快速并准确地从文档图像中搜索和定位关键词的装 置和方法。更具体地说,涉及用于在用户输入了感兴趣的关键词(例如, "北京"等)时从文档图像中自动、准确地搜索并定位关键词的位置的 装置和方法。
技术介绍
传统的在文档图像中定位关键词的方法通常是利用OCR (光学字符 识别,Optical Character Recognition)技术来实现的。在传统的定位关键 词的方法中,首先对文档图像进行分割,然后对分割出来的单一字符区 域进行识别,将文档图像转换为文本,并且在识别出的文本中搜索关键 词以进行定位。例如,在美国专利申请US 6470336中公开了这种传统的 在文档图像中定位关键词的装置和方法。图l示出了基于OCR技术的传统装置的基本结构及操作流程的方框图。如图1所示,传统装置包括图像分割单元101、单字识别单元102 以及结果搜索单元103。首先,图像分割单元101对所输入的文档图像进 行版面分析和图像分割,以获得一系列的单一字符的图像区域。随后, 单字识别单元102利用OCR技术对通过图像分割单元101获得的单一字 符的图像区域进行识别,以获得各个图像区域的识别结果。结果搜索单 元103在通过单字识别单元102获得的识别结果中搜索关键词,以确定 关键词是否在识别结果中出现。如果出现则返回关键词的出现位置,并 输出搜索定位的结果。这种传统的方法存在很多问题。首先,图像分割单元101很难准确 地对所输入的文档图像进行分割。尤其是在手写文档图像的情况下,由ii于手写体字符本身存在笔画粘连,不同的人的书写风格也不一致,并且 手写体字符没有固定的大小,因此很难界定单一字符区域,从而从手写 文档图像中分割出单一字符的图像区域非常困难,这极大地影响了后续 的单字识别的精度,传统OCR技术很难处理手写文档也主要是因为这个 原因。其次,将所有的字符图像区域识别成单一字符的方法非常耗时。 对于大字符集合(例如亚洲国家的语言,包括汉字、日文等),字符的种类通常很多,例如汉字, 一级汉字和二级汉字一共有6063种。对这种大 类别的识别问题,由于字符的种类繁多,并且近似字符也很多,导致精 度降低(尤其是对于手写体识别)。同时,由于需要对每个字符图像区域 进行识别,导致识别速度进一步下降,从而使得系统的识别效果不是很 好。另外,传统方法中还存在利用隐马尔科夫模型来自动分割文档图像 并定位关键词的方法,例如美国专利申请US 5745600和US 5592568中 所公开的方法。但是这些传统方法缺乏有效的校验措施,从而使得整体 识别率较低。
技术实现思路
鉴于上述传统技术中的问题而提出本专利技术。本专利技术的一个目的是提 供一种高精度的基于图像内容的关键词搜索方法和装置。本专利技术的另一目的是提供一种快速的基于图像内容的关键词搜索方 法和装置。为了实现本专利技术的目的,本专利技术提供了一种利用整体匹配技术来选 择候选关键词图像区域并利用单一字符识别作为校验的方法。根据本专利技术的一个方面,本专利技术提供了一种基于图像内容的关键词 搜索装置,该关键词搜索装置在所输入的文档图像中搜索并定位所输入的关键词,该关键词搜索装置包括整体匹配单元,该整体匹配单元从所述文档图像中提取多个候选关键词图像区域,提取所述多个候选关键 词图像区域的图像特征,将所述图像特征与所述关键词的特征进行匹配,以获得与所述多个候选关键词图像区域相对应的匹配距离;校验单元,12该校验单元对匹配距离小的前N个候选关键词图像区域进行识别,计算 识别候选和所述关键词之间的校验距离;过滤单元,该过滤单元计算所 述匹配距离和所述校验距离的组合距离,并根据该组合距离滤除组合距 离大的候选关键词图像区域。根据本专利技术的另一方面,在根据本专利技术的关键词搜索装置中,所述 整体匹配单元包括连通域分析单元,该连通域分析单元对所述文档图像进行分析,以确定所述文档图像中的连通域;候选区域提取单元,该候选区域提取单元根据所述连通域从所述文档图像中提取所述关键词候选图像区域;特征提取单元,该特征提取单元从所述关键词候选图像区 域中提取特征;特征合成单元,该特征合成单元根据所述关键词中的各 个字符来合成关键词的特征;匹配单元,该匹配单元将所提取的所述关 键词候选图像区域的特征与所述关键词的合成特征进行比较,以获得所 述匹配距离。根据本专利技术的另一方面,在根据本专利技术的关键词搜索装置中,所述 校验单元包括候选字符区域获取单元,该候选字符区域获取单元对于每一个候选关键词图像区域,通过连通域分析来确定候选单一字符图像区域;单字识别单元,该单字识别单元对由所述候选字符区域获取单元 确定的每一个候选单一字符图像区域进行识别,对于每一个候选单一字 符图像区域得到一系列识别候选,从而获得与所有候选单一字符图像区 域相对应识别候选阵列;编辑距离计算单元,该编辑距离计算单元计算 所述识别候选阵列与所述关键词的编辑距离作为所述候选关键词图像区 域的校验距离。根据本专利技术的另一方面,本专利技术还提供了一种基于图像内容的关键 词搜索方法,该关键词搜索方法在所输入的文档图像中搜索并定位所输 入的关键词,该关键词搜索方法包括以下步骤整体匹配步骤,从所述 文档图像中提取多个候选关键词图像区域,提取所述多个候选关键词图 像区域的图像特征,将所述图像特征与所述关键词的特征进行匹配,以 获得与所述多个候选关键词图像区域相对应的匹配距离;校验步骤,对 匹配距离小的前N个候选关键词图像区域进行识别,计算识别候选和所述关键词之间的校验距离;过滤步骤,计算所述匹配距离和所述校验距离的组合距离,并根据该组合距离滤除组合距离大的候选关键词图像区 域。本专利技术的关键词搜索方法不对文档图像进行切分,而是利用连通域 分析提取初步的候选关键词图像区域,并直接从候选关键词图像区域提 取特征,然后与关键词的合成特征进行整体匹配,并对所有的候选关键词图像区域的匹配结果按照匹配距离由小到大进行排序,取前N个候选 关键词图像区域作为候选关键词图像区域。本专利技术的方法不需对文档图 像进行切分,从而避免了传统方法中的切分错误。另外,采用整体匹配 的方法,而不是利用识别技术对每一个字符区域进行识别,将大类别的 识别问题变成了简单的匹配问题,从而能够极大地提高处理的精度和速 度。此外,本专利技术的关键词搜索方法在利用整体匹配方法得到候选关键 词图像区域之后,利用单字识别技术对候选关键词图像区域进行校验。 仅对数量极少的候选关键词图像区域进行校验,避免了对整个图像的切 分识别,从而减少了切分错误的发生,并且极大地提高了处理的速度。此外,本专利技术的关键词搜索方法在整体匹配中,利用了动态规划的 方法来匹配从图像中提取的特征和关键词的合成特征,从而保证了整体 识别的效果,提高了处理的精度。此外,本专利技术的关键词搜索方法在利用单字识别技术对候选关键词 图像区域进行校验的过程中,计算候选关键词图像区域的识别候选与关 键词之间的编辑距离,有效地获得了校验距离,从而能够准确而快速地 获得正确的关键词,因此极大地提高了处理的精度和速度。此外,本专利技术的关键词搜索方法在获得整体匹配的匹配距离和利用 单字识别的校验距离之后,组合这两种距离,以获得组合距离。应当理解,以上总体说明和以下详细说明都是说明性和示例性的, 并旨在提本文档来自技高网
...

【技术保护点】
一种基于图像内容的关键词搜索装置,该关键词搜索装置在所输入的文档图像中搜索并定位所输入的关键词,该关键词搜索装置包括: 整体匹配单元,该整体匹配单元从所述文档图像中提取多个候选关键词图像区域,提取所述多个候选关键词图像区域的图像特征, 将所述图像特征与所述关键词的特征进行匹配,以获得与所述多个候选关键词图像区域相对应的匹配距离; 校验单元,该校验单元对匹配距离小的前N个候选关键词图像区域进行识别,计算识别候选和所述关键词之间的校验距离; 过滤单元,该过滤单元计 算所述匹配距离和所述校验距离的组合距离,并根据该组合距离滤除组合距离大的候选关键词图像区域。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄开竹郑大念孙俊堀田悦伸藤本克仁直井聪
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1