整体地名识别方法和整体地名识别装置制造方法及图纸

技术编号:3758369 阅读:177 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及整体地名识别方法和整体地名识别装置。该整体地名识别方法包括用于识别含有某一行政级别地名的地名图像中的地名的整体识别步骤,所述整体识别步骤包括:提取步骤,提取所述地名图像的特征向量;匹配步骤,将所提取的特征向量与地名字典中的地名的特征向量相匹配,寻找所有可能候选地名;其特征在于,当所述地名字典中的地名的特征向量与所提取的特征向量的匹配距离小于预定阈值时就将该地名判断为可能候选地名。

【技术实现步骤摘要】

本专利技术涉及一种地址识别装置及方法。更具体地,涉及一种阅读和 识别任意间距区域内的手写字符地址的地址识别装置及方法。
技术介绍
传统上有两种对手写地址进行识别的方法。第一种传统方法是首先从输入地址图像中提取单字符区域(即只含 有一个字符的区域),并从这些单字符区域中提取关键字符(在手写地 址识别中,关键字符为能够表示行政区域的单一字符,例如省、区、州、 市、县、镇、乡、村等),检测由两个相邻关键字符所限定的地名区域。 为了识别地名区域内的地名,该方法将该地名区域分割成独立的字符, 然后逐个识别这些独立字符。但是,这种传统的地址识别方法存在一定的缺陷,即,将地址分割 成独立字符时常常出现错误。特别是当自由间距区内的地址相互连接紧 密时,该方法尤其容易出错。而由于手写字符常常不太规范、形态各异, 所以这种紧密连接的情况很常见。第二种传统方法也是首先提取字符片断,并检测由两个相邻关键字符所限定的地名区域。它与第一种方法的不同之处在于,这种方法将地 名区域内的地名作为整体来进行识别。图1是该第二种传统方法的详细处理过程的方框图。图1中,字符 分割单元601将输入的地址图像分割成所有可能的单一字符区域。关键字符提取单元602使用字符词典603,对各个可能的单一字符区域进行识 别,判断该区域中的字符是否为关键字符(如省、市、镇、路等)。如果 在该区域中的字符的候选识别字符(即初步判断为可能是该区域中的字 符的字符)中含有多个关键字,则该区域被识别成只选取匹配距离最小的 那个关键字(匹配距离越小,表示该关键字与该字符区域内的图像越相 近)。关键字符集合确定单元604以地址分级结构知识单元605为基础, 将所有可能的关键字符候选对象合并成关键字符路径。每一条关键字符 的路径必须符合如下要求,即前一个关键字符必须是其后所有关键字符 的上级行政单位。例如,省_市-镇就是一条关键字符路径,而省-镇-市 则不是,因为镇并不能下辖市,而市的行政级别可以下辖镇。地名区域 候选对象分割单元606根据关键字符路径中两个相邻关键字符,提取其 限定的地名区域。地名整体识别单元607根据地名识别词典608,以整体 的方式识别地名。单字符识别单元609首先从输入图像中提取既不是地 名也不是关键字符的部分(比如地址为"北京市朝阳区霄云路鹏润大厦B 座1003"中的具体的建筑物名和办公室号码,即"鹏润大厦B座1003"), 然后参考单字符识别词典610将这些部分切割成字符,并逐个识别。地 址确定单元611,使用地址知识单元612中的地址知识,检查识别结果是 否与某个真实地址相符。并比较地址匹配的整体距离是否大于一个给定阈值,如果是,则该识别地址被视为不可靠,系统拒绝识别(拒识);否 则最终输出与真实地址相匹配的结果。图2示出了地名整体识别过程的示意图。在第一级地名匹配过程105 中,首先分割由第一个关键字符限定的地名区域,然后利用地名词典608, 从该地名区域中整体识别出地名。在第二级地名匹配过程106中,首先 分割由第一、第二个关键字符(如果有第二个关键字符的话)所限定的 地名区域,然后参考第一级匹配结果和图1中地名词典608,对该区域进 行识别。例如,如果实际输入的地址是"北京市朝阳区霄云路",关键字 符路径是"市-区-路",由第一个关键字符"市"所限定的第一级地名区 域可识别为"北京"。提取由第一 个关键字符"市"和第二个关键字符"区" 所限定的区域,对其进行整体识别,根据地名词典,将其识别为北京市下面所包括的区。在第三级地名匹配过程107中,首先分割由第二、三 个关键字符(如果有第二个和第三个关键字符)所限定的地名区域,然 后参考第二级匹配结果和地名词典608,识别该区域。依此类推,重复这 一识别过程直至最后一级。在第N级地名匹配过程108中,提取由第N-1、 N个关键字符(如果有第N-l个和第N个关键字符的话)所限定的地名区 域,然后参考第N-1级匹配结果和地名词典608,识别该区域。这个传统方法的一个问题是如果没有提取出正确的关键字符,识 别也会出错,降低了系统精确度。具体而言,这个传统方法提取关键字 符存在两个问题。(1)由于图1中关键字符提取单元602将每个单一字 符区域与单字符字典的所有字符(对汉字而言,有多达几千汉字字符)相 匹配,从而会不可避免地产生关键字识别错误,从而降低了系统的识别精 度。(2)由于关键字符提取单元602仅仅将某字符片段识别成该识别候 选中出现的匹配距离最小的关键字符,因此不可避免地在某些情况下会 出现关键字符识别错误。比如,对某个单一字符区域内的图像实际是 "市",但对该字的按匹配距离排序后的识别候选队列是"天、夫、乡、 巾、市"。则这种传统方法将会把该区域中的字符识别成关键字"乡", 而不会识别为"市"。因此会降低系统精度。这个传统方法存在的另外的一个问题是在整体地名识别中,在前 面的某一地名识别错误的情况下,后面的整个识别结构都会出错。也就 是说,后面的模块高度依赖于之前的模块。当前面的地名识别错误后, 后续的地名识别肯定错误。例如,输入的地名是"北京市朝阳区霄云路", 如果第一级地名匹配单元没有输出正确结果,由市限定的第一个地名被 错误匹配为"北海",那么第二级匹配必然就会错。因为由第一个关键字 符"市"和第二个关键字符"区"所限定的真实的地名"朝阳",在错误 的第一级地名"北海"的行政单位中并不存在。此外,手写的地名常常 形态自由,变化较多,该方法识别的地名就常常与真实地名不符,严重 降低了系统精确度。这个传统方法还存在另外的一个问题,即由于手写地址质量不等、变 化较多的特性,基于固定阈值的拒识标准就会在阅读过程中产生错误。也就是说,若设定的阈值较小,传统方法将拒识大多数低质量的地址; 若设定的阈值较大,传统方法将接受大多数地址识别结果。从而降低了 系统的可靠性。
技术实现思路
本专利技术的第一个目的是提供一种能够高效率地对地址进行识别的地 址识别装置。本专利技术的第二个目的是提供一种能够高精度识别地址的地址识别装本专利技术的第三个目的是提供一种能够可靠地对地址进行识别的地址 识别装置。为了实现本专利技术的目的或至少提供一种有益的选择,本专利技术提供了 一种整体地名识别方法,包括用于识别含有某一行政级别地名的地名图 像中的地名的整体识别步骤,所述整体识别步骤包括提取步骤,提取 所述地名图像的特征向量;匹配步骤,将所提取的特征向量与地名字典 中的地名的特征向量相匹配,寻找所有可能候选地名;其特征在于,当 所述地名字典中的地名的特征向量与所提取的特征向量的匹配距离小于 预定阈值时就将该地名判断为可能候选地名。此外,本专利技术提供了一种整体地名识别装置,包括提取单元,提 取所输入的地名图像的特征向量;地名字典单元,用于保存地名;匹配 单元,将所提取的特征向量与地名字典中的地名的特征向量相匹配,寻 找所有可能候选地名及其匹配距离;其特征在于,当所述地名字典中的 地名的特征向量与所提取的特征向量的匹配距离小于预定阈值时,所述 匹配单元就将该地名判断为可能候选地名。应当理解,以上总体说明和以下详细说明都是说明性和示例性的, 并旨在提供对所要求的本专利技术的进一步说明。附图说明所包含的附图用于提供对本专利技术的进一步理解,其被并本文档来自技高网
...

【技术保护点】
一种整体地名识别方法,包括用于识别含有某一行政级别地名的地名图像中的地名的整体识别步骤,所述整体识别步骤包括: 提取步骤,提取所述地名图像的特征向量; 匹配步骤,将所提取的特征向量与地名字典中的地名的特征向量相匹配,寻找所有可能 候选地名; 其特征在于,当所述地名字典中的地名的特征向量与所提取的特征向量的匹配距离小于预定阈值时就将该地名判断为可能候选地名。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄开竹孙俊堀田悦伸直井聪
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1