字符识别装置、字符识别程序以及字符识别方法制造方法及图纸

技术编号:4123301 阅读:168 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供字符识别装置、字符识别程序以及字符识别方法,即使是接触字符和基于纵横比变形字符的字符串也能正确进行字符识别。该字符识别装置具有:字符串图像取得单元,其取得字符串图像;测定字符长度取得单元,其从字符串图像取得单元所取得的字符串图像中,针对多个字符取得对字符串方向的字符长度进行测定而得的测定字符长度;字符临时识别单元,其通过临时匹配处理对测定字符长度内的字符进行临时识别;标准字符长度确定单元,其根据能够临时识别的字符的测定字符长度来确定标准字符长度;字符截取单元,其根据标准字符长度,从字符串图像中截取作为识别对象的全部字符;以及字符识别单元,其通过正式匹配处理对截取出的字符进行正式识别。

【技术实现步骤摘要】

本专利技术涉及例如识别字符的。
技术介绍
一直以来利用以下的字符识别技术通过数字照相机等摄像单元或数字扫描仪等来取得字符图像数据,并识别该字符图像数据内的字符。在该字符识别技术中,从字符串中截取字符并将截取的字符与词典数据进行匹配,由此来识别字符。在这样的字符识别中,针对例如字符与字符相接触的情况以及下述状况的字符等,产生很难截取正确字符的情况,该状况的字符是指由在字符串方向上分离的多个字符要素组成的分离字符(例如,横写字符串中的「州」和「川」,竖写文书中的「二」和「三」等)、或由原本单独的字符要素组成的字符,因模糊而分离成多个字符要素。已提出一些从这种包含接触字符或分离字符的字符串中也能进行正确字符截取的方法,这些方法是在推定了字符宽度后进行字符截取的(参照专利文献1 5)。但是,在这些专利文献所述的技术中仍存在问题点。详细地说,专利文献1所述的字符识别装置是在字符宽度固定的前提下进行字符截取的。因此,该字符识别装置无法良好地应对全角字符和半角字符混合的字符串。专利文献2所述的字符识别装置预先针对全角字符和半角字符分别准备预定的字符宽度并进行字符截取。因此,可以应对全角字符和半角字符混合的字符串。但是,无法应对如中国所采用的纵横比例变形的字符。即,例如在中国的指示牌、广告牌及餐饮店的菜单等中,使用如图IO(A)所示由变形成竖长的竖长字符构成的字符串、或如图IO(B)所示由 变形成横宽的横宽字符构成的字符串等各种横竖比例变形的字符。并且, 专利文献2所述的字符识别装置是以预定的字符宽度为前提,所以存在 无法良好地应对这种横竖比例变形字符的问题。另外,专利文献3所述的字符识别装置以预定的字符宽度为前提, 考虑所提取的字符是一个字符的情况和是两个字符的情况二者。但是, 专利文献3与上述专利文献2的情况相同,由于以预定的字符宽度为前 提,因此无法良好地应对由竖长字符构成的字符串或由横宽字符构成的 字符串等基于横竖比例变形字符的字符串。另外,上述专利文献4所述的字符识别装置假定全角字符的横竖比 例大致接近1:1。因此,与上述专利文献2、 3同样,无法良好地应对由 竖长字符构成的字符串或由横宽字符构成的字符串等基于横竖比例变形 字符的字符串。另外,上述专利文献5所述的字符识别装置根据使黑像素(相当于字 符的像素)投影到与字符串垂直的方向上而得的数据,来制作投影字符宽 度的直方图,将其峰值作为字符宽度。因此,可能可以应对由竖长字符 构成的字符串或由横宽字符构成的字符串等基于横竖比例变形字符的字 符串。但是,例如在如图IO(C)所示存在接触字符的情况下,由于接触字 符的影响导致峰值成为W2,将实际字符宽度Wl的倍数的尺寸W2推定 为字符宽度。专利文献1日本特开平5-128308号公报专利文献2日本特开平5-128307号公报专利文献3日本特开平3-53393号公报专利文献4日本特开平7-271911号公报专利文献5日本特开平1-78395号公报
技术实现思路
本专利技术是着眼于上述的现有问题而完成的,其目的是提供即使是接 触字符和基于横竖比例变形字符的字符串也能够正确地进行字符识别的。本专利技术提供一种字符识别装置,其特征是具有字符串图像取得单 元,其取得字符串图像;测定字符长度取得单元,其从由上述字符串图像取得单元取得的字符串图像中,针对多个字符取得对字符串方向的字符长度进行测定而得的测定字符长度;字符临时识别单元,其通过临时 匹配处理对取得的测定字符长度内的字符进行临时识别;标准字符长度 确定单元,其根据能够临时识别的字符的上述测定字符长度来确定标准 字符长度;字符截取单元,其根据所确定的标准字符长度,从上述字符 串图像中截取作为识别对象的全部字符;以及字符识别单元,其通过正 式匹配处理对截取出的字符进行正式识别。上述字符串图像取得单元例如是CCD照相机或CMOS照相机等摄 像单元、或者从这样的摄像单元接收该摄像单元拍摄的字符串图像数据 的接口等,可以由能够取得图像的适当单元来构成。关于上述字符串方向,如果字符纵向排列则为纵向,如果字符横向 排列则为横向等,可以设为排列字符的适当方向。上述字符长度是指字符串方向上1个字符的长度,例如可以设为1 字符在字符串方向上的像素数量。上述字符临时识别单元例如可以是从字符图像中提取特征数据、将 该特征数据与词典数据的特征数据进行匹配并识别是哪个字符的单元。 此外,所谓能够临时识别可以是以被认为能够识别正确字符的程度得到 匹配置信度的情况。关于上述标准字符长度确定单元,由将多个测定字符长度的平均值 作为标准字符长度的平均字符长度运算单元构成,或者由提取多个测定 字符长度最集中的值的集中值提取单元构成等,可由确定标准字符长度 的适当单元来构成。上述字符识别单元例如可以是从字符图像中提取特征数据、将该特 征数据与词典数据的特征数据进行匹配并识别是哪个字符的单元。上述字符识别装置由半导体芯片等装置构成,或者由具有摄像单元、 控制单元和存储单元的携带电话或PDA等信息处理终端来构成等,可以由适当的装置构成,上述半导体芯片具有执行信息处理的CPU等信息 处理部、进行信息存储的存储器等信息存储部以及与外部装置连接的连 接端子等接口部。根据本专利技术,即使是接触字符和基于横竖比例变形字符的字符串, 也能够正确地进行字符识别。作为本专利技术的方式,可以构成为当通过上述临时匹配处理临时识 别的字符是上述字符串图像的字符串方向上配置的2个部首字符结合而 成的1个结合字符时,上述标准字符长度确定单元从用于确定上述标准 字符长度的测定字符长度中除去该结合字符的测定字符长度。上述结合字符可以是字符串方向为左右方向时由左偏旁和右偏旁组 成的字符,或者是字符串方向为上下方向时由字盖和字底组成的字符。上述部首字符可以是相当于字符串方向为左右方向时上述结合字符 的左偏旁或右偏旁的字符,或者是字符串方向为上下方向时由上述结合 字符的字盖或字底构成的字符。由此,可以防止将2个字符的字符长度用作1个字符的字符长度。 具体而言例如考虑下述情况针对字符"日"和字符"月"按顺序排列两个的 字符串,错误地临时识别成"日"和"月"结合而成的1个字符"明"。在这样 的情况下,由于临时识别出的"明"是结合字符,因此可以除去"明"的测定 字符长度。因此,能够防止将"日"和"月"这2个字符的字符长度误用为 "明"这1个字符的测定字符长度。此外作为本专利技术的方式,可以构成为当通过上述临时匹配处理临时识别的字符是字符串方向前后的任意一个字符与该字符结合时能够形 成1个结合字符的部首字符时,上述标准字符长度确定单元从用于确定 上述标准字符长度的测定字符长度中除去该部首字符的测定字符长度。由此,能够防止将结合字符的部首字符的测定字符长度误用为1个 字符的测定字符长度。具体而言考虑下述情况在临时识别"明"这1个 字符时,错误地临时识别为"日"和"月"这2个字符。在这样的情况下,能 够除去可成为部首字符的"日"和"月"的测定字符长度。因此,能够防止将 部首字符的测定字符长度误用为1字符的测定字符长度。8可构成为所述字符截取单元制作将上述字符串图像投影到与字符 串方向垂直的方向上而成的投影数据,并执行第1截取处理,该第1截 取处理是截取从该投影数据的分开处本文档来自技高网
...

【技术保护点】
一种字符识别装置,该字符识别装置具有: 字符串图像取得单元,其取得字符串图像; 测定字符长度取得单元,其从由上述字符串图像取得单元取得的字符串图像中,针对多个字符取得对字符串方向的字符长度进行测定而得的测定字符长度; 字符 临时识别单元,其通过临时匹配处理对取得的测定字符长度内的字符进行临时识别; 标准字符长度确定单元,其根据能够临时识别的字符的上述测定字符长度来确定标准字符长度; 字符截取单元,其根据所确定的标准字符长度,从上述字符串图像中截取作 为识别对象的全部字符;以及 字符识别单元,其通过正式匹配处理对截取出的字符进行正式识别。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:相泽知祯
申请(专利权)人:欧姆龙株式会社
类型:发明
国别省市:JP[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1