本发明专利技术涉及字符识别方法和装置,其中该字符识别方法包括:利用交比从待识别字符的凸包多边形上选择有序的四个点构成的四元组;将待识别字符变换到由所选择的四元组确定的透视不变坐标系中;从变换后的待识别字符中提取特征来获得待识别字符的特征向量;在预先存储的字符类别表中查找与所获得的待识别字符的特征向量匹配的记录,向查找到的记录所对应的字符类别进行投票;对于待识别字符的凸包多边形上的不同四元组重复上述步骤预定次数;以及将获得投票票数最多的字符类别确定为字符识别结果。
【技术实现步骤摘要】
本专利技术涉及模式识别领域,更具体地涉及一种字符识别方法和装置。
技术介绍
对大透视变形下的字符进行识别是一个非常重要的课题,因为识别透视变形的字符是很多实际应用的基础,而且,透视变形的字符广泛存在于我们的日常生活中,例如,真实场景下的字符识别。为了解决这个问题,一种基本方法是首先矫正透视变形的图像到正视图像,然后对矫正后的图像进行传统的OCR(光学字符识别)识别。但是这种方法受到具体应用的限制,如要求存在轮廓和字符线条以及一些结构等。因此技术人员开始专注于对每一个单字 符进行识别。几何哈希算法(Geometric Hashing(GH))是一个通用的基于模型的物体识别算法,该算法在物体经历了各种变换和只有部分信息存在时也可以适用。几何哈希算法的优点在于可以简单并行处理,以及在只存在部分信息时也可以工作的能力。因此,几何哈希算法被用于仿射变换的物体识别和三维物体识别中。使用仿射变换模型来近似透射模型是识别透视变形字符的一种传统方法。M. Iwamura, T. Tsuji, A. Horimatsu和 K. Kise 等人在 2009 年的 ICDAR发表的题为“Realtimecamera-based recognition of characters and pictograms,,的文章中改进了几何哈希算法,并提出了一种对相机拍摄字符进行识别的实时算法。该算法采用仿射模型,为了构建仿射不变坐标系,需要3个坐标点(3元组)作为坐标系的基。采用仿射不变量,即重心和面积比(area ratio)来降低3元组的自由度。然而,由于仿射模型仅在物体的大小比物体与相机之间的距离足够小的条件下,即透视变形较小时,才能被认为是透视模型的近似,而当透视变形较大时,上述近似不再成立。所以,为了识别大透视变形下的字符,需要研发新的方法。另一种识别透视变形字符的现有方法是对于每个字符形成交比谱(cross ratiospectrum),通过比较当前字符的交比谱和模板字符的交比谱来识别字符(参见Linlin Li和 Chew Lim Tan 在 2008 年的 ICPR 发表的题为 “Character recognition under severeperspective distortion”的文章)。这种方法的缺陷是字符识别所需的时间随着待识别字符的类别数量的增长而线性增长。因此这种方法在待识别字符的类别较多的应用中的使用是受到限制的。
技术实现思路
根据本专利技术的第一方面,提供了一种字符识别方法,包括利用交比从待识别字符的凸包多边形上选择有序的四个点构成的四元组;将待识别字符变换到由所选择的四元组确定的透视不变坐标系中;从变换后的待识别字符中提取特征来获得待识别字符的特征向量;在预先存储的字符类别表中查找与所获得的待识别字符的特征向量匹配的记录,向查找到的记录所对应的字符类别进行投票;对于待识别字符的凸包多边形上的不同四元组重复上述步骤预定次数;以及将获得投票票数最多的字符类别确定为字符识别结果。根据本专利技术的第二方面,提供了一种字符识别装置,包括选择单元,被配置用于利用交比从待识别字符的凸包多边形上选择有序的四个点构成的四元组;变换单元,被配置用于将待识别字符变换到由所选择的四元组确定的透视不变坐标系中;提取单元,被配置用于从变换后的待识别字符中提取特征来获得待识别字符的特征向量;投票单元,被配置用于在预先存储的字符类别表中查找与所获得的待识别字符的特征向量匹配的记录,向查找到的记录所对应的字符类别进行投票;重复控制单元,被配置用于对于待识别字符的凸包多边形上的不同四元组重复上述步骤预定次数;以及确定单元,被配置用于将获得投票票数最多的字符类别确定为字符识别结果。 另外,本专利技术的实施例还提供了用于实现上述方法的计算机程序。此外,本专利技术的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。通过本专利技术,可以识别大透视变形下的字符,与传统使用仿射模型的方法相比,本专利技术的识别率更高。另外,本专利技术的方法,在部分信息缺失时仍可以进行识别。本专利技术的方法还可以区分识别不同字体的字符。通过以下结合附图对本专利技术的最佳实施例的详细说明,本专利技术的这些以及其它的优点将更加明显。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中图I示出了根据本专利技术实施例的用于识别字符的方法的流程图;图2A示出了字符‘H’的凸包多边形和内部轮廓;图2B示出了字符‘H’的凸包多边形上的两点之间的线段与内部轮廓的交点的示图;图2C示出了发生了透视变形的字符‘H’的示图;图2D示出了字符‘H’的凸包多边形上的两点之间的线段与字符的内部轮廓上的锯齿相交的示图;图3A示出了图2B和2C中的字符‘H’变换到透视不变坐标系下的示图;图3B示出了选择的无效的四元组变换到透视不变坐标系下的示图;图4A示出了将透视不变坐标系分割成4*4个方块的示图;图4B示出了归一化的直方图;图4C示出了哈希表中的一条记录的示图;图5A-5C分别示出了大透视变形下的、损坏的和缺失的字符的示图;图6示出了根据本专利技术实施例的用于识别字符的装置的组成框图;图7示出了识别字符装置中的提取单元的组成框图;以及图8示出了可用于实施根据本专利技术实施例的方法和装置的计算机的示意性框图。具体实施例方式下面参照附图来说明本专利技术的实施例。在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知的部件和处理的表示和描述。图I示出了根据本专利技术的实施例的用于识别字符的方法的流程图。首先,在步骤S102中,利用交比从待识别字符的凸包多边形上选择有序的四个点构成的四元组。 关于交比(Cross Radio)的基本概念如下如果P。,A, B, P2四点共线,贝U交比Cr定义如下D(Po,B)D(A,P2)Cr(Po, A,B,P2) = —~~,-,D(AfB)D(PofP2)其中,DO表示两点之间的距离。本领域技术人员可知,交比是透视变形中的不变量,S卩,在任何透视变形下,交比Cr(PQ,A,B,P2)保持不变。下面将参照图2A-2D,以字符‘H’为例,详细说明如何在待识别字符的凸包多边形上选择有序的四个点。在本专利技术中,凸包多边形的定义如下凸包多边形是一个多边形,该多边形的顶点是字符的凸包。例如,在图2A中,字符‘H’的凸包多边形由实线表示,而字符‘H’的内部轮廓由虚线表示。对于字符‘H’的凸包多边形上的两点以及该两点之间的线段与字符‘H’的内部轮廓的两个交点计算的交比值在透视变形下保持不变,其中,当交点多于两个时,选用前两个交点来计算交比值。例如,在图2B中,Ptl, P1, P2和P3为字符‘H’的凸包多边形上的点,A和B为线段PtlP2与字符‘H’的内部轮廓的前两个交点,C和D为线段P1P3与字符‘H’的内部轮廓的前两个交点。选定字符‘H’的凸包多边形上的Ptl点,可以确定凸本文档来自技高网...
【技术保护点】
一种字符识别方法,包括:利用交比从待识别字符的凸包多边形上选择有序的四个点构成的四元组;将所述待识别字符变换到由所选择的四元组确定的透视不变坐标系中;从变换后的所述待识别字符中提取特征来获得待识别字符的特征向量;在预先存储的字符类别表中查找与所获得的待识别字符的特征向量匹配的记录,向查找到的记录所对应的字符类别进行投票;对于所述待识别字符的凸包多边形上的不同四元组重复上述步骤预定次数;以及将获得投票票数最多的字符类别确定为字符识别结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:潘攀,朱远平,孙俊,直井聪,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。