当前位置: 首页 > 专利查询>复旦大学专利>正文

一种脱机手写中文规范地址识别方法技术

技术编号:16152916 阅读:45 留言:0更新日期:2017-09-06 18:18
本发明专利技术属于计算机图像处理的光学字符识别技术领域,具体是一种脱机手写中文规范地址识别方法。本发明专利技术方法首先根据地址库信息提取地址层次关系的关键字,之后通过地址的关键字划分字符串获得地址词语;针对地址词语,在单字识别的基础上利用地址信息库进行验证和纠错。本发明专利技术提出了一种结合特定领域知识进行手写汉字字符串识别的新方法,能够对手写汉字地址进行有效的识别,并提高识别的准确度。

【技术实现步骤摘要】
一种脱机手写中文规范地址识别方法
本专利技术属于计算机图像处理
,具体涉及一种手写中文规范地址字符的识别方法。
技术介绍
脱机手写字符识别根据识别单元的不同,可以分成三类:单字识别,词语识别和字符行识别。前两者都是基于分割的识别方式,而字符行识别直接将字符串作为识别的基本单元,从而排除了分割错误对识别结果的影响。最为基本和常见的是单字识别,而根据识别手段的不同可以进一步分成3类:基于部首的识别,基于笔画的识别和整体识别。基于部首的识别试图利用中文字符的结构来辅助识别。算法首先从字符中提取偏旁部首,然后依据字符的部首组成来分类字符。基于笔画的识别方式试图将字符完全分割笔画,然后结合笔画数量、类型、顺序和位置等信息进行识别。整体识别忽略了中文字符的内部结构,将单字符视作一个二值图像,使用图像处理的相关方式来解决。大部分算法从原图像中提取有价值的信息,例如方向或梯度特征,然后使用传统机器学习或者深度学习算法进行识别。在识别方面。中文字符的数量众多,并且由于书写方式和习惯的方式不同,相同字符之间也会有很大差异,增加了字符的复杂性和识别的困难程度。在3类单字符识别方式中,整体识别性能最好,但是由于忽略了字符内部结构并且将字符视作图片进行处理,需要更加大量的训练样本。是随着深度网络的发展和图像处理的发展,整体识别渐渐占了优势。基于部首和基于笔画的识别面临着内部分割和部首笔画识别的问题,但是这两种方式能够更好地表示汉字的结构,从理论上能够学习到汉字构成的规则,训练代价小。在手写地址识别方面,目前有研究尝试利用地址中的层次信息来辅助识别,并且该想法在日文地址中已经取得了优异的成果。该方法提取了地址中的关键字,并且列举了所有可能的关键字的组合。然后对于地址字符串采取部首全分割,再重组的方式来提取关键字,其中关键字固定组合用来验证关键字的识别结果。字符串分割之后的地名词组使用词语识别,在训练时保存一个动态的词典。尽管因为汉字更为复杂的结构和中国地址更多的组合方式导致在中文地址上的效果不如日文优异,但是仍然通过实验证明了结合特定领域知识可以提升识别准确率。此外还有探讨有限地址书写区域对于汉字字符串分割和识别影响的相关研究。研究提出了基于笔画全分割的新型分割算法,对于解决笔画重合问题有重要意义。将整个字符串笔画全部分割,然后由笔画重新组合成部首,在部首重组成字符时,利用字典信息来选择最佳的组合方式。该算法验证了能够在笔画重合度较高的情况下保持识别的鲁棒性。但是目前,在中文字符串的识别上仍然未能取得较为满意的结果,成为目前研究的一个热点问题。
技术实现思路
本专利技术的目的在于提供一种代价小、效率高、准确率高的脱机手写中文规范地址识别方法,以提高手写识别在现实使用场景下的实用性。本专利技术提供的脱机手写中文规范地址识别方法,利用关键字提取和中文地址中的层次关系等技术,更好地实现地址的分割,并且通过树状地址数据库对识别结果进行验证,从而提高识别的准确度,其具体步骤如下:(1)提取地址层次的关键字,构建树状地址数据库;(2)根据关键字划分手写中文地址字符串;(3)利用地址数据库识别地址字符串。其中:步骤(2)所述根据关键字划分中文地址字符串,具体过程如下:(2.1)对于所有手写单字样本,使用分类器进行训练,类别为所有关键字加一个其他类别(X),构成关键字分类器;(2.2)对于手写中文地址图像,将其调整为高为32像素的行图像,并且对图像进行32*32的粗分割;(2.3)对于粗分割后的地址图像,使用关键字分类器进行分类,获得由关键字和其它类别(X)构成的字符串结果;(2.4)根据关键字所在位置,对于原始地址字符串进行划分,获得由关键字分割的地址单词,并且根据关键字和地址单词的位置关系,确定单词地址在树状地址库中的层次。步骤(3)所述利用地址数据库识别地址字符串,具体过程如下:(3.1)对于所有手写单字样本,使用分类器进行训练,类别为所有GB2312-80规定的一级汉字,共3755个,构成单字识别器;(3.2)对于地址单词图像,选择合适大小的窗口(一般为32*32),提取图像特征,将特征作为输入,使用单字识别器进行分类,并且根据边缘概率,由高到低保留3个最可能的识别结果,作为候选字列表;以窗口长度作为步长滑动窗口,提取下一区域内的图像特征,按照相同方式进行识别,直到字符串识别结束;(3.3)在地址单词候选字的所有组合中,根据地址数据库选择可能性最大的组合作为最终识别结果;(3.4)将单词识别结果和关键字识别结果结合,获得最终的地址识别结果。可选地,步骤(2)中所述构建关键字分类器,具体过程如下:(2.1.1)将32*32图像作为输入,构建深度学习网络,输出所有关键字和一个其它类别(X)作为分类结果;(2.1.2)深度学习网络一共有11层,由8层卷积层,2层全连接层和1层softmax层构成,每两层卷积层中有1层最大池化层。卷积层均使用3*3的窗口,池化层均使用2*2,8层卷积层分别使用0.0,0.1,0.1,0.2,0.2,0.3,0.3,0.4作为drop因子,2层全连接层使用0.5和0.0作为drop因子。可选地,步骤(2)中所述根据关键字对原始地址字符串进行划分,具体过程如下:(2.4.1)在地址树的每个结点保存一个长度,表示其下一级地址的最大长度和最短长度;(2.4.2)对于根据关键字划分出来地址,判断是否在这一个范围内,如果小于最短长度,则和下一个地址单词合并;如果大于最短长度,则重新识别关键字。可选地,步骤(3)中所述构建单字识别器,具体过程如下:(2.1.1)将32*32图像作为输入,构建深度学习网络,输出所有GB2312-80规定的一级汉字,共3755个,作为分类结果;(2.1.2)深度学习网络一共有11层,由8层卷积层,2层全连接层和1层softmax层构成,每两层卷积层中有1层最大池化层。卷积层均使用3*3的窗口,池化层均使用2*2,8层卷积层分别使用0.0,0.1,0.1,0.2,0.2,0.3,0.3,0.4作为drop因子,2层全连接层使用0.5和0.0作为drop因子。可选地,步骤(3)中所述选取候选字组合中可能性最大的组合,具体过程如下:(3.3.1)对于候选字列表,首先根据该字符串已经识别出的地址,限定待识别地址字符串在树状地址库中的范围;(3.3.2)在该限定范围内查找以第1个字的最大可能候选为开头的地址,如果不存在,那么直接选择下一候选项;否则,继续查找;(3.3.3)以第1,2个字的当前最大可能候选项为前缀的地址,如果不存在,则选择第2个字下一候选项,如果第2个字所有候选项均无法和地址库匹配,则反过来选择第1个字的下一候选项;(3.3.4)如果第1个字所有候选项均无法匹配,以1像素为步长滑动原始窗口,重新进行步骤(3.2)的识别。以此类推,直到字符串的识别结果和地址库结果匹配,作为最后识别结果。与现有技术相比,本专利技术的有益效果为:1、实现了一种准确率高,鲁棒性好的手写中文地址的识别准确率。通过结合地址的特定领域知识,提高了单字识别的容错率。在地址识别过程中,更多依赖于地址库的查询与匹配,在单字识别错误的时候可以根据地址库数据进行纠正,因此可以保证算法在不同情况下的鲁棒性;2、使得手写中文地址识别本文档来自技高网
...
一种脱机手写中文规范地址识别方法

【技术保护点】
一种脱机手写汉字规范地址识别方法,其特征在于,具体步骤如下:(1)根据地址信息提取地址层次的关键字,构建树状地址数据库;(2)根据关键字划分手写中文地址字符串;(3)利用地址数据库识别地址字符串;其中:步骤(2)所述根据关键字划分中文地址字符串,具体过程如下:(2.1)对于所有手写单字样本,使用分类器进行训练,类别为所有关键字加一个其他类别(X),构成关键字分类器;(2.2)对于手写中文地址图像,将其调整为高为32像素的行图像,并且对图像进行32*32的粗分割;(2.3)对于粗分割后的地址图像,使用关键字分类器进行分类,获得由关键字和其它类别(X)构成的字符串结果;(2.4)根据关键字所在位置,对于原始地址字符串进行划分,获得由关键字分割的地址单词,并且根据关键字和地址单词的位置关系,确定单词地址在树状地址库中的层次;步骤(3)所述利用地址数据库识别地址字符串,具体过程如下:(3.1)对于所有手写单字样本,使用分类器进行训练,类别为所有GB 2312‑80规定的一级汉字,共3755个,构成单字分类器;(3.2)对于地址单词图像,选择合适大小的窗口,提取图像特征,将特征作为输入使用单字识别器进行分类,并且根据边缘概率,由高到低保留3个最可能的识别结果,作为候选字列表;以窗口长度作为步长滑动窗口,提取下一区域内的图像特征,按照相同方式进行识别,直到字符串识别结束;(3.3)在地址单词候选字的所有组合中,根据地址数据库选择可能性最大的组合作为最终识别结果;(3.4)将单词识别结果和关键字识别结果结合,获得最终的地址识别结果。...

【技术特征摘要】
1.一种脱机手写汉字规范地址识别方法,其特征在于,具体步骤如下:(1)根据地址信息提取地址层次的关键字,构建树状地址数据库;(2)根据关键字划分手写中文地址字符串;(3)利用地址数据库识别地址字符串;其中:步骤(2)所述根据关键字划分中文地址字符串,具体过程如下:(2.1)对于所有手写单字样本,使用分类器进行训练,类别为所有关键字加一个其他类别(X),构成关键字分类器;(2.2)对于手写中文地址图像,将其调整为高为32像素的行图像,并且对图像进行32*32的粗分割;(2.3)对于粗分割后的地址图像,使用关键字分类器进行分类,获得由关键字和其它类别(X)构成的字符串结果;(2.4)根据关键字所在位置,对于原始地址字符串进行划分,获得由关键字分割的地址单词,并且根据关键字和地址单词的位置关系,确定单词地址在树状地址库中的层次;步骤(3)所述利用地址数据库识别地址字符串,具体过程如下:(3.1)对于所有手写单字样本,使用分类器进行训练,类别为所有GB2312-80规定的一级汉字,共3755个,构成单字分类器;(3.2)对于地址单词图像,选择合适大小的窗口,提取图像特征,将特征作为输入使用单字识别器进行分类,并且根据边缘概率,由高到低保留3个最可能的识别结果,作为候选字列表;以窗口长度作为步长滑动窗口,提取下一区域内的图像特征,按照相同方式进行识别,直到字符串识别结束;(3.3)在地址单词候选字的所有组合中,根据地址数据库选择可能性最大的组合作为最终识别结果;(3.4)将单词识别结果和关键字识别结果结合,获得最终的地址识别结果。2.根据权利要求1所述方法,其特征在于,步骤(2)中所述构建关键字分类器,具体过程如下:(2.1.1)将32*32图像作为输入,构建深度学习网络,输出所有关键字和一个其它类别(X)作为分类结果;(2.1.2)深度学习网络一共有11层,由8层卷积层,2层全连接层和1层softmax层构成,每两层卷积层中有1层最大池化层;卷积层均使用3*3的窗口,池化层均使用...

【专利技术属性】
技术研发人员:刘谦王丹青路红
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1