一种脱机手写中文规范地址识别方法技术

技术编号：16152916 阅读：45 留言：0更新日期：2017-09-06 18:18

本发明专利技术属于计算机图像处理的光学字符识别技术领域，具体是一种脱机手写中文规范地址识别方法。本发明专利技术方法首先根据地址库信息提取地址层次关系的关键字，之后通过地址的关键字划分字符串获得地址词语；针对地址词语，在单字识别的基础上利用地址信息库进行验证和纠错。本发明专利技术提出了一种结合特定领域知识进行手写汉字字符串识别的新方法，能够对手写汉字地址进行有效的识别，并提高识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种脱机手写中文规范地址识别方法
本专利技术属于计算机图像处理
，具体涉及一种手写中文规范地址字符的识别方法。
技术介绍
脱机手写字符识别根据识别单元的不同，可以分成三类：单字识别，词语识别和字符行识别。前两者都是基于分割的识别方式，而字符行识别直接将字符串作为识别的基本单元，从而排除了分割错误对识别结果的影响。最为基本和常见的是单字识别，而根据识别手段的不同可以进一步分成3类：基于部首的识别，基于笔画的识别和整体识别。基于部首的识别试图利用中文字符的结构来辅助识别。算法首先从字符中提取偏旁部首，然后依据字符的部首组成来分类字符。基于笔画的识别方式试图将字符完全分割笔画，然后结合笔画数量、类型、顺序和位置等信息进行识别。整体识别忽略了中文字符的内部结构，将单字符视作一个二值图像，使用图像处理的相关方式来解决。大部分算法从原图像中提取有价值的信息，例如方向或梯度特征，然后使用传统机器学习或者深度学习算法进行识别。在识别方面。中文字符的数量众多，并且由于书写方式和习惯的方式不同，相同字符之间也会有很大差异，增加了字符的复杂性和识别的困难程度。在3类单字符识别方式中，整体识别性能最好，但是由于忽略了字符内部结构并且将字符视作图片进行处理，需要更加大量的训练样本。是随着深度网络的发展和图像处理的发展，整体识别渐渐占了优势。基于部首和基于笔画的识别面临着内部分割和部首笔画识别的问题，但是这两种方式能够更好地表示汉字的结构，从理论上能够学习到汉字构成的规则，训练代价小。在手写地址识别方面，目前有研究尝试利用地址中的层次信息来辅助识别，并且该想法在日文地址中已经取...
一种脱机手写中文规范地址识别方法

【技术保护点】
一种脱机手写汉字规范地址识别方法，其特征在于，具体步骤如下：（1）根据地址信息提取地址层次的关键字，构建树状地址数据库；（2）根据关键字划分手写中文地址字符串；（3）利用地址数据库识别地址字符串；其中：步骤（2）所述根据关键字划分中文地址字符串，具体过程如下：（2.1）对于所有手写单字样本，使用分类器进行训练，类别为所有关键字加一个其他类别（X），构成关键字分类器；（2.2）对于手写中文地址图像，将其调整为高为32像素的行图像，并且对图像进行32*32的粗分割；（2.3）对于粗分割后的地址图像，使用关键字分类器进行分类，获得由关键字和其它类别（X）构成的字符串结果；（2.4）根据关键字所在位置，对于原始地址字符串进行划分，获得由关键字分割的地址单词，并且根据关键字和地址单词的位置关系，确定单词地址在树状地址库中的层次；步骤（3）所述利用地址数据库识别地址字符串，具体过程如下：（3.1）对于所有手写单字样本，使用分类器进行训练，类别为所有GB 2312‑80规定的一级汉字，共3755个，构成单字分类器；（3.2）对于地址单词图像，选择合适大小的窗口，提取图像特征，将特征作为输入使用单字识...

【技术特征摘要】
1.一种脱机手写汉字规范地址识别方法，其特征在于，具体步骤如下：（1）根据地址信息提取地址层次的关键字，构建树状地址数据库；（2）根据关键字划分手写中文地址字符串；（3）利用地址数据库识别地址字符串；其中：步骤（2）所述根据关键字划分中文地址字符串，具体过程如下：（2.1）对于所有手写单字样本，使用分类器进行训练，类别为所有关键字加一个其他类别（X），构成关键字分类器；（2.2）对于手写中文地址图像，将其调整为高为32像素的行图像，并且对图像进行32*32的粗分割；（2.3）对于粗分割后的地址图像，使用关键字分类器进行分类，获得由关键字和其它类别（X）构成的字符串结果；（2.4）根据关键字所在位置，对于原始地址字符串进行划分，获得由关键字分割的地址单词，并且根据关键字和地址单词的位置关系，确定单词地址在树状地址库中的层次；步骤（3）所述利用地址数据库识别地址字符串，具体过程如下：（3.1）对于所有手写单字样本，使用分类器进行训练，类别为所有GB2312-80规定的一级汉字，共3755个，构成单字分类器；（3.2）对于地址单词图像，选择合适大小的窗口，提取图像特征，将特征作为输入使用单字识别器进行分类，并且根据边缘概率，由高到低保留3个最可能的识别结果，作为候选字列表；以窗口长度作为步长滑动窗口，提取下一区域内的图像特征，按照相同方式进行识别，直到字符串识别结束；（3.3）在地址单词候选字的所有组合中，根据地址数据库选择可能性最大的组合作为最终识别结果；（3.4）将单词识别结果和关键字识别结果结合，获得最终的地址识别结果。2.根据权利要求1所述方法，其特征在于，步骤（2）中所述构建关键字分类器，具体过程如下：（2.1.1）将32*32图像作为输入，构建深度学习网络，输出所有关键字和一个其它类别（X）作为分类结果；（2.1.2）深度学习网络一共有11层，由8层卷积层，2层全连接层和1层softmax层构成，每两层卷积层中有1层最大池化层；卷积层均使用3*3的窗口，池化层均使用...

【专利技术属性】
技术研发人员：刘谦，王丹青，路红，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人