使用全卷积神经网络的字符识别的系统和方法技术方案

技术编号:21841224 阅读:28 留言:0更新日期:2019-08-10 21:37
本公开的实施例包括一种用于从经数字化的对象中提取符号的方法。该方法包括参照词典处理单词块。该方法包括将单词块与词典中的单词进行比较,该比较提供置信度因子。该方法包括当置信度因子大于预定阈值时输出等于该单词的预测结果。该方法包括在置信度因子小于预定阈值时评估单词块的属性。该方法包括基于单词块的属性来预测单词块的值。该方法还包括确定单词块的预测值的错误率。该方法包括输出单词块的值,该输出等于与具有最低错误率的单词块的值相对应的计算值。

A Character Recognition System Using Full Convolutional Neural Network

【技术实现步骤摘要】
【国外来华专利技术】使用全卷积神经网络的字符识别的系统和方法相关申请的交叉引用本申请要求2016年11月14日提交的题为“SYSTEMANDMETHODOFCHARACTERRECOGNITIONUSINGFULLYCONVOLUTIONALNEURALNETWORKS”的美国临时申请序列No.62/422,000,以及2017年6月26日提交的题为“SYSTEMANDMETHODOFCHARACTERRECOGNITIONUSINGFULLYCONVOLUTIONALNEURALNETWORKSWITHATTENTION”的共同未决的美国临时申请序列No.62/524,983,以及2017年9月19日提交的题为“SYSTEMANDMETHODOFCHARACTERRECOGNITIONUSINGFULLYCONVOLUTIONALNEURALNETWORKS”的美国专利申请序列No.15/709,014以及2017年9月19日提交的标题为“SYSTEMANDMETHODOFCHARACTERRECOGNITIONUSINGFULLYCONVOLUTIONALNEURALNETWORKSWITHATTENTION”的共同未决的美国专利申请序列No.15/708,918的优先权和权益,它们的全部公开内容由此以它们的整体出于所有目的通过引用并入本文。
技术介绍
1.专利
本公开涉及数字式字符识别。更具体地,本公开涉及用于手写文本或数字化的文本的数字字符识别的系统和方法。2.相关技术的描述智能字符识别(ICR)的任务是破解数字化手写文本。在某些系统中,基于位于文本块之间的空白空间提取手写文本的行和区段。从那里,可以利用基于词典的识别系统来确定文本块的上下文内容。然而,手写文本实际上具有无限种不同的样式,因为没有两个手写符号是相同一致的,并且手写文本是以转录文本的人的书写风格为基础的,因此通常与光学字符识别(OCR)相关联的传统方法可能不会产生令人满意的结果。因此,各种神经网络(例如,卷积神经网络、循环神经网络等)可以与各种技术一起使用,以改进对手写文本的识别。由于对OCR中使用的技术的依赖,这些方法可能是处理密集的,或产生不充分的结果。现在可以理解,需要手写文本的数字字符识别的经改进的方法。卷积神经网络(CNN)彻底改革了计算机视觉和模式识别领域,特别是离线手写识别。Jaderberg等人在自然图像中使用CNN进行OCR任务。Poznanski和Wolf使用深度CNN来提取n-gram,所述n-gram馈送到标准相关分析(CCA)以进行最终的单词识别。虽然这种方法在具有固定词汇的应用中表现良好,但增加词汇的大小会显著影响性能。更重要的是,具有电话号码、姓氏、街道地址等的应用可能具有无限的词典。循环神经网络(RNN),诸如长短期记忆(LSTM)单元,将图像分割成段并将其作为输入序列进行读取。链结式时间分类(CTC)进一步消除了精确对齐的需要。Xie等人使用CNN以输入多层LSTM网络以进行手写汉字识别。类似的技术也被用于自然图像中的文本识别。Sun等人使用深度卷积层,然后使用多维RNN。Voigtlaender等人使用交替的卷积层,然后使用多维RNN。Voigtlaender等人在段落等级上执行ICR以包括语言环境。目前的全卷积神经网络(FCN)方法采用任意大小的图像和输出区域等级分类来同时进行检测和分类。手写单词块具有任意长度,并且可以从FCN方法中受益。通过使用初始CNN来计算单词块中的符号的数目,可以将单词块尺寸调整为调整到FCN架构的标准高度。知道了平均符号宽度,该FCN然后可以在没有CTC后处理的情况下执行准确的符号预测。离线手写识别比在线手写识别更具挑战性。在在线手写识别中,可以从笔轨迹和图像获得特征,而在离线手写识别中,仅可以使用静止图像获得特征。在这两种情况下,传统上已从数据中提取输入特征,然后使用诸如人工神经网络(ANN)或高斯混合模型(GMM)之类的分类器来估计后验概率。给出这些后验概率作为隐马尔可夫模型(HMM)的输入以生成转录。HMM的一个主要缺点是它们无法在输入数据中模拟长期依赖关系。然而,诸如长短期记忆(LSTM)单元的循环神经网络(RNN)可以帮助解决该缺点。LSTM可以模拟长依赖关系,并且已经显示出在例如语音识别、机器翻译、视频摘要等序列学习任务中的改进。使用深度神经网络的一个优点是输入可以是未处理的数据,诸如图像的原始像素,而不是在先前的方法中提取特定的特征。到RNN的输入通常是1D(1维)的。例如,在在线手写识别中,它是笔画网格值。但在离线识别中,输入是2D(2维)图像。一种简单的方式是将图像的每一列作为1D矢量并将其馈送作为到RNN的输入。但是,这不能处理沿竖直轴的扭曲。如果像素向下移动一个像素,则相同的图像看起来会不同。处理这个问题的另一种方法是使用多维RNN,多维RNN从几个方向(例如,左、右、顶部和底部)获取上下文信息。这个想法是使用空间信息和时间信息两者。链结式时间分类(CTC)的使用使得能够在没有任何先前分段的情况下使用输入,而不是在先前方法中将输入进行强制对齐。CTC算法的一个主要优点是你不需要正确分割的标记数据。CTC算法负责输入与输出的对齐。传统方法中的识别手写字符涉及提取用于分类的特征、提取用于分割的特征、以及解析,从而映射字符之间的空间关系以用于识别。将文本分割为行、单词和字符需要复杂的方法。分割不受约束的手写单词或字符比键入的文本困难得多,因为文本可以上下起伏。Huang和Srihari描述了一种将不受约束的文本的行分成单词的方法。他们提出了一种基于间隙度量的方法来执行分割出单词的任务。他们提取了局部特征,例如当前成对的组成部分之间的距离、前一对组成部分和下一对组成部分之间的距离、左侧组成部分和右侧组成部分的宽度和高度以及全局的组成部分,比如经分组的组成部分的平均高度、宽度以及组成部分之间的平均距离等。一些方法不是分割单词而是分割字符。Gader等人提出利用在字符图像的水平方向和竖直方向上从背景像素移动到前景像素时的信息来进行字符分割。基于从左到右、从右到左、从上到下和从下到上方向的遍历来执行转译。每当从背景到前景遇到转译时,计算像素的位置与在该方向上跨越该图像的距离之间的比率。Liu和Blumenstein提出了使用他们称之为修改方向特征的转译和方向特征的组合进行字符识别。对于每次转译,使用成对的转译位置和转译方向进行分割。在字符识别中使用交叉特征,其中的想法是找到线与字符轨迹相交的次数。如果线在多个位置相交,则可以使用第一个和最后一个交点来描述符号的形状。Doetsch等人提出用于英文离线手写识别的混合RNN-HMM。为了获得逐帧标注,他们将HMM应用于训练数据。然后将这些帧用作具有对应的目标标注的到RNN的输入。对系统进行训练以获得后验概率,后验概率产生用于HMM的发射概率,发射概率用于产生对于给定输入的转录。他们引入了一种新技术,通过对RNN每层中的每个门使用标量倍数来缩放LSTM存储单元的门。LSTM门的缩放技术将字符错误率(CER)降低了0.3%。Bluche等人比较了卷积神经网络(CNN)和连带HMM以进行转录的传统特征提取技术。CNN使用滑本文档来自技高网...

【技术保护点】
1.一种系统,包括:至少一个处理器;以及存储器,所述存储器包括有指令,所述指令在被所述至少一个处理器执行时使得所述系统:接收经数字化的对象,所述经数字化的对象对应于包括至少一个符号的图像;通过确定所述经数字化的对象中的空白分隔符,从所述经数字化的对象形成数字化的行块;将所述行块转换成由空白来分隔的一个或多个单词块,所述一个或多个单词块具有与形成所述一个或多个单词块的至少一个符号相关联的值;将所述一个或多个单词块中的每个单词块的尺寸调整至固定高度的标准表示;用词典评估所述一个或多个单词块中的每个单词块,所述词典包含常见单词的集合;当所述单词块中的一个或多个单词块与所述集合中的单词相对应时,输出第一单词预测结果;当所述一个或多个单词块与所述集合不对应时,确定所述一个或多个单词块中的每个单词块中的多个符号和多个空格;评估所述一个或多个单词块中的所述符号,所述评估对与所述一个或多个单词块中的所述符号相关联的值进行确认;对所述一个或多个单词块执行盖然性校正;以及输出第二单词预测结果,所述第二单词预测结果对应于所述单词块的所述值。

【技术特征摘要】
【国外来华专利技术】2016.11.14 US 62/422,000;2017.06.26 US 62/524,983;1.一种系统,包括:至少一个处理器;以及存储器,所述存储器包括有指令,所述指令在被所述至少一个处理器执行时使得所述系统:接收经数字化的对象,所述经数字化的对象对应于包括至少一个符号的图像;通过确定所述经数字化的对象中的空白分隔符,从所述经数字化的对象形成数字化的行块;将所述行块转换成由空白来分隔的一个或多个单词块,所述一个或多个单词块具有与形成所述一个或多个单词块的至少一个符号相关联的值;将所述一个或多个单词块中的每个单词块的尺寸调整至固定高度的标准表示;用词典评估所述一个或多个单词块中的每个单词块,所述词典包含常见单词的集合;当所述单词块中的一个或多个单词块与所述集合中的单词相对应时,输出第一单词预测结果;当所述一个或多个单词块与所述集合不对应时,确定所述一个或多个单词块中的每个单词块中的多个符号和多个空格;评估所述一个或多个单词块中的所述符号,所述评估对与所述一个或多个单词块中的所述符号相关联的值进行确认;对所述一个或多个单词块执行盖然性校正;以及输出第二单词预测结果,所述第二单词预测结果对应于所述单词块的所述值。2.根据权利要求1所述的系统,其中,所述指令在被执行时还使得所述至少一个处理器将所述一个或多个单词块中的每个单词块的尺寸调整为标准的宽度间隔,其中,所述宽度是以在所述单词块中的符号的数目的预测结果为基础的。3.根据权利要求1所述的系统,其中,盖然性校正包括:将单词概率分配给所述一个或多个单词块中的每个单词块,所述概率是与形成所述单词块的每个符号的可能性相关联的;以及将所述一个或多个单词块与词典单词进行匹配,所述匹配包括在所述一个或多个单词块中插入符号、删除符号或替换符号以与词典单词相对应。4.根据权利要求1所述的系统,其中,使用神经网络执行对所述符号的所述值的确认,所述神经网络包括进行与所述符号的所述值相关联的预测的感受野的层级。5.根据权利要求4所述的系统,其中,所述神经网络是全卷积神经网络,并且所述感受野的层级能够包括位于每个符号之前或之后的所述符号的多个部分。6.根据权利要求5所述的系统,其中,所述符号出现在不同的行块上,所述符号是不同句子的一部分,所述符号是不同段落的一部分,或者所述符号位于所述经数字化的对象的不同页面上。7.一种由计算机实现的方法,包括:获得单词块输入,所述单词块输入包括至少一个符号;对照词典来处理所述单词块,所述词典包含最常见单词的集合;将所述单词块与所述词典中的单词进行比较,所述比较提供所述单词块对应于所述单词的置信度因子;当所述置信度因子大于预定阈值时,输出等于所述单词的预测结果;当所述置信度因子小于所述预定阈值时,评估所述单词块的属性,所述属性是所述单词块的长度和所述单词块中的符号的数目中的至少一者;基于所述单词块的所述属性来预测所述单词块的值;确定所述单词块的预测值的错误率,所述错误率对应于被预测的单词与来自所述词典的一个或多个单词之间的经计算的差值;以及输出所述单词块的值,所述输出等于当所述置信度因子小于所述预定阈值时与具有最低错误率的所述单词块的值相对应的计算值。8.根据权利要求7所述的由计算机实现的方法,还包括:接收数字图像,所述数字图像包括所述至少一个符号;从所述数字图像中提取文本区域;将所述文本区域分割成文本行;将所述文本行分割成一个或多个单词块,所述一个或多个单词块包括所述至少一个符号。9.根据权利要求7所述的由计算机实现的方法,还包括:对所述单词块进行尺寸调整,所述尺寸调整对应于所述单词块的高度或宽度中的至少一者,所述尺寸调整使得所述单词块...

【专利技术属性】
技术研发人员:费利佩·彼得罗斯基·萨奇雷蒙德·普图查弗兰克·布罗克勒保罗·胡特考斯基瓦特拉·辛格
申请(专利权)人:柯达阿拉里斯股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1