基于OCR和双向LSTM的文字序列纠错算法、系统及其设备技术方案

技术编号:16780062 阅读:243 留言:0更新日期:2017-12-13 00:11
基于OCR和双向LSTM的文字序列纠错算法、系统及其设备,所述方法包括:S1,获取文字图像;S2,所述文字图像经过OCR预处理得到第一序列集合X={x0,x1,...,xm};S3,将正序的{x0,x1,…,xm}以及反序的{xm,xm‑1,...,x0}输入双向LSTM构建的编码器中得到语境向量c;S4,所述语境向量c经双向LSTM构建的解码器解码分别获得第二序列集合Y。所述系统包括图像采集模块、OCR处理模块、双向LSTM构建的编码器、双向LSTM构建的解码器。所述设备用于搭载所述方法的执行程序。

Text sequence error correction algorithm, system and its equipment based on OCR and bidirectional LSTM

A text sequence correction algorithm, system and equipment based on OCR and bidirectional LSTM. The method includes: S1, acquiring text and image; S2, the text image is obtained through OCR preprocessing to get the first sequence set X = {x0, x1,... Xm}; S3, the positive sequence of {x0, S3,... Xm}, and the reverse order of {xm, XM 1,..., x0} input bidirectional LSTM encoder in the context of constructing vector C; S4 decoder decodes the context vector C by two-dimensional LSTM constructs were obtained second Y sequences. The system includes the image acquisition module, the OCR processing module, the encoder of the bidirectional LSTM, and the decoder of the bidirectional LSTM construction. The device is used to carry the execution program of the method.

【技术实现步骤摘要】
基于OCR和双向LSTM的文字序列纠错算法、系统及其设备
本专利技术涉及图像文字识别过程中机器翻译领域,尤其涉及基于OCR和双向LSTM的文字序列纠错算法、系统及其设备。
技术介绍
近年来,随着机器学习的迅猛发展,各种机器翻译算法层出不穷,被广泛应用的有OCR文字识别算法。OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。然而,由于图像光照、角度等影响,OCR识别文字算法精度很难达到期望。
技术实现思路
为了解决上述技术问题,本专利技术提出基于OCR和双向LSTM的文字序列纠错算法。系统及其设备,它能够有效的提高文字序列识别的准确度。为了实现上述目的,本专利技术的技术方案为:基于OCR和双向LSTM的文字序列纠错算法,适用于图像中文字的识别,包括步骤:S1,获取文字图像;S2,所述文字图像经过OCR预处理得到第一序列集合X={x0,x1,...,xm};S3,将正序的{x0,x1,…,xm}以及反序的{xm,xm-1,...,x0}输入双向LSTM构建的编码器中得到语境向量c;S4,所述语境向量c经双向LSTM构建的解码器解码分别获得第二序列集合Y。步骤S3中所述的语境向量c为:c=Φ({h1,h2,…,hTS});ht=f(xt,ht-1)。步骤S4中所述的第二序列集合Y为:Y=(y0,y1,…,yn);st=f(yt-1,st-1,c);p(yt|y<t,X)=g(yt-1,st,c)。步骤S1中所述的文字图像为快递单图像。步骤S2中所述的OCR预处理的阈值为系统允许的最低reliability阈值。基于OCR和双向LSTM的文字序列纠错系统,包括:图像采集模块,用于获取文字图像;OCR处理模块,用于对所述文字图像进行OCR预处理得到第一序列集合X={x0,x1,...,xm};双向LSTM构建的编码器,用于对正序的{x0,x1,…,xm}以及反序的{xm,xm-1,...,x0}进行编码得到语境向量c;双向LSTM构建的解码器,用于对所述语境向量c进行解码分别获得第二序列集合Y。基于OCR和双向LSTM的文字序列纠错设备,包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行:S1,获取文字图像;S2,所述文字图像经过OCR预处理得到第一序列集合X={x0,x1,...,xm};S3,将正序的{x0,x1,…,xm}以及反序的{xm,xm-1,...,x0}输入双向LSTM构建的编码器中得到语境向量c;S4,所述语境向量c经双向LSTM构建的解码器解码分别获得第二序列集合Y。本专利技术的有益效果是:通过综合运用OCR和双向LSTM算法,提升了文字识别的准确度。附图说明图1示出了根据本申请的实施例的流程图。图2示出了根据本申请的实施例的双向LSTM的运算流程图;图3示出了根据本申请的实施例的双向LSTM的编码流程图。具体实施方式为了更好的了解本专利技术的技术方案,下面结合附图1-图3对本专利技术作进一步说明。如图1所示,基于OCR和双向LSTM的文字序列纠错算法,适用于图像中文字的识别,综合运用人工智能及大数据,对输入的文本队列进行实时数据化,实现对文字信息的实时处理和应用。包括步骤:获取文字图像并进行OCR预处理。原始输入为快递单图像信息,经由文字识别OCR预处理,得到的OCR结果队列,OCR的结果队列作为LanguageModel的输入,并结合海量文本词库,得到期望的输出序列。为了改善OCR技术识别文字序列精度准确率较低(实验统计数据为29.65%)的弊端,本算法采用设置最低reliability阈值的方法,将大于该阈值的value取出作为OCR的最终输出文字队列,输入到语言模型中进行运算。由于标准的循环神经网络RNN能够存取的上下文信息范围有限,导致隐含层的输入对于网络的输出影响随着网络的不断递归而削弱。如图2所示,为解决这个问题,通过双向LSTM模型(长短记忆网络)将一个作为输入的序列映射为一个作为输出的序列,这个过程由编码输入与编码输出两个环节组成。比如现有序列“x0,x1,...,xm”,依次传入模型后,映射输出为“y0,y1,…,yn”。双向LSTM的核心框架是Encoder-Decoder。简单来看,输入序列传入模型后,首先通过编码器将其编译为一个固定长度的向量,即语境向量。编码完成后,语境变量将进入解码器进行解码,通过运用局部最优解算法,选取一种度量标准,在设备输出前检索词库,从而得到最优选择。具体来看,对于给定的输入第一序列集合X,期待通过Encoder-Decoder框架生成目标第二序列集合Y。X,Y分别由各自的序列组成。X={x0,x1,...,xm},其顺序为字符串本身顺序;Y=(y0,y1,…,yn)。此处的m与n是正整数,m为输入序列的长度-1,n为输出序列的长度-1,其中m与n不一定相等,当解码器Decoder输出结束符号的时候停止输出。首先,如下公式所示,输入序列{x0,x1,…,xm}和反序的{xm,xm-1,...,x0}经由双向LSTM构建的编码器逐一递归得到各隐节点ht,各个隐节点ht的加权总和即为语境向量c。所述隐节点的概念为:神经网络中除去输入以及输出节点的所有节点都可以称为隐节点,更为准确应该改为“各时刻产生的语境向量”。图3即为双向LSTM编码得到c1,c2的过程。其中c1,c2为两个语境向量,分别代表正序以及逆序。ht=f(xt,ht-1)c=Φ({h1,h2,…,hTS})其中h指每一时刻编码器输出的语境向量,TS指最后一个时刻。Φ指所有时刻的h在编码器上经过每一个时刻的堆叠融合过程。f指编码器在一个时刻根据上一时刻语境向量以及输入产生当前时刻语境向量的函数(过程),。正序逆序编码生成的语境向量c1,c2在编码完成后,通过融合(通常为直接拼接),作为编码器的最终语境向量输入到解码器,得到最终序列集合Y,即为需要的输出序列。st=f(yt-1,st-1,c);p(yt|y<t,X)=g(yt-1,st,c)。其中,s指每一时刻解码器产生的语境向量。f指解码器在当前时刻根据上一时刻解码器语境向量,输出以及编码器最后输出的语境向量构建当前时刻语境向量的函数(过程)。g指解码器根据当前时刻解码器语境向量,上一时刻解码器输出以及编码器最后输出的语境向量,产生当前输出的过程。其中p代表在之前所有输入的前提下产生下一个输出的概率;X指代编码器接收到的每一时刻的输入字典向量。上述中的参数t为时刻,取值为:在编码器中t的取值为0≤t≤m,在解码器中t的取值0≤t≤n。基于OCR和双向LSTM的文字序列纠错系统,包括:图像采集模块,用于获取文字图像;OCR处理模块,用于对所述文字图像进行OCR预处理得到第一序列集合X={x0,x1,...,xm};双向LSTM构建的编码器,用于对正序的{x0,x1,…,xm}以及反序的{xm,xm-1,...本文档来自技高网...
基于OCR和双向LSTM的文字序列纠错算法、系统及其设备

【技术保护点】
基于OCR和双向LSTM的文字序列纠错算法,适用于图像中文字的识别,其特征在于,包括步骤:S1,获取文字图像;S2,所述文字图像经过OCR预处理得到第一序列集合X={x0,x1,...,xm};S3,将正序的{x0,x1,…,xm}以及反序的{xm,xm‑1,...,x0}输入双向LSTM构建的编码器中得到语境向量c;S4,所述语境向量c经双向LSTM构建的解码器解码分别获得第二序列集合Y。

【技术特征摘要】
1.基于OCR和双向LSTM的文字序列纠错算法,适用于图像中文字的识别,其特征在于,包括步骤:S1,获取文字图像;S2,所述文字图像经过OCR预处理得到第一序列集合X={x0,x1,...,xm};S3,将正序的{x0,x1,…,xm}以及反序的{xm,xm-1,...,x0}输入双向LSTM构建的编码器中得到语境向量c;S4,所述语境向量c经双向LSTM构建的解码器解码分别获得第二序列集合Y。2.根据权利要求1所述的基于OCR和双向LSTM的文字序列纠错算法,其特征在于,步骤S3中所述的语境向量c为:c=Φ({h1,h2,…,hTS});ht=f(xt,ht-1)。3.根据权利要求1所述的基于OCR和双向LSTM的文字序列纠错算法,其特征在于,步骤S4中所述的第二序列集合Y为:Y=(y0,y1,…,yn);st=f(yt-1,st-1,c);p(yt|y<t,X)=g(yt-1,st,c)。4.根据权利要求2或3所述的基于OCR和双向LSTM的文字序列纠错算法,其特征在于,步骤S1中所述的文字图像为快递单图像。5.根据权利要求2或3所述的基...

【专利技术属性】
技术研发人员:王志成邝展豪高磊刘志欣王亮
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1