A method and device for identifying text in an image is disclosed. According to embodiments, the method includes: using convolutional neural network (CNN) is the first image encoding sequence, wherein the first sequence is the inverse of CNN second roll laminated output; recursive neural network (RNN) will be the first sequence decoding of second sequences, all possible characters of the estimated probability of each component of the second sequence is the same as the first sequence length, and indicate the corresponding to the first in the series; and the second sequence is mapped to remove duplicates and non character label label.
【技术实现步骤摘要】
【国外来华专利技术】用于识别图像中的文本的方法和设备
本申请涉及文本识别,特定地涉及用于识别图像中的文本的方法和设备。
技术介绍
自然图像中的文本识别由于其众多实际的应用而在计算机视觉中受到越来越多的关注。文本识别的问题包括两个子任务,即文本检测和文本行/字识别,其主要难度起因于文本模式的较大多样性(例如,低分辨率、低对比度和模糊)和高度复杂的背景杂波。因此,个别字符分割或分离极具挑战性。大多数现有研究集中于开发出功能强大的字符分类器,其中一些字符分类器并入有额外的语言模型,因此取得了目前技术发展水平的性能。这些方法主要通过遵循以下基本流程(pipeline)的常规OCR技术来实现,即,首先涉及字符级分割处理、然后是隔离字符分类器的处理以及用于识别的后处理。多种方法采用深度学习网络来进行特征学习(representationlearning),但其识别仍限于字符级分类。所有当前成功的场景文本识别系统大多数是建立在隔离字符分类器上的,而字符级的分割或分离中存在的难度严重损害了它们的性能。重要的是,独立地识别每个字符放弃了字的有意义的上下文信息,从而显著降低了其可靠性和稳健性。专利技术内 ...
【技术保护点】
一种用于识别图像中的文本的方法,包括:用卷积神经网络(CNN)将所述图像编码为第一序列,其中所述第一序列是所述CNN的倒数第二个卷积层的输出;用递归神经网络(RNN)将所述第一序列解码为第二序列,所述第二序列具有与所述第一序列相同的长度,并指示对应于所述第一序列中的每个分量的所有可能字符的估计概率;以及将所述第二序列映射为去除了重复的标签和非字符标签的字串。
【技术特征摘要】
【国外来华专利技术】1.一种用于识别图像中的文本的方法,包括:用卷积神经网络(CNN)将所述图像编码为第一序列,其中所述第一序列是所述CNN的倒数第二个卷积层的输出;用递归神经网络(RNN)将所述第一序列解码为第二序列,所述第二序列具有与所述第一序列相同的长度,并指示对应于所述第一序列中的每个分量的所有可能字符的估计概率;以及将所述第二序列映射为去除了重复的标签和非字符标签的字串。2.根据权利要求1所述的方法,其中用CNN将所述图像编码为第一序列包括:用所述CNN对所述图像作为一个整体进行卷积,其中从所述CNN的所述倒数第二个卷积层获得的卷积的结果为所述第一序列。3.根据权利要求1所述的方法,其中用CNN将所述图像编码为第一序列包括:将滑动窗口应用于所述图像以将所述图像划分成大小相同的段;以及用所述CNN来个别地和按顺序对所述段进行卷积,其中从所述CNN的所述倒数第二个卷积层获得的卷积的结果是形成所述第一序列的分量。4.根据权利要求1所述的方法,在所述编码的步骤之前进一步包括:将所述图像重新设置为具有预定大小。5.根据权利要求4所述的方法,其中所述CNN已用具有所述预定大小的图像样本训练过,并且在所述CNN的最后一个层输出不同字符的36个类。6.根据权利要求1所述的方法,其中所述CNN的所述倒数第二个卷积层的输出仅为一个神经元。7.根据权利要求1所述的方法,其中所述RNN已用一组卷积序列和对应的字串训练过。8.根据权利要求1所述的方法,其中所述CNN包括maxoutCNN。9.根据权利要求1所述的方法,其中所述RNN包括双向长短期记忆(LSTM)层和链结式时间分类(CTC)层,其中所述LSTM层形成所述第二序列,并且所述CTC层形成所述字串。10.一种用于识别图像中的文本的设备,其...
【专利技术属性】
技术研发人员:汤晓鸥,黄伟林,乔宇,吕健勤,贺盼,
申请(专利权)人:商汤集团有限公司,
类型:发明
国别省市:中国香港,81
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。