文本识别及模型训练方法、系统、设备及可读存储介质技术方案

技术编号：25186698 阅读：19 留言：0更新日期：2020-08-07 21:14

本发明专利技术公开一种文本识别及模型训练方法、系统、设备及可读存储介质，本发明专利技术在文本识别的编码阶段，通过稠密卷积神经网络提取待识别图片的图像特征，使得提取出的特征更加抽象，包含的语义信息更加丰富；通过在图像特征中添加二维位置编码信息，生成包含位置信息的图像特征，加入的二维位置编码能够在对图像特征进行解码时更加准确的定位图像中字符的位置，从而能够更加准确地识别出对应的文本字符，能够提高弯曲文本识别的准确率；在解码阶段，通过包含二维注意力机制的transformer解码层，对包含位置信息的图像特征进行解码处理，能够充分地利用图像二维的空间信息，使用一种弱监督的方式进行训练，能够进一步提高弯曲文本识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别及模型训练方法、系统、设备及可读存储介质
本专利技术涉及图像处理
，尤其涉及一种文本识别及模型训练方法、系统、设备及可读存储介质。
技术介绍
在日常工作或生活中，往往需要利用计算机技术识别纸质文件上的文本，例如，各种票据上的文字，证件实体上的身份信息等等，基于图像的文字识别已经成为了计算机视觉中的一项重要研究主题。目前对印在纸上的文本信息的识别主要采用光学字符识别(OpticalCharacterRecognition，以下简称：OCR)技术，其利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种人可以理解的格式。OCR的处理步骤主要包括：图像预处理、版面分析、文本定位(或叫图像切割)、字符切割和识别等。由于自然场景中的文本字体多样、文本形状多样、且存在遮盖、光照不均、噪声过多等情况，尤其对于自然场景中的很多弯曲文本，例如弯曲形状的商标、印章等等，往往包含非常重要的信息，对识别的准确性要求很高。但是现有技术对于自然场景中的弯曲文本识别的准确率很低，如何提高自然场景中的弯曲文本识别的准确率成为一个亟待解决的技术问题。
技术实现思路
本专利技术提供一种文本识别及模型训练方法、系统、设备及可读存储介质，用以克服上述现有技术中存在的技术问题，以提高自然场景中的弯曲文本识别的准确率。本专利技术提供的一种文本识别方法，包括：通过稠密卷积神经网络提取待识别图片的图像特征；在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征；>通过包含二维注意力机制的transformer解码层，对所述包含位置信息的图像特征进行解码处理，得到识别结果。本专利技术还提供一种文本识别模型包括：编码模块和解码模块；所述编码模块用于：通过稠密卷积神经网络提取待识别图片的图像特征，在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征；所述解码模块包括包含二维注意力机制的transformer解码层，所述包含二维注意力机制的transformer解码层用于对所述包含位置信息的图像特征进行解码处理，得到识别结果；所述方法包括：获取自然场景文本识别的训练集，所述训练集至少包括多条弯曲文本训练数据，每条所述弯曲文本训练数据包括：包含弯曲文本的样本图片及其对应的文本标注信息；通过所述训练集对文本识别模型进行训练。本专利技术还提供文本识别系统，包括：编码模块，用于通过稠密卷积神经网络提取待识别图片的图像特征，在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征；解码模块，用于通过包含二维注意力机制的transformer解码层，对所述包含位置信息的图像特征进行解码处理，得到识别结果。本专利技术还提供一种文本识别设备，包括：处理器，存储器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序；其中，所述处理器运行所述计算机程序时实现上述所述的文本识别方法和/或文本识别模型训练方法。本专利技术还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被执行上述的文本识别方法和/或文本识别模型训练方法。本专利技术在文本识别的编码阶段，通过稠密卷积神经网络提取待识别图片的图像特征，使得提取出的特征更加抽象，包含的语义信息更加丰富；通过在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征，加入的二维位置编码能够在对图像特征进行解码时更加准确的定位图像中字符的位置，从而能够更加准确地识别出对应的文本字符，能够提高弯曲文本识别的准确率；在解码阶段，通过包含二维注意力机制的transformer解码层，对所述包含位置信息的图像特征进行解码处理，能够充分地利用图像二维的空间信息，使用一种弱监督的方式进行训练，能够进一步提高弯曲文本识别的准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1为本专利技术实施例一提供的一种文本识别方法流程图；图2为本专利技术实施例一提供的传统transformer模型结构示意图；图3为本专利技术实施例一提供的文本识别模型的结构示意图；图4为本专利技术实施例二提供的一种加入二维位置编码的流程图；图5为本专利技术实施例三提供的一种二维注意力向量确定流程图；图6为本专利技术实施例三提供的一种二维注意力向量确定流程示意图；图7为本专利技术实施例四提供的一种文本识别模型训练方法流程图；图8为本专利技术实施例五提供的一种文本识别系统的结构示意图；图9为本专利技术实施例六提供的一种文本识别系统的结构示意图；图10为本专利技术实施例七提供的文本识别设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚，下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。本专利技术所涉及的术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。目前，在场景弯曲文本识别领域，难点主要存在于每个文本字符与图像文本区域的“对齐”(以下简称“对齐”操作)，也即是如何准确识别出图像文本区域中的文本字符。常规直线文本与弯曲文本相比，上述“对齐”操作相对简单。对于上述这个技术难点，本专利技术采用了以下四种方式来针对文本区域的“对齐”操作：用卷积神经网络提取出图像特征，在提取出的图像特征中加入二维位置编码，用transformer解码层(也即transformer-decoder)提取出字符之间的相关性以及实现与图像特征的上述“对齐”操作，字符特征与图像特征的“对齐”采用二维注意力模块。其中，卷积神经网络提取图像特征和transformer-decoder为基础模块，二维注意力模块为在transformer-decoder中针对文本字符与图像文本区域“对齐”的核心，二维位置编码是针对二维注意力模块专门增加的处理，能够加强“对齐”的效果。本实施例提供的文本识别方法利用文本识别模型实现，采用的模型架构为编码(encoder)-解码(decoder)架构，文本识别模型包括编码模块和解码模块。在encoder阶段，首先经过卷积神经网络提取出待识别图片的图像特征，然后加上二维位置编码。在decoder阶段，通过transformer-decoder接受来自encoder的输出，同时采用二维注意力机制，解码得到识别结果。为使本专利技术的技术方案更加清楚，以下结本文档来自技高网...

【技术保护点】
1.一种文本识别方法，其特征在于，包括：/n通过稠密卷积神经网络提取待识别图片的图像特征；/n在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征；/n通过包含二维注意力机制的transformer解码层，对所述包含位置信息的图像特征进行解码处理，得到识别结果。/n

【技术特征摘要】
1.一种文本识别方法，其特征在于，包括：
通过稠密卷积神经网络提取待识别图片的图像特征；
在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征；
通过包含二维注意力机制的transformer解码层，对所述包含位置信息的图像特征进行解码处理，得到识别结果。

2.根据权利要求1所述的方法，其特征在于，所述在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征，包括：
生成所述图像特征中的每个像素的二维位置编码，并生成所述图像特征的位置编码张量；
将所述图像特征的位置编码张量与所述图像特征相加，得到所述包含位置信息的图像特征。

3.根据权利要求2所述的方法，其特征在于，所述生成所述图像特征中的每个像素的二维位置编码，包括：
根据所述图像特征确定水平方向和竖直方向的位置编码权重；
对于所述图像特征中的任意一个像素，分别生成该像素在水平方向和竖直方向上的一维位置编码；
根据所述水平方向和竖直方向的位置编码权重，对该像素在水平方向和竖直方向上的一维位置编码进行加权求和，得到该像素的二维位置编码。

4.根据权利要求1-3中任一项所述的方法，其特征在于，包括至少一个所述包含二维注意力机制的transformer解码层，每个所述transformer解码层包括：带掩码的多头注意力层、二维注意力层和前馈神经网络层。

5.根据权利要求4所述的方法，其特征在于，所述通过包含二维注意力机制的transformer解码层，对所述包含位置信息的图像特征进行解码处理，得到识别结果，包括：
通过带掩码的多头注意力层对输入的字符特征进行处理，得到第一字符特征；
通过二维注意力层根据所述包含位置信息的图像特征和所述第一字符特征，确定二维注意力向量，在所述第一字符特征中加上所述二维注意力向量，得到第二字符特征；
将所述第二字符特征输入所述前馈神经网络层。

6.根据权利要求5所述的方法，其特征在于，所述通过二维注意力层根据所述包含位置信息的图像特征和所述第一字符特征，确定二维注意力向量，包括：
对所述包含位置信息的图像特征进行第一卷积处理，得到一个H×W×d的第一张量，其中H、W和d分别表示所述第一张量的高度、宽度和深度；
所述第一字符特征包括至少一个特征向量，根据所述第一张量确定所述第一字符特征的每个特征向量关于所述包含位置信息的图像特征的权重值，所述第一字符特征的每个特征向量关于所述包...

【专利技术属性】
技术研发人员：邬国锐，卿山，王庆庆，
申请(专利权)人：北京爱咔咔信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人