多语种端到端OCR算法及系统技术方案

技术编号:26764511 阅读:15 留言:0更新日期:2020-12-18 23:40
本发明专利技术提供了多语种端到端OCR算法及系统,克服并绕过现有技术分片上的缺陷,在字符粘连、中英、中数混合数据上表现优良;通过自蒸馏transformer模块,保留位置关系,减少参数和模型复杂度,同时并行输出结果,切断节点之间的依赖,对多语种,多字体场景具备了更强的鲁棒性,结构、性能也得到优化。算法包括:获取待识别图片的特征图;将特征图通过基于自蒸馏transformer模块的关系注意力模块训练,获取字符矩阵;对字符矩阵做并行注意力解码,获取预测结果;根据预测结果,基于词汇句表,获取与词汇句表的语种相符的OCR模型。

【技术实现步骤摘要】
多语种端到端OCR算法及系统
本专利技术涉及OCR算法,尤其涉及多语种端到端OCR算法及系统。
技术介绍
在现代企业生产环境和日常商业活动中,OCR—OpticalCharacterRecognition:光学文本识别技术,得益于日渐增长的提升信息录入效率、信息载体多元化等需求,已经被充分的推广并大规模应用。在现有工业应用场景下,考虑到兼容性和可靠性,OCR应用通常分为文本检测和文本识别两部分。而文本识别网络中也分为单字分类识别网络结构和整体识别网络结构。现有的整体识别网络通常采用CRNN(ConvolutionalRecurrentNeuralNetwork)结构,具有如下缺点:1、通常输入的文本图像,是带有空间或平面信息关联的特征序列,采用现有的整体识别网络,其中需要经过Recurrent层重塑,其构造的context信息必然会有丢失,特别是空间位置信息。而如果采用2D-Recurrent层进行编码,解决信息丢失问题,又使得参数过多,结构复杂。2、采用现有的整体识别网络,一般LSTM(LongShort-TermMemory)、GRU(GatedRecurrentUnit)网络对输入分片宽度有要求,而文本信息中,经常会存在中英文、中文数字混合、字符粘连等等,导致字符宽度不一,而自适应宽度的分片结构难以在这些场景下有较好鲁棒性。3、对于定位和识别分类的OCRpipeline,对anchorbox尺寸选择通常难以达到最优,需要冗长的迭代和标注过程。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种多语种端到端OCR算法及系统,通过基于自蒸馏transformer模块的关系注意力模块,保留位置关系,减少参数和模型复杂度,使得CRNN对多语种,多字体场景具备了更强的鲁棒性等优点。本专利技术的技术方案是这样实现的:多语种端到端OCR算法,包括:获取待识别图片的特征图;将所述特征图通过关系注意力模块训练,获取字符矩阵;其中所述关系注意力模块为基于自蒸馏transformer模块的关系注意力模块;对所述字符矩阵做并行注意力解码,获取预测结果;根据所述预测结果,基于预设的词汇句表,获取与所述词汇句表的语种相符的OCR模型。进一步地,所述获取待识别图片的特征图包括:基于特征提取层提取所述特征图,所述特征提取层为Resnet45网络;所述自蒸馏transformer模块为按如下方式获取的精简transformer模块:在Resnet45网络的不同网络特征层后面加入自蒸馏transformer模块,获取第一特征系列;对所述第一特征系列做分类任务,获取分类结果;根据分类结果,选出所述自蒸馏transformer模块中,具有预期表现和参数量的transformer层,获取精简transformer模块。进一步地,所述预设的词汇句表为按如下方法获得的词汇句表:利用中文维基百科的语料生成对应的文本图片训练数据,获取基准语料;利用U个非中文维基百科的语料生成和所述基准语料相对应的平行语料,其中U≥1;将所述基准语料和所述平行语料进行句子级别的对齐,生成所述预设的词汇句表;。进一步地,所述根据所述预测结果,基于预设的词汇句表,获取与所述词汇句表的语种相符的OCR模型,包括:当待识别图片包括平行语种语料的文字图片时,所述文字图片经过关系注意力模块训练和并行注意力解码后,获取预测结果;将所述预测结果基于预设的词汇句表进行解码,得到基于所述基准语料的翻译结果;将所述翻译结果在U个平行语种语料中做迁移学习,获得单一语种的OCR模型。进一步地,所述对所述字符矩阵做并行注意力解码,获取预测结果,包括:对所述字符矩阵做线性变化和softmax计算,获取注意力权重矩阵;基于所述注意力权重矩阵和所述特征图获取字符矩阵中每个字符对应的概率向量;对所述概率向量做线性变化和softmax计算获取所述预测结果。进一步地,所述注意力权重矩阵由下列等式确定:α=softmax(W2tanh(W1OT))其中,α为所述注意力权重矩阵,W1和W2为线性变换矩阵,OT为字符矩阵转置结果;所述概率向量由下列等式确定:其中,G为所述概率向量,I为特征图,i为第i个字符。进一步地,所述关系注意力模块包括:N个双向的transformer层,每个所述transformer层均包括M个transformer节点;N≥2,M≥2;第N-1个transofrmet层的任意一个所述transofrmet节点与第N个transofrmet层的全部所述transofrmet节点相连;所述transformer节点为基于单个注意力机制的transformer节点。多语种端到端OCR系统,包括:特征提取层,用于获取待识别图片的特征图;关系注意力模块,用于对所述特征图进行训练,获取字符矩阵;所述关系注意力模块为基于自蒸馏transformer模块的关系注意力模块;并行注意力解码层,用于对所述字符矩阵做并行注意力解码,获取预测结果。进一步地,所述关系注意力模块包括:N个双向的transformer层,每个所述transformer层均包括M个transformer节点;N≥2,M≥2;第N-1个transofrmet层的任意一个所述transofrmet节点与第N个transofrmet层的全部所述transofrmet节点相连。进一步地,所述特征提取层为Resnet45网络;在所述Resnet45网络的不同网络特征层后分别连接有所述自蒸馏transformer模块;还包括分类器,所述分类器连接于所述自蒸馏transformer模块之后,用于对所述自蒸馏transformer模块输出的第一特征系列做分类任务。本专利技术的实施例一的一种多语种端到端OCR算法,相比较现有技术,具有如下优点:通过基于自蒸馏transformer模块的关系注意力模块,绕开了了现有整体识别网络对不同宽幅字符、粘连字符、不同字体语种识别不准的问题,在保留了文本图像中序列和空间位置信息,又减少了参数量。并且取消了对anchorbox的依赖,使得训练过程更简单,训练结果更好。附图说明附图示出了本专利技术的示例性实施方式,并与其说明一起用于解释本专利技术的原理,其中包括了这些附图以提供对本专利技术的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。图1是本专利技术的多语种端到端OCR算法的流程示意图;图2是本专利技术的关系注意力模块整体结构示意图;图3是本专利技术的transformer节点内部结构示意图。具体实施方式下面结合附图和实施方式对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非本文档来自技高网...

【技术保护点】
1.多语种端到端OCR算法,其特征在于,包括:/n获取待识别图片的特征图;/n将所述特征图通过关系注意力模块训练,获取字符矩阵;其中所述关系注意力模块为基于自蒸馏transformer模块的关系注意力模块;/n对所述字符矩阵做并行注意力解码,获取预测结果;/n根据所述预测结果,基于预设的词汇句表,获取与所述词汇句表的语种相符的OCR模型。/n

【技术特征摘要】
1.多语种端到端OCR算法,其特征在于,包括:
获取待识别图片的特征图;
将所述特征图通过关系注意力模块训练,获取字符矩阵;其中所述关系注意力模块为基于自蒸馏transformer模块的关系注意力模块;
对所述字符矩阵做并行注意力解码,获取预测结果;
根据所述预测结果,基于预设的词汇句表,获取与所述词汇句表的语种相符的OCR模型。


2.如权利要求1所述的算法,其特征在于,所述获取待识别图片的特征图包括:
基于特征提取层提取所述特征图,所述特征提取层为Resnet45网络;
所述自蒸馏transformer模块为按如下方式获取的精简transformer模块:
在Resnet45网络的不同网络特征层后面加入自蒸馏transformer模块,获取第一特征系列;
对所述第一特征系列做分类任务,获取分类结果;
根据分类结果,选出所述自蒸馏transformer模块中,具有预期表现和参数量的transformer层,获取精简transformer模块。


3.如权利要求1所述的算法,其特征在于,所述预设的词汇句表为按如下方法获得的词汇句表:
利用中文维基百科的语料生成对应的文本图片训练数据,获取基准语料;
利用U个非中文维基百科的语料生成和所述基准语料相对应的平行语料,其中U≥1;
将所述基准语料和所述平行语料进行句子级别的对齐,生成所述预设的词汇句表。


4.如权利要求3所述的算法,其特征在于,所述根据所述预测结果,基于预设的词汇句表,获取与所述词汇句表的语种相符的OCR模型,包括:
当待识别图片包括平行语种语料的文字图片时,所述文字图片经过关系注意力模块训练和并行注意力解码后,获取预测结果;
将所述预测结果基于预设的词汇句表进行解码,得到基于所述基准语料的翻译结果;
将所述翻译结果在U个平行语种语料中做迁移学习,获得单一语种的OCR模型。


5.如权利要求1-4任一项所述的算法,其特征在于,所述对所述字符矩阵做并行注意力解码,获取预测结果,包括:
对所述字符矩阵做线性变化和softmax计算,获取注意力权重矩阵;
基于所述注意力权重矩阵和所述特征图获取字符矩阵中每个字符对应的概...

【专利技术属性】
技术研发人员:陈开冉黎展孙建旸
申请(专利权)人:广州探迹科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1