多语种端到端OCR算法及系统技术方案

技术编号：26764511 阅读：23 留言：0更新日期：2020-12-18 23:40

本发明专利技术提供了多语种端到端OCR算法及系统，克服并绕过现有技术分片上的缺陷，在字符粘连、中英、中数混合数据上表现优良；通过自蒸馏transformer模块，保留位置关系，减少参数和模型复杂度，同时并行输出结果，切断节点之间的依赖，对多语种，多字体场景具备了更强的鲁棒性，结构、性能也得到优化。算法包括：获取待识别图片的特征图；将特征图通过基于自蒸馏transformer模块的关系注意力模块训练，获取字符矩阵；对字符矩阵做并行注意力解码，获取预测结果；根据预测结果，基于词汇句表，获取与词汇句表的语种相符的OCR模型。

全部详细技术资料下载

【技术实现步骤摘要】
多语种端到端OCR算法及系统
本专利技术涉及OCR算法，尤其涉及多语种端到端OCR算法及系统。
技术介绍
在现代企业生产环境和日常商业活动中，OCR—OpticalCharacterRecognition：光学文本识别技术，得益于日渐增长的提升信息录入效率、信息载体多元化等需求，已经被充分的推广并大规模应用。在现有工业应用场景下，考虑到兼容性和可靠性，OCR应用通常分为文本检测和文本识别两部分。而文本识别网络中也分为单字分类识别网络结构和整体识别网络结构。现有的整体识别网络通常采用CRNN(ConvolutionalRecurrentNeuralNetwork)结构，具有如下缺点：1、通常输入的文本图像，是带有空间或平面信息关联的特征序列，采用现有的整体识别网络，其中需要经过Recurrent层重塑，其构造的context信息必然会有丢失，特别是空间位置信息。而如果采用2D-Recurrent层进行编码，解决信息丢失问题，又使得参数过多，结构复杂。2、采用现有的整体识别网络，一般LSTM(LongShort-TermMemory本文档来自技高网...

【技术保护点】
1.多语种端到端OCR算法，其特征在于，包括：/n获取待识别图片的特征图；/n将所述特征图通过关系注意力模块训练，获取字符矩阵；其中所述关系注意力模块为基于自蒸馏transformer模块的关系注意力模块；/n对所述字符矩阵做并行注意力解码，获取预测结果；/n根据所述预测结果，基于预设的词汇句表，获取与所述词汇句表的语种相符的OCR模型。/n

【技术特征摘要】
1.多语种端到端OCR算法，其特征在于，包括：
获取待识别图片的特征图；
将所述特征图通过关系注意力模块训练，获取字符矩阵；其中所述关系注意力模块为基于自蒸馏transformer模块的关系注意力模块；
对所述字符矩阵做并行注意力解码，获取预测结果；
根据所述预测结果，基于预设的词汇句表，获取与所述词汇句表的语种相符的OCR模型。

2.如权利要求1所述的算法，其特征在于，所述获取待识别图片的特征图包括：
基于特征提取层提取所述特征图，所述特征提取层为Resnet45网络；
所述自蒸馏transformer模块为按如下方式获取的精简transformer模块：
在Resnet45网络的不同网络特征层后面加入自蒸馏transformer模块，获取第一特征系列；
对所述第一特征系列做分类任务，获取分类结果；
根据分类结果，选出所述自蒸馏transformer模块中，具有预期表现和参数量的transformer层，获取精简transformer模块。

3.如权利要求1所述的算法，其特征在于，所述预设的词汇句表为按如下方法获得的词汇句表:
利用中文维基百科的语料生成对应的文本图片训练数据，获取基准语料；
利用U个非中文维基百科的语料生成和所述基准语料相对应的平行语料，其中U≥1；
将所述基准语料和所述平行语料进行句子级别的对齐，生成所述预设的词汇句表。

4.如权利要求3所述的算法，其特征在于，所述根据所述预测结果，基于预设的词汇句表，获取与所述词汇句表的语种相符的OCR模型，包括：
当待识别图片包括平行语种语料的文字图片时，所述文字图片经过关系注意力模块训练和并行注意力解码后，获取预测结果；
将所述预测结果基于预设的词汇句表进行解码，得到基于所述基准语料的翻译结果；
将所述翻译结果在U个平行语种语料中做迁移学习，获得单一语种的OCR模型。

5.如权利要求1-4任一项所述的算法，其特征在于，所述对所述字符矩阵做并行注意力解码，获取预测结果，包括：
对所述字符矩阵做线性变化和softmax计算，获取注意力权重矩阵；
基于所述注意力权重矩阵和所述特征图获取字符矩阵中每个字符对应的概...

【专利技术属性】
技术研发人员：陈开冉，黎展，孙建旸，
申请(专利权)人：广州探迹科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人