一种图像文本识别方法、系统和电子设备技术方案

技术编号：30438193 阅读：37 留言：0更新日期：2021-10-24 17:42

本发明专利技术涉及图像文本识别技术领域，提供一种图像文本识别方法、系统和电子设备，采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作，得到多组上下文特征向量，即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系，然后进行后续的文本识别，得到包含待识别文本图像中的文本的字符串，字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本，且避免使用LSTM，在保证识别效率的同时，还能保证识别精度。还能保证识别精度。还能保证识别精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像文本识别方法、系统和电子设备

[0001]本专利技术涉及图像文本识别
，尤其涉及一种图像文本识别方法、系统和电子设备。

技术介绍

[0002]目前，OCR(Optical Character Recognition，光学字符识别)技术已经广泛应用于车牌识别、文档分析、图像文字信息提取等方方面面。通用的OCR技术借助图像分类的思想，经过CNN(Convolutional Neural Networks，卷积神经网络)提取图像特征，使用LSTM(Long Short
‑
Term Memory，长短期记忆网络)学习文字之间的上下文信息，最后用CTC Loss来学习文字的类别概率，那么会存在如下问题：
[0003]由于LSTM的巨大参数量网络和结构的复杂性，使得预测耗时严重，但如果不使用LSTM，会丢失文字间的上下文的语义信息，降低了识别精度。

技术实现思路

[0004]本专利技术所要解决的技术问题是针对现有技术的不足，提供了一种图像文本识别方法、系统和电子设备。
[0...

【技术保护点】

【技术特征摘要】
1.一种图像文本识别方法，其特征在于，包括：获取包含文本的待识别文本图像；从所述待识别文本图像中提取卷积特征，采用至少两种尺寸的卷积核并按照预设顺序对所述卷积特征进行卷积操作，得到多组上下文特征向量；对每组上下文特征向量进行池化，得到多个池化结果，按照所述预设顺序对所有的池化结果进行串联，得到一维上下文特征向量；将所述一维上下文特征向量进行拓展，得到与所述卷积特征大小相等的上下文特征矩阵，并将所述上下文特征矩阵与所述卷积特征进行融合，得到融合后的特征信息；根据所述融合后的特征信息计算预设字符集中的每个字符的预测概率，得到预测概率矩阵，所述预设字符集中的字符包括文字、标点符号和占位符；根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串。2.根据权利要求1所述一种图像文本识别方法，其特征在于，每种卷积核的尺寸均为所述卷积特征的宽的整数倍，且所有卷积核的总数量与所述卷积特征的高相等。3.根据权利要求1或2所述一种图像文本识别方法，其特征在于，所述根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串，包括：采用BeamSearch算法对所述预测概率矩阵进行最优路径选择，得到包含所述待识别文本图像中的文本的字符串。4.根据权利要求1或2所述的一种图像文本识别方法，其特征在于，所述获取包括文本的待识别文本图像，包括：判断待识别图像中是否包含文本；当所述待识别图像中包含文本时，确定所述文本在所述待识别图像中的位置，并根据所述位置进行裁剪，得到所述待识别文本图像。5.根据权利要求1或2所述一种图像文本识别方法，其特征在于，所述从所述待识别文本图像中提取卷积特征，包括：采用IResNet50神经网络或ResNet50神经网络从所述待识别文本图像中提取所述卷积特征。6.一种图像文本识别系统，其特征在于，包括获取模块、卷积模...

【专利技术属性】
技术研发人员：欧阳谷，唐会军，刘拴林，梁堃，陈建，
申请(专利权)人：北京数美时代科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人