一种基于局部敏感哈希网络的汉明OCR识别方法技术

技术编号:28422041 阅读:28 留言:0更新日期:2021-05-11 18:29
本发明专利技术公开了一种基于局部敏感哈希网络的汉明OCR识别方法,包括以下步骤:S1、采集具有OCR的场景文本图像,用于制作训练集和测试集;S2、构建辅助模型,用训练集的文本图像优化辅助模型,对模型进行训练,生成所有字符的局部敏感哈希编码;S3、构建汉明OCR主模型,把局部敏感哈希编码作为汉明OCR主模型的嵌入层进行输出,得到初始化汉明OCR主模型;S4、用所述训练集的文本图像优化所述初始化汉明OCR主模型的参数,得到最优汉明OCR网络模型;S5、将待识别的的文本图像输入到所述最优汉明OCR网络模型,所述最优汉明OCR网络模型生成输出编码,由输出编码得到文本识别结果。本发明专利技术减少了模型存储占用容量,同时提高了模型稳定性和运行效率。

【技术实现步骤摘要】
一种基于局部敏感哈希网络的汉明OCR识别方法
本专利技术涉及文本识别领域,具体涉及一种基于局部敏感哈希网络的汉明OCR识别方法。
技术介绍
场景文本识别旨在图像中提取文本内容,在实际应用中具有巨大的商业价值。场景文本识别,通常包括对场景文字定位和文字识别。例如在中文文本识别,国内外已经存在了大量成熟的检测识别方法,并且应用到实际工作中。这些方法不仅检测快,而且识别率良好,具有一定的优越性。虽然,场景文本识别取得了一定的突破性成就,也产生了很多代表性的模型,但是这些模型大多数都很笨重。普遍的场景文本识别模型最后回归分类采用独热编码对每个字符进行编码,当词汇表的规模很大,那么模型的字符嵌入层和回归分类层产生的映射矩阵将会占用大量的存储容量,导致这些模型很难在移动端设备上部署,因为它消耗了大量存储资源和计算空间。因此,开发一种词汇列表大、占用空间小,识别精度高的轻量级别场景文本识模型是必要的。
技术实现思路
针对现有技术的不足,本专利技术的目的旨在提供一种种基于局部敏感哈希网络的汉明OCR识别方法。为实现上述目的,本专利技术采用如下技术方案:一种基于局部敏感哈希网络的汉明OCR识别方法,包括以下步骤:S1:采集具有OCR的场景文本图像,用于制作训练集和测试集;所述训练集中文本图像均包含文本标注;S2:构建辅助模型,用所述训练集的文本图像优化所述辅助模型,对所述模型进行训练,生成辅助编码,由所述辅助编码得到所有字符的局部敏感哈希编码;S3:构建汉明OCR主模型,把所述局部敏感哈希编码作为所述汉明OCR主模型的嵌入层进行输出,得到初始化汉明OCR主模型;S4:用所述训练集的文本图像优化所述初始化汉明OCR主模型的参数,得到最优汉明OCR网络模型,将所述测试集中的文本图像输入到所述最优汉明OCR网络模型,检验所述最优汉明OCR网络模型的有效性;S5:将待识别的的文本图像输入到所述最优汉明OCR网络模型,所述最优汉明OCR网络模型生成输出编码,由输出编码得到文本识别结果。进一步地,所述步骤S1还包括:将采集到所述具有OCR的场景文本图像按4:1划分训练集和测试集。进一步地,所述步骤S1中用于文本标注的标签为包围文本实例的多边形坐标和文本序列。进一步地,所述辅助模型和所述汉明OCR主模型均包括特征编码器、位置编码器、嵌入层、解码网络和分类器;所述特征编码器的输入端输入的是文本图像,所述特征编码器的输出端和位置编码器的输出端共同连接至所述解码网络的其中一个输入端,所述嵌入层的输出端和位置编码器的输出端共同连接至所述解码网络的另一个输入端,所述解码网络的输出端连接至所述分类器的输入端。进一步地,所述特征编码器的骨干包括卷积层、池化层、残差模块和GCNet网络。进一步地,所述解码网络包括简化后的Transformer解码器,所述简化后的Transformer解码器由三个相同的层堆叠而成,每一层包括第一子层和第二子层,所述第一子层是MaskedMulti-HeadAttention块,第二子层是Multi-HeadAttention块。进一步地,所述辅助模型的嵌入层为embedding层,所述汉明OCR主模型的嵌入层为汉明embedding层。进一步地,所述辅助模型的分类器为softmax回归分类,所述汉明OCR主模型的分类器为汉明分类器。进一步地,所述步骤2中构建辅助模型包括以下步骤:S21:构建特征编码器;S22:加入位置编码器;S23:将输入字符转换成维度d向量;S24:构建解码网络;S25:使用softmax回归分类器对所述字符解码特征向量的特征序列进行分类,输出辅助编码。本专利技术的有益效果在于:1、提出了一种生成哈希编码的方法来将每个字符映射到汉明空间。在这个空间里,视觉上相似的字符汉明距离会很小,有助于降低了模型的计算量。2、提出了一种新的Hinge-loss训练的汉明分类器,用辅助模型生成的局部敏感哈希编码代替独热编码来预测输出字符。使用该方法,当词汇表很大时,模型的存储显著降低。3、embedding层直接使用哈希码本,进一步降低了计算量和模型占用空间。4、通过去除FeedForward模块和采用跨层参数共享技术,简化了Transformer解码器的结构,以减少储存的需求。5、基于自我注意力机制的汉明OCR,对比先进的模型,更适合于处理大规模词汇表的情况。6、基于哈希编码技术算法的汉明OCR不但大大减少原来模型存储占用容量,并且适应于大规模词汇列表,同时提高了模型稳定性和运行效率。附图说明附图1为本专利技术的辅助模型流程结构图;附图2为本专利技术的主模型流程结构图;附图3本专利技术的特征编码器结构图。附图4本专利技术的残差模块图。具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述:一种基于局部敏感哈希网络的汉明OCR(OpticalCharacterRecognition,光学字符识别)识别方法,首先在辅助模型上训练得到所有字符的局部敏感哈希编码,将所有字符的局部敏感哈希编码用于汉明OCR主模型的embedding层(embedding,嵌入)中,并初始化汉明OCR主模型。接着把文本图像输入到基于注意力机制的主模型中,文本图像首先通过特征编码器来获得用于文本特征表示的字符特征向量;同时把主模型上一次输出结果对应字符的局部敏感度哈希编码输入至HammingEmbedding层(HammingEmbedding,汉明嵌入),大大减少汉明OCR主模型中嵌入层的存储计算空间;接着经过3个去掉前馈网络模块的Transformer解码器进行序列建模,并且采用跨层参数共享技术,使得模型的存储占用容量大大减少;最后经过汉明分类器,采用局部敏感哈希分类对所有字符的哈希编码计算汉明距离,距离最近字符的即为预测结果。对比于现有技术的模型,基于哈希编码技术算法的汉明OCR不但大大减少原来模型存储占用容量,并且适应于大规模词汇列表,同时提高了模型稳定性和运行效率。一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,包括以下步骤:S1:采集具有OCR的场景文本图像,用于制作训练集和测试集;训练集中文本图像均包含文本标注;S2:构建汉明OCR主模型,把局部敏感哈希编码作为汉明OCR主模型的嵌入层进行输出,得到初始化汉明OCR主模型;S3:构建汉明OCR主模型,把局部敏感哈希编码作为汉明OCR主模型的嵌入层进行输出,得到初始化汉明OCR主模型;S4:用训练集的文本图像优化初始化汉明OCR主模型的参数,得到最优汉明OCR网络模型,将测试集中的文本图像输入到最优汉明OCR网络模型,检验最优汉明OCR网络模型的有效性。S5:将待识别的的文本图像输入到最优汉明OCR网络模型,最优汉明OCR网络模型生成输出编码,由输出编码得到文本识别结果。进本文档来自技高网...

【技术保护点】
1.一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,包括以下步骤:/nS1:采集具有OCR的场景文本图像,用于制作训练集和测试集;所述训练集中文本图像均包含文本标注;/nS2:构建辅助模型,用所述训练集的文本图像优化所述辅助模型,对所述模型进行训练,生成辅助编码,由所述辅助编码得到所有字符的局部敏感哈希编码;/nS3:构建汉明OCR主模型,把所述局部敏感哈希编码作为所述汉明OCR主模型的嵌入层进行输出,得到初始化汉明OCR主模型;/nS4:用所述训练集的文本图像优化所述初始化汉明OCR主模型的参数,得到最优汉明OCR网络模型,将所述测试集中的文本图像输入到所述最优汉明OCR网络模型,检验所述最优汉明OCR网络模型的有效性;/nS5:将待识别的的文本图像输入到所述最优汉明OCR网络模型,所述最优汉明OCR网络模型生成输出编码,由所述输出编码得到文本识别结果。/n

【技术特征摘要】
1.一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,包括以下步骤:
S1:采集具有OCR的场景文本图像,用于制作训练集和测试集;所述训练集中文本图像均包含文本标注;
S2:构建辅助模型,用所述训练集的文本图像优化所述辅助模型,对所述模型进行训练,生成辅助编码,由所述辅助编码得到所有字符的局部敏感哈希编码;
S3:构建汉明OCR主模型,把所述局部敏感哈希编码作为所述汉明OCR主模型的嵌入层进行输出,得到初始化汉明OCR主模型;
S4:用所述训练集的文本图像优化所述初始化汉明OCR主模型的参数,得到最优汉明OCR网络模型,将所述测试集中的文本图像输入到所述最优汉明OCR网络模型,检验所述最优汉明OCR网络模型的有效性;
S5:将待识别的的文本图像输入到所述最优汉明OCR网络模型,所述最优汉明OCR网络模型生成输出编码,由所述输出编码得到文本识别结果。


2.根据权利要求1所述的一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,所述步骤S1还包括:
将采集到所述具有OCR的场景文本图像按4:1划分训练集和测试集。


3.根据权利要求1所述的一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,所述步骤S1中用于文本标注的标签为包围文本实例的多边形坐标和文本序列。


4.根据权利要求1所述的一种基于局部敏感哈希网络的汉明OCR识别方法,其特征在于,所述辅助模型和所述汉明OCR主模型均包括特征编码器、位置编码器、嵌入层、解码网络和分类器;所述特征编码器的输入端输入的是文本图像,所述特征编码器的输出端和位置编码器的输出端共同连接至所述解码网络的其...

【专利技术属性】
技术研发人员:黄坤山葛任贤杨航
申请(专利权)人:佛山市南海区广工大数控装备协同创新研究院佛山市广工大数控装备技术发展有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1