图像文字识别方法、装置、电子设备制造方法及图纸

技术编号:28213312 阅读:23 留言:0更新日期:2021-04-24 14:52
本申请公开了一种图像文字识别方法,属于计算机技术领域,有助于提升图像中文字识别的准确率。所述图像文字识别方法包括:将预先训练的编码

【技术实现步骤摘要】
图像文字识别方法、装置、电子设备


[0001]本申请实施例涉及计算机
,特别是涉及一种图像文字识别方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]文字识别作为机器视觉中的一种常用技术,被广泛应用于文档分析、证照识别、街景识别、信息自动录入等应用场景中。现有技术中,文字识别的主流方法都是由编码

解码结构构成。其中,编码过程是将输入的图像信息转化成一个表征向量;解码过程则是将编码过程生成的表征向量再转化成输出目标序列。为了提升文字识别结果的准确率,现有技术中,通常采用多个编码

解码网络结构对输入图像进行编解码,并在分别得到每个编码

解码网络结构输出的解码结果之后,采用识别准确率最高的一个编码

解码网络结构输出的解码结果作为所述输入图像中的文字识别结果。然而,现有技术中的文字识别方法,不同编码

解码网络结构输出的解码结果之间没有相互参考,各个网络结构的解码部分仅根据自身编码部分的编码输出执行解码操作,当编码部分的输出,或者解码部本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图像文字识别方法,其特征在于,预先训练的编码

解码网络模型包括:至少两个编码模块,以及,和每个所述编码模块对应的解码模块,其中,每个所述编码模块用于从不同特征维度对输入图像进行编码;所述方法包括:执行所述至少两个编码模块,对输入图像特征编码,分别得到每个所述编码模块的编码输出;分别执行每个所述解码模块,对相应所述编码模块的所述编码输出进行解码,得到各所述解码模块对所述输入图像的解码输出;对各所述解码模块对所述输入图像的所述解码输出,进行融合处理,确定所述编码

解码网络模型对所述输入图像的文字识别结果。2.根据权利要求1所述的方法,其特征在于,所述对各所述解码模块对所述输入图像的所述解码输出,进行融合处理,确定所述编码

解码网络模型对所述输入图像的文字识别结果的步骤,包括:基于复制生成机制,对各所述解码模块对所述输入图像的所述解码输出进行融合处理,确定所述编码

解码网络模型对所述输入图像的文字识别结果。3.根据权利要求2所述的方法,其特征在于,所述基于复制生成机制,对各所述解码模块对所述输入图像的所述解码输出进行融合处理,确定所述编码

解码网络模型对所述输入图像的文字识别结果的步骤,包括:根据第一解码模块的第一隐层输出和第二隐层输出,以及所述第一解码模块对应的所述编码模块的编码输出,计算所述第一解码模块最后一个隐层的编码输出的权重向量;对至少一个第二解码模块最后一个隐层的解码输出,以及所述第一解码模块最后一个隐层的解码输出,根据所述权重向量进行加权运算,将进行所述加权运算得到的结果作为所述编码

解码网络模型对所述输入图像的文字识别结果;其中,所述第一解码模块和所述第二解码模块分别表示所述编码

解码网络模型中不同的所述解码模块。4.根据权利要求1至3任一项所述的方法,其特征在于,所述至少两个编码模块为采用逐次级联或部分级联的结构设置。5.根据权利要求4所述的方法,其特征在于,所述至少两个编码模块包括:第一编码模块和第二编码模块,所述第一解码模块与所述第一编码模块对应,一个所述第二解码模块与所述第二编码模块对应;所述第二编码模块用于提取所述输入图像的视觉特征,并输出所述视觉特征的编码向量;所述第一解码模块用于对所述第...

【专利技术属性】
技术研发人员:宋祺姜仟艺张睿
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1