一种文本识别方法、装置、电子设备、介质及产品制造方法及图纸

技术编号:31810872 阅读:19 留言:0更新日期:2022-01-08 11:13
本公开提供了一种文本识别方法、装置、电子设备、介质及产品,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于文字识别技术领域。具体实现方案为:获取待识别图片,然后基于待识别图片的长度确定滑窗,并利用滑窗对待识别图片进行裁剪,得到多个子图片,其中滑窗的宽度为待识别图片的宽度,滑窗的长度为指定长度,相邻的子图片之间的重叠区域尺寸为预设尺寸。接着将各子图片分别输入预先训练的识别模型,得到识别模型对每个子图片的输出结果。再根据各子图片对应的输出结果,确定对待识别图片的文本识别结果。从而提高了对图片中文本的识别准确率。高了对图片中文本的识别准确率。高了对图片中文本的识别准确率。

【技术实现步骤摘要】
一种文本识别方法、装置、电子设备、介质及产品


[0001]本公开涉及人工智能
,具体为深度学习、计算机视觉
,可应用于文字识别


技术介绍

[0002]光学字符识别(optical character recognition,OCR)可以从图片中识别文本。OCR技术的应用广泛,例如,智能词典笔可以通过摄像头扫描文字,得到包括文本的图片,并进一步对图片采用OCR技术得到图片中的文本。

技术实现思路

[0003]本公开提供了一种文本识别方法、装置、电子设备、介质及产品。
[0004]本公开实施例的第一方面,提供了一种文本识别方法,包括:
[0005]获取待识别图片;
[0006]基于所述待识别图片的长度确定滑窗,并利用所述滑窗对待识别图片进行裁剪,得到多个子图片,其中,所述滑窗的宽度与所述待识别图片的宽度相同,所述滑窗的长度小于所述待识别图片的长度,相邻的子图片之间存在重叠区域;
[0007]将各子图片分别输入预先训练的识别模型,得到所述识别模型对每个子图片的输出结果;
[0008]根据各子图片对应的输出结果,确定对所述待识别图片的文本识别结果。
[0009]本公开实施例的第二方面,提供了一种文本识别装置,包括:
[0010]获取模块,用于获取待识别图片;
[0011]裁剪模块,用于基于所述获取模块获取的所述待识别图片的长度确定滑窗,并利用所述滑窗对待识别图片进行裁剪,得到多个子图片,其中,所述滑窗的宽度与所述待识别图片的宽度相同,所述滑窗的长度小于所述待识别图片的长度,相邻的子图片之间存在重叠区域;
[0012]输入模块,用于将所述裁剪模块裁剪的各子图片分别输入预先训练的识别模型,得到所述识别模型对每个子图片的输出结果;
[0013]确定模块,用于根据各子图片对应的输出结果,确定对所述待识别图片的文本识别结果。
[0014]本公开实施例的第三方面,提供了一种电子设备,包括:
[0015]至少一个处理器;以及
[0016]与所述至少一个处理器通信连接的存储器;其中,
[0017]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的文本识别方法。
[0018]本公开实施例的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述任一项所述的文本识别方法。
[0019]本公开实施例的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一项所述的文本识别方法。
[0020]本公开实施例提供的文本识别方法、装置、电子设备、介质及产品,可以基于待识别图片的长度确定滑窗,并利用滑窗将待识别图片裁剪成多个子图片,然后利用识别模型分别对各子图片进行识别,再基于子图片对应的输出结果得到待识别图片的文本识别结果。本公开实施例对图片进行裁剪后分别识别,可以提高对图片中文本的识别准确率。
[0021]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0022]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0023]图1是本公开实施例提供的一种文本识别方法的流程图;
[0024]图2是本公开实施例提供的一种图像裁剪的示例性示意图;
[0025]图3是本公开实施例提供的另一种文本识别方法的流程图;
[0026]图4是本公开实施例提供的另一种文本识别方法的流程图;
[0027]图5是本公开实施例提供的一种初始图片的示例性示意图;
[0028]图6是本公开实施例提供的另一种初始图片的示例性示意图;
[0029]图7是本公开实施例提供的另一种初始图片的示例性示意图;
[0030]图8是本公开实施例提供的另一种文本识别方法的流程图;
[0031]图9是本公开实施例提供的一种文本识别过程的示例性示意图;
[0032]图10是本公开实施例提供的一种文本识别装置的结构示意图;
[0033]图11是用来实现本公开实施例的文本识别的方法的电子设备的框图。
具体实施方式
[0034]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0035]光学字符识别(optical character recognition,OCR)技术可以对图片中的文本进行识别。OCR技术的应用范围广,例如在教育领域中,智能词典笔可以通过扫描获得包含文字的图片,并通过OCR技术识别图片中的文字,以进一步进行翻译和搜索等功能。如果对文本的识别出错,那么后续的翻译和搜索也会存在问题,因此文本识别的准确性十分重要。在实际应用场景中,图片中的文本的形式较为复杂,例如,图片中可能包含排列密集的文本、超长的文本以及尺寸过小的文本,这些情况对文本识别带来了巨大的挑战。
[0036]目前,对于对图片中文本的识别所采用的识别模型分为两类,第一类是以神经网络的时序类分类模型为基础(Connectionist temporal classification based,CTC based)的模型,第二类是以注意力模型为基础(ATTENTION based)的模型。
[0037]第二类模型对输入特征采用串行预测方式,模型占用内存大、且预测速度慢。
[0038]第一类模型对输入特征采用并行预测方式,模型占用内存小且预测速度快,但是
第一类模型缺乏语义信息。在缺乏语义信息时,模型对长文本的识别准确率低。而且模型对图片中的密集文本和过小文本的识别准确度低。另外如果图片过长,模型对图片中文本的识别速度较慢,因此模型一般会对图片进行压缩,而图片压缩后图片中的特殊文本(包括长文本、密集文本和过小文本)的识别难度会进一步提升,导致模型的识别准确率低,甚至无法识别或者识别乱码。
[0039]为了提高对图片中文本的识别准确率,本公开实施例提供了一种文本识别方法,该方法可以应用于电子设备,其中电子设备可以是手机、计算机或者词典笔等具备图片处理能力的设备。如图1所示,本公开实施例提供的文本识别方法可以包括如下步骤:
[0040]S101、获取待识别图片。
[0041]其中,待识别图片中包括文本。
[0042]S102、基于待识别图片的长度确定滑窗,并利用滑窗对待识别图片进行裁剪,得到多个子图片。
[0043]其中,滑窗的宽度与待识别图片的宽度相同,滑窗的长度小于待识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,包括:获取待识别图片;基于所述待识别图片的长度确定滑窗,并利用所述滑窗对待识别图片进行裁剪,得到多个子图片,其中,所述滑窗的宽度与所述待识别图片的宽度相同,所述滑窗的长度小于所述待识别图片的长度,相邻的子图片之间存在重叠区域;将各子图片分别输入预先训练的识别模型,得到所述识别模型对每个子图片的输出结果;根据各子图片对应的输出结果,确定对所述待识别图片的文本识别结果。2.根据权利要求1所述的方法,其中,子图片对应的输出结果包括子图片中的文字、每个文字的位置和置信度,所述根据各子图片对应的输出结果,确定对所述待识别图片的文本识别结果,包括:按照每个子图片在所述待识别图片中的排列顺序,针对每个子图片,保留该子图片中非重叠区域的文本,并针对该子图片与相邻子图片的重叠区域,对比该重叠区域中相同位置的文字的置信度,保留置信度最高的文字,得到所述文本识别结果。3.根据权利要求1所述的方法,在所述基于所述待识别图片的长度确定滑窗之前,所述方法还包括:设置所述待识别图片的宽度为预设宽度;确定所述待识别图片的长度所属的目标长度范围,并设置所述待识别图片的长度为所述目标长度范围的最小值。4.根据权利要求1

3任一项所述的方法,其中,所述获取待识别图片,包括:获取初始图片;将所述初始图片输入预先训练的检测模型,得到所述检测模型输出的多个检测框,每个检测框内包括文字;确定所述初始图片的第一中心线,所述第一中心线与所述初始图片的底边平行;分别计算每个检测框的第二中心线与所述第一中心线之间的距离,将第二中心线与所述第一中心线之间的距离小于预设距离的检测框作为候选框,每个检测框的第二中心线与自身的底边平行;将各候选框合并,并计算合并后的候选框的最小外接矩形,得到待检测框;在所述初始图片中按照所述待检测框进行裁剪,得到所述待识别图片。5.根据权利要求4所述的方法,在所述将所述初始图片输入预先训练的检测模型之前,所述方法还包括:判断所述初始图片的长度是否大于等于指定长度;若是,则将所述初始图片的长度设置为第一长度,所述第一长度小于指定长度;若否,则将所述初始图片的长度设置为第二长度,所述第二长度小于第一长度;按照预设的长宽比,根据所述初始图片的长度,设置所述初始图片的宽度。6.一种文本识别装置,包括:获取模块,用于获取待识别图片;裁剪模块,用于基于所述获取模块获取的所述待识别图片的长度确定滑窗,并利用所述滑窗对待识别图片进行裁剪,得到多个子图片,其中,所述滑窗的宽度与所述待识别图片
的宽度相同,所述滑窗的长度小于所述待识别图片的长度,相邻的子图片之间存在重叠区域;输入模块,用于将所述裁剪模块裁剪的各子图片分别输入预先训练的识别模型,得到所述识别模型对每个子...

【专利技术属性】
技术研发人员:刘珊珊乔美娜吴亮章成全姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1