文本识别方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:36706665 阅读:21 留言:0更新日期:2023-03-01 09:29
本公开提供了文本识别方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:在确定待识别图像中的文本为竖排文本的情况下,确定待识别图像的背景复杂度;确定与背景复杂度相匹配的目标识别模式;按照目标识别模式,确定待识别图像中的目标字符区域;以及基于目标字符区域,对待识别图像进行文本识别,得到识别结果。得到识别结果。得到识别结果。

【技术实现步骤摘要】
文本识别方法、装置、电子设备以及存储介质


[0001]本公开涉及人工智能
,尤其涉及深度学习、图像处理、计算机视觉
,可应用于OCR等场景。尤其涉及文本识别方法、装置、电子设备、存储介质以及程序产品。

技术介绍

[0002]OCR(Optical Character Recognition,光学字符识别),可以是指利用电子设备,例如扫描仪或数码相机,采集具有文本内容的待处理图像。并利用文本识别方法,将待处理图像中的文本内容进行识别并转换为计算机可以处理的语言的技术。OCR是自动识别技术研究和应用领域中的一个重要方面。

技术实现思路

[0003]本公开提供了一种文本识别方法、装置、电子设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种文本识别方法,包括:在确定待识别图像中的文本为竖排文本的情况下,确定上述待识别图像的背景复杂度;确定与上述背景复杂度相匹配的目标识别模式;按照上述目标识别模式,确定上述待识别图像中的目标字符区域;以及基于上述目标字符区域,对上述待识别图像进行文本识别,得到识别结果。
[0005]根据本公开的另一方面,提供了一种文本识别装置,包括:复杂度确定模块,用于在确定待识别图像中的文本为竖排文本的情况下,确定上述待识别图像的背景复杂度;模式确定模块,用于确定与上述背景复杂度相匹配的目标识别模式;处理模块,用于按照上述目标识别模式,确定上述待识别图像中的目标字符区域;以及识别模块,用于基于上述目标字符区域,对上述待识别图像进行文本识别,得到识别结果。
[0006]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开的方法。
[0007]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本公开的方法。
[0008]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如本公开的方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1示意性示出了根据本公开实施例的可以应用文本识别方法及装置的示例性系统架构;
[0012]图2示意性示出了根据本公开实施例的文本识别方法的流程图;
[0013]图3示意性示出了根据本公开实施例的利用解码识别模式确定目标字符区域的示意图;
[0014]图4示意性示出了根据本公开实施例的字符索引序列的示意图;
[0015]图5示意性示出了根据本公开实施例的利用二值化识别模式确定目标字符区域的示意图;
[0016]图6示意性示出了根据本公开另一实施例的投影图的示意图;
[0017]图7示意性示出了根据本公开另一实施例的文本识别方法的流程图;
[0018]图8示意性示出了根据本公开实施例的文本检测框的示意图;
[0019]图9示意性示出了根据本公开实施例的文本识别装置的框图;以及
[0020]图10示意性示出了根据本公开实施例的适于实现文本识别方法的电子设备的框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]本公开提供了一种文本识别方法、装置、电子设备、存储介质以及程序产品。
[0023]根据本公开的一方面,提供了一种文本识别方法,包括:在确定待识别图像中的文本为竖排文本的情况下,确定待识别图像的背景复杂度;确定与背景复杂度相匹配的目标识别模式;按照目标识别模式,确定待识别图像中的目标字符区域;以及基于目标字符区域,对待识别图像进行文本识别,得到识别结果。
[0024]在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
[0025]在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
[0026]图1示意性示出了根据本公开实施例的可以应用文本识别方法及装置的示例性系统架构。
[0027]需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用文本识别方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的文本识别方法及装置。
[0028]如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
[0029]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发
送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
[0030]终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
[0031]服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
[0032]需要说明的是,本公开实施例所提供的文本识别方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的文本识别装置也可以设置于终端设备101、102、或1 03中。
[0033]或者,本公开实施例所提供的文本识别方法一般也可以由服务器105执行。相应地,本公开实施例所提供的文本识别装置一般可以设置于服务器105中。本公开实施例所提供的文本识别方法也可以由不同于服务器105且能够与终端设备1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,包括:在确定待识别图像中的文本为竖排文本的情况下,确定所述待识别图像的背景复杂度;确定与所述背景复杂度相匹配的目标识别模式;按照所述目标识别模式,确定所述待识别图像中的目标字符区域;以及基于所述目标字符区域,对所述待识别图像进行文本识别,得到识别结果。2.根据权利要求1所述的方法,其中,所述确定与所述背景复杂度相匹配的目标识别模式,包括:在确定所述背景复杂度大于或者等于预定背景复杂度阈值的情况下,确定所述目标识别模式为解码识别模式;以及在确定所述背景复杂度小于所述预定背景复杂度阈值的情况下,确定所述目标识别模式为二值化识别模式。3.根据权利要求2所述的方法,其中,所述目标识别模式包括所述解码识别模式;所述按照所述目标识别模式,确定所述待识别图像中的目标字符区域,包括:对所述待识别图像进行特征提取,得到特征图序列,其中,所述特征图序列包括多个特征图,每个所述特征图与所述待识别图像中的一个子图像相对应,所述子图像为预先从所述待识别图像中划分的图像;基于所述特征图序列,得到关于字符类别的概率矩阵;基于所述概率矩阵,得到字符索引序列,其中,所述字符索引序列包括多个字符索引标签,所述字符索引标签为用于表征字符类别的标签;以及基于所述字符索引序列,确定所述待识别图像中的目标字符区域。4.根据权利要求3所述的方法,其中,所述基于所述字符索引序列,确定所述待识别图像中的目标字符区域,包括:从所述字符索引序列中确定目标字符索引标签;确定所述目标字符索引标签在所述字符索引序列中的排列位置信息;基于所述排列位置信息,确定所述目标字符区域的中心位置信息;以及基于所述目标字符索引标签的数量、所述待识别图像的尺寸和所述中心位置信息,确定所述待识别图像中的所述目标字符区域。5.根据权利要求2所述的方法,其中,所述目标识别模式包括所述二值化识别模式;所述按照所述目标识别模式,确定所述待识别图像中的目标字符区域,包括:对所述待识别图像进行二值化处理,得到二值化图像;对所述二值化图像进行水平投影,得到投影图;以及基于所述投影图,确定所述待识别图像中的目标字符区域。6.根据权利要求5所述的方法,其中,所述基于所述投影图,确定所述待识别图像中的目标字符区域,包括:基于所述投影图,确定多个连通域;确定相邻两个所述连通域之间的间隔距离,得到多个间隔距离;以及基于所述多个间距距离,从所述多个连通域中确定所述目标字符区域。7.根据权利要求1所述的方法,其中,所述确定所述待识别图像的背景复杂度,包括:
对所述待识别图像进行颜色聚类处理,得到所述待识别图像的颜色类别结果;以及基于所述颜色类别结果,确定所述背景复杂度。8.根据权利要求1所述的方法,其中,所述基于所述目标字符区域,对所述待识别图像进行文本识别,得到识别结果,包括:基于所述目标字符区域,对所述待识别图像进行切分,得到字符图像;基于所述字符图像,生成横向文本图像;以及对所述横向文本图像进行文本识别,得到识别结果。9.根据权利要求1所述的方法,还包括:对所述待识别图像进行文本检测,确定所述待识别图像中的每个字符和与所述字符相邻的字符之间的间距,其中,所述间距包括在竖直方向上的第一间距和在水平方向上的第二间距;以及基于所述第一间距和所述第二间距,确定所述待识别图像中的文本的排布类型,其中,所述排布类型包括竖排类型和横排类型。10.一种文本识别装置,包括:复杂度确定模块,用于在确定待识别图像中的文本为竖排文本的情况下,确定所述待识别图像的背景复杂度;模式确定模块,用于确定与所述背景复杂度相匹配的目标识别模式;处理模块,用于按照所述目标识别模式,确定所述待识别图像中的目标字符区域;以及识别模块,用于基于所述目标字符区域,对所述待识别图像进行文本识别,得到识别结果。11.根据权利要求10所述的装置,其中,...

【专利技术属性】
技术研发人员:常战国吕一刘亚萍赵鑫
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1