图像方向的确定方法、装置、电子设备和介质制造方法及图纸

技术编号:37434535 阅读:25 留言:0更新日期:2023-05-06 09:06
本公开提供了一种图像方向的确定方法、装置、电子设备和介质,涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。实现方案为:从待识别图像中提取至少一个文本行区域,将各文本行区域旋转第一设定角度,并从旋转后的各文本行区域中提取设定个数的第一文本行区域;获取各第一文本行区域的字符识别的第一置信度;将各第一文本行区域旋转第二设定角度,并获取旋转后的各第一文本行区域的字符识别的第二置信度;根据各第一置信度和各第二置信度,确定待识别图像的方向。由此,仅根据待识别图像中的部分文本行区域,确定待识别图像的方向,而无需根据待识别图像中的所有像素点,来预测待识别图像的方向,可以提升计算速度。度。度。

【技术实现步骤摘要】
图像方向的确定方法、装置、电子设备和介质


[0001]本公开涉及人工智能
,具体为深度学习、图像处理、计算机视觉
,可应用于OCR(Optical Character Recognition,光学字符识别)等场景,尤其涉及图像方向的确定方法、装置、电子设备和介质。

技术介绍

[0002]OCR是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR技术可以应用于车牌识别、证件(身份证、驾驶证等)识别、印刷文档录入等场景。
[0003]OCR流程包括图像预处理、文本行检测和文本识别。其中,对文本图像(或文档图像)的方向进行识别,并基于方向识别结果对文本图像进行旋转矫正,是图像预处理中的一个必要环节,方向识别结果的准确性将影响到后续文本识别的结果。

技术实现思路

[0004]本公开提供了一种用于图像方向的确定方法、装置、电子设备和介质。
[0005]根据本公开的一方面,提供了一种图像方向的确定方法,包括:
[0006]获取待识别图像,并从所述待识别图像中提取至少一个文本行区域;
[0007]将所述至少一个文本行区域旋转第一设定角度,并从旋转后的所述至少一个文本行区域中提取设定个数的第一文本行区域;
[0008]获取各所述第一文本行区域的字符识别的第一置信度;
[0009]将各所述第一文本行区域旋转第二设定角度,并获取旋转后的各所述第一文本行区域的字符识别的第二置信度;
[0010]根据各所述第一置信度和各所述第二置信度,确定所述待识别图像的方向。
[0011]根据本公开的另一方面,提供了一种图像方向的确定装置,包括:
[0012]第一获取模块,用于获取待识别图像;
[0013]第一提取模块,用于从所述待识别图像中提取至少一个文本行区域;
[0014]第一处理模块,用于将所述至少一个文本行区域旋转第一设定角度,并从旋转后的所述至少一个文本行区域中提取设定个数的第一文本行区域;
[0015]第二获取模块,用于获取各所述第一文本行区域的字符识别的第一置信度;
[0016]第二处理模块,用于将各所述第一文本行区域旋转第二设定角度,并获取旋转后的各所述第一文本行区域的字符识别的第二置信度;
[0017]第一确定模块,用于根据各所述第一置信度和各所述第二置信度,确定所述待识别图像的方向。
[0018]根据本公开的又一方面,提供了一种电子设备,包括:
[0019]至少一个处理器;以及
[0020]与所述至少一个处理器通信连接的存储器;其中,
[0021]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述一方面提出的图像方向的确定方法。
[0022]根据本公开的再一方面,提供了一种计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开上述一方面提出的图像方向的确定方法。
[0023]根据本公开的还一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述一方面提出的图像方向的确定方法。
[0024]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0025]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0026]图1为本公开实施例一所提供的图像方向的确定方法的流程示意图;
[0027]图2为本公开实施例二所提供的图像方向的确定方法的流程示意图;
[0028]图3为本公开实施例三所提供的图像方向的确定方法的流程示意图;
[0029]图4为本公开实施例四所提供的图像方向的确定方法的流程示意图;
[0030]图5为本公开实施例五所提供的图像方向的确定方法的流程示意图;
[0031]图6为本公开实施例六所提供的图像方向的确定方法的流程示意图;
[0032]图7为本公开实施例七所提供的图像方向的确定方法的流程示意图;
[0033]图8为本公开实施例八所提供的图像方向的确定装置的结构示意图;
[0034]图9示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
[0035]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0036]目前,可以采用深度学习技术,对文本图像进行OCR识别。具体的,可以在大量标注数据的驱动下,对用于检测或识别文本图像中的文本信息的深度学习模型进行训练,而后,将经过训练的深度学习模型部署到实际使用场景中。
[0037]常见的OCR系统除了包括文本检测模型和文本识别模型(或文本序列识别模型)之外,还包括方向判断模型,在文本检测模型之前,判断文本图像的方向,以对文本图像进行方向调正。然而,深度学习模型往往参数量和计算量巨大,多增加一个模型,就会多消耗计算资源,增加处理耗时。
[0038]其中,方向判断模型在判断文本图像的方向时,主要采用以下两种方案:基于整图的方向判断和基于文本行的方向判断。其中,基于整图的方向判断的方案相比于基于文本行的方向判断的方案的速度较慢,因为文本图像中所有的像素点都参与到方向的预测,而基于文本行的方向判断的方案,对每行文本行进行方向判断,在文档等多行的场景下,难免会存在某一行误判,体验较差。
[0039]其中,文本检测模型主要采用以下三种方案:
[0040]第一种,基于字符或部件组合方法:采用模型检测出各个字符或组成字符的笔画,然后通过预先设计好的规则,将属于同一个文字行的字符或笔画聚合成文字行。
[0041]然而,这类方法需要设计复杂的先验聚合规则,精度一般较低且不易维护。
[0042]第二种,基于文本行的检测方法:基于通用目标检测的思想,将文本行视作一种特殊类型的目标进行检测,文本图像经过一个深度卷积网络,直接得到所有文本行在文本图像中的位置。
[0043]虽然该类方法简单高效且具有较高的检测精度,可以较好地检测水平或带有一定倾斜角度的四边形文本行,但对于一些复杂场景中的任意形状文本则无法很好地表示。
[0044]第三种,基于语义分割的方法:将文本检测视为一个语义分割的问题,首先将文本图像中所有属于文本区域的像素与背景像素区分开来,然后基于分割结果,通过先验规则或是模型预测的方式,将各个文本行还原出来。
[0045]该类方法的优点是可以解决任意形状文本检测的问题,弱点是比较依赖于分割本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像方向的确定方法,所述方法包括:获取待识别图像,并从所述待识别图像中提取至少一个文本行区域;将所述至少一个文本行区域旋转第一设定角度,并从旋转后的所述至少一个文本行区域中提取设定个数的第一文本行区域;获取各所述第一文本行区域的字符识别的第一置信度;将各所述第一文本行区域旋转第二设定角度,并获取旋转后的各所述第一文本行区域的字符识别的第二置信度;根据各所述第一置信度和各所述第二置信度,确定所述待识别图像的方向。2.根据权利要求1所述的方法,其中,所述根据各所述第一置信度和各所述第二置信度,确定所述待识别图像的方向,包括:根据各所述第一置信度的均值,确定第一目标得分;根据各所述第二置信度的均值,确定第二目标得分;在所述第一目标得分与所述第二目标得分之间的差异大于设定差异阈值的情况下,根据所述第一目标得分和所述第二目标得分的大小关系,确定所述待识别图像的方向。3.根据权利要求2所述的方法,其中,所述在所述第一目标得分与所述第二目标得分的差异大于设定差异阈值的情况下,根据所述第一目标得分和所述第二目标得分的大小关系,确定所述待识别图像的方向,包括:在所述第一目标得分与所述第二目标得分的差异大于设定差异阈值的情况下,判断所述第一目标得分是否大于所述第二目标得分;在所述第一目标得分大于所述第二目标得分的情况下,根据所述第一设定角度,确定所述待识别图像的方向;在所述第一目标得分小于所述第二目标得分的情况下,则根据所述第一设定角度和所述第二设定角度之和,确定所述待识别图像的方向。4.根据权利要求2所述的方法,其中,所述根据各所述第一置信度和各所述第二置信度,确定所述待识别图像的方向,还包括:在所述第一目标得分与所述第二目标得分之间的差异小于或等于所述设定差异阈值的情况下,获取对各所述第一文本行区域进行分类得到的第一概率,其中,所述第一概率用于指示所述第一文本行区域属于设定类别的概率;获取对旋转后的各所述第一文本行区域进行分类得到的第二概率,其中,所述第二概率用于指示旋转后的所述第一文本行区域属于所述设定类别的概率;根据各所述第一概率和各所述第二概率,确定所述待识别图像的方向。5.根据权利要求4所述的方法,其中,所述根据各所述第一概率和各所述第二概率,确定所述待识别图像的方向,包括:在各所述第一概率中存在第一目标概率的情况下,根据所述第一设定角度,确定所述待识别图像的方向;其中,所述第一目标概率大于各所述第二概率;在各所述第二概率中存在第二目标概率的情况下,根据所述第一设定角度和所述第二设定角度之和,确定所述待识别图像的方向;其中,所述第二目标概率大于各所述第一概率。6.根据权利要求1所述的方法,其中,所述从所述待识别图像中提取至少一个文本行区
域,包括:对所述待识别图像进行特征提取,以得到图像特征;基于所述图像特征,确定所述待识别图像中各像素点属于对应文本行的中心线的第三概率;基于所述图像特征,确定各所述像素点与对应文本行的至少一个边界的偏移量;根据各所述像素点对应的第三概率和偏移量,从所述待识别图像中提取所述至少一个文本行区域。7.根据权利要求6所述的方法,其中,所述根据各像素点对应的第三概率和偏移量,从所述待识别图像中提取所述至少一个文本行区域,包括:根据各所述像素点对应的第三概率,确定所述待识别图像中各所述文本行区域的中心线;根据各所述文本行区域的中心线和各所述像素点的偏移量,确定至少一个文本框的位置信息;根据所述至少一个文本框的位置信息,从所述待识别图像中提取所述至少一个所述文本行区域。8.根据权利要求7所述的方法,其中,所述将所述至少一个文本行区域旋转第一设定角度,包括:从所述至少一个文本框中确定第一文本框和/或第二文本框,其中,所述第一文本框的高度大于所述第一文本框的宽度,所述第二文本框的宽度大于所述第二文本框的高度;在所述第一文本框的数量大于所述第二文本框的数量的情况下,将所述至少一个文本行区域旋转第一设定角度。9.根据权利要求8所述的方法,其中,所述方法还包括:在所述第一文本框的数量小于或等于所述第二文本框的数量的情况下,从所述至少一个文本行区域中提取所述设定个数的第二文本行区域;获取各所述第二文本行区域的字符识别的第三置信度;将各所述第二文本行区域旋转所述第二设定角度,并获取旋转后的各所述第二行文本区域的字符识别的第四置信度;根据各所述第三置信度和各所述第四置信度,确定所述待识别图像的方向。10.根据权利要求9所述的方法,其中,所述根据各所述第三置信度和各所述第四置信度,确定所述待识别图像的方向,包括:根据各所述第三置信度的均值,确定第三目标得分;根据各所述第四置信度的均值,确定第四目标得分;在所述第三目标得分与所述第四目标得分之间的差异大于设定差异阈值的情况下,根据所述第三目标得分和所述第四目标得分的大小关系,确定所述待识别图像的方向。11.根据权利要求10所述的方法,其中,所述根据各所述第三置信度和各所述第四置信度,确定所述待识别图像的方向,还包括:在所述第三目标得分与所述第四目标得分的差异小于或等于所述设定差异阈值的情况下,获取对各所述第二文本行区域进行分类得到的第四概率,其中,所述第四概率用于指示所述第二文本行区域属于设定类别的概率;
获取对旋转后的各所述第二文本行区域进行分类得到的第五概率,其中,所述第五概率用于指示旋转后的所述第二文本行区域属于所述设定类别的概率;根据各所述第四概率和各所述第五概率,确定所述待识别图像的方向。12.根据权利要求1

11中任一项所述的方法,其中,所述方法还包括:根据所述待识别图像的方向,对所述至少一个文本行区域进行旋转,以得到至少一个目标文本行区域;对各所述目标文本行区域进行字符识别,以得到各所述目标文本行区域的文本序列;根据各所述目标文本行区域在所述待识别图像中的位置,对各所述目标文本行区域的文本序列进行拼接,以得到字符识别结果。13.一种图像方向的确定装置,所述装置包括:第一获取模块,用于获取待识别图像;第一提取模块,用于从所述待识别图像中提取至少一个文本行区域;第一处理模块,用于将所述至少一个文本行区域旋转第一设...

【专利技术属性】
技术研发人员:范森刘珊珊吕鹏原章成全姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1