文本识别方法、装置、电子设备和介质制造方法及图纸

技术编号:33451869 阅读:18 留言:0更新日期:2022-05-19 00:35
本公开提供了一种文本识别方法、装置、电子设备和介质,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。实现方案为:对待检测图像进行目标检测,获取至少一个检测框;获取待检测图像位于至少一个检测框内的部分的像素值;对位于至少一个检测框中任意一个检测框内的目标文本进行识别,以获得文本识别结果和与文本识别结果相对应的置信度;响应于置信度小于第一阈值,确定与该置信度相对应的文本识别结果为模糊,并确定模糊检测框;基于待检测图像位于模糊检测框内的部分的像素值与第二阈值的比较,确定待检测图像位于模糊检测框内的部分的图像缺陷种类。分的图像缺陷种类。分的图像缺陷种类。

【技术实现步骤摘要】
文本识别方法、装置、电子设备和介质


[0001]本公开涉及人工智能
,尤其涉及深度学习、计算机视觉
,可应用于光学字符识别(Optical Character Recognition,OCR)等场景,具体涉及一种文本识别方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]光学字符识别(OCR)技术是计算机视觉技术的一个重要分支。文字识别的精确度在很大程度上取决于图像的清晰度,只有达到了一定的清晰度,才能保证识别结果的准确性。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种文本识别方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种文本识别方法。该方法包括:对待检测图像进行目标检测,获取至少一个检测框,至少一个检测框中的每个检测框分别包围待检测图像中的一个目标文本行;获取待检测图像位于至少一个检测框内的部分的像素值;对位于至少一个检测框中任意一个检测框内的目标文本进行识别,以获得文本识别结果和与文本识别结果相对应的置信度;响应于置信度小于第一阈值,确定与该置信度相对应的文本识别结果为模糊,并确定模糊检测框,模糊检测框是至少一个检测框中、与被确定为模糊的文本识别结果相对应的目标文本行所在的检测框;以及基于待检测图像位于模糊检测框内的部分的像素值与第二阈值的比较,确定待检测图像位于模糊检测框内的部分的图像缺陷种类。
[0007]根据本公开的另一方面,提供了一种文本识别装置。该装置包括:目标检测单元,目标检测单元被配置为对待检测图像进行目标检测,获取至少一个检测框,至少一个检测框中的每个检测框分别包围待检测图像中的一个目标文本行;像素值获取单元,像素值获取单元被配置为获取待检测图像位于至少一个检测框内的部分的像素值;文本识别单元,文本识别单元被配置为对位于至少一个检测框中任意一个检测框内的目标文本进行识别,以获得文本识别结果和与文本识别结果相对应的置信度;模糊检测框确定单元,模糊检测框确定单元被配置为响应于置信度小于第一阈值,确定与该置信度相对应的文本识别结果
为模糊,并确定模糊检测框,模糊检测框是至少一个检测框中、与被确定为模糊的文本识别结果相对应的目标文本行所在的检测框;以及图像缺陷种类确定单元,图像缺陷种类确定单元被配置为基于待检测图像位于模糊检测框内的部分的像素值与第二阈值的比较,确定待检测图像位于模糊检测框内的部分的图像缺陷种类。
[0008]根据本公开的另一方面,提供了一种电子设备。该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据上述的方法。
[0009]根据本公开的另一方面,还提供一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行根据上述的方法。
[0010]根据本公开的另一方面,还提供一种计算机程序产品,包括计算机程序,其中,该计算机程序在被处理器执行时实现上述的方法。
[0011]根据本公开的一个或多个实施例,可以高效、低成本地确定图像质量较差的文本行,从而提升文本识别精度。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0014]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0015]图2示出了根据本公开的实施例的文本识别方法的流程图;
[0016]图3示出了根据本公开的实施例的文本识别方法的流程图;
[0017]图4示出了根据本公开的实施例的图3的方法中部分示例过程的流程图;
[0018]图5示出了根据本公开的实施例的图3的方法中部分示例过程的流程图;
[0019]图6a示出了可以实现根据本公开的实施例的文本识别方法的场景图;
[0020]图6b示出了可以实现根据本公开的实施例的文本识别方法的场景图;
[0021]图7示出了根据本公开的实施例的文本识别装置的结构框图;
[0022]图8示出了根据本公开的实施例的文本识别装置的结构框图;以及
[0023]图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0024]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0025]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另
一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0026]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0027]在相关技术中,对图像中的文本内容进行光学字符识别时,可能因为图像质量差(例如因为图像中存在遮挡或反光部分而造成的图像模糊)而造成识别得到的文本内容与文本的真实内容存在差异,从而降低了文本识别的精度。若通过人工对识别结果进行校验耗时耗力,效率低下。相关技术通过训练专用的图像检测质量分类模型,使用训练出的模型来判断图像质量,不仅增加了图像处理的时间开销,而且导致文本识别率不稳定。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,包括:对待检测图像进行目标检测,获取至少一个检测框,所述至少一个检测框中的每个检测框分别包围所述待检测图像中的一个目标文本行;获取所述待检测图像位于所述至少一个检测框内的部分的像素值;对位于所述至少一个检测框中任意一个检测框内的目标文本进行识别,以获得文本识别结果和与所述文本识别结果相对应的置信度;响应于所述置信度小于第一阈值,确定与该置信度相对应的文本识别结果为模糊,并确定模糊检测框,所述模糊检测框是所述至少一个检测框中、与被确定为模糊的文本识别结果相对应的目标文本行所在的检测框;以及基于所述待检测图像位于所述模糊检测框内的部分的像素值与第二阈值的比较,确定所述待检测图像位于所述模糊检测框内的部分的图像缺陷种类。2.根据权利要求1所述的方法,其中,获取所述待检测图像位于所述至少一个检测框内的部分的像素值包括:获取所述待检测图像位于所述至少一个检测框内的部分的像素平均值,并且其中,确定所述待检测图像位于所述模糊检测框内的部分的图像缺陷种类包括:响应于确定所述像素平均值小于所述第二阈值,确定所述待检测图像位于所述模糊检测框内的部分的图像缺陷种类为过暗缺陷;或响应于确定所述像素平均值大于所述第二阈值,确定所述待检测图像位于所述模糊检测框内的部分的图像缺陷种类为过亮缺陷。3.根据权利要求1所述的方法,还包括:响应于所述置信度大于或等于所述第一阈值,对通过识别获得的文本识别结果进行校验;以及响应于校验不通过,确定通过识别获得的文本识别结果为错误结果。4.根据权利要求3所述的方法,其中,通过识别获得的文本识别结果包括第一数量的字符,并且其中,对通过识别获得的文本识别结果进行校验包括:将所述第一数量与相应的数量阈值进行比较;以及响应于所述第一数量与所述数量阈值不相等,确定校验不通过。5.根据权利要求3所述的方法,其中,对通过识别获得的文本识别结果进行校验包括:根据通过识别获得的文本识别结果,在文本库中查询;以及响应于未查询到与通过识别获得的文本识别结果相同的结果,确定校验不通过。6.根据权利要求2所述的方法,还包括:响应于确定所述待检测图像位于所述模糊检测框内的部分的图像缺陷种类为过暗缺陷,发出第一提示信息;或响应于确定所述待检测图像位于所述模糊检测框内的部分的图像缺陷种类为过亮缺陷,发出不同于所述第一提示信息的第二提示信息。7.根据权利要求1至6中任一项所述的方法,其中,所述待检测图像是包括卡证的整体或局部的图像,并且其中,目标文本行是所述卡证中的用户信息文本行。8.一种文本识别装置,包括:
目标检测单元,所述目标检测单元被配置为对待检测图像进行目标检测,获取至少一个检测框,所述至少一个检测框中的每个检测框分别包围所述待检测图像中的一个目标文本行;像素值获取单元,所述像素值获取单元被配置为获取所述待检测图像位于所述至少一个检测框内的部分的像素值;文本识别单元,所述文本识别单元被配置为对位于所述至少一个检测框中任意一个检测框内的目标文本进行识别,以获得文本识别结果和与所述文本识别结果相...

【专利技术属性】
技术研发人员:朱雄威孙逸鹏姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1