文本识别方法及装置、设备、介质和产品制造方法及图纸

技术编号:35190487 阅读:15 留言:0更新日期:2022-10-12 18:08
本公开提供了一种文本识别方法及装置、设备、介质和产品,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案包括:确定图像序列中的第一文本图像的待识别文本行;对待识别文本行进行切分,得到候选文本片区;根据图像序列中与第一文本图像相邻的第二文本图像中的第一有效文本片区,确定候选文本片区中的第二有效文本片区;以及对第二有效文本片区进行识别,得到第一文本图像的文本识别结果。得到第一文本图像的文本识别结果。得到第一文本图像的文本识别结果。

【技术实现步骤摘要】
文本识别方法及装置、设备、介质和产品


[0001]本公开涉及人工智能
,具体为深度学习、图像处理、计算机视觉
,可应用于OCR(Optical Character Recognition,光学字符识别)等场景。

技术介绍

[0002]文本识别在计算机视觉、图像处理、数字媒体技术、智能翻译、自动驾驶等场景中有着广泛应用。但是,在一些场景下,文本识别过程存在识别效果不佳、识别时效性低的现象。

技术实现思路

[0003]本公开提供了一种文本识别方法及装置、设备、介质和产品。
[0004]根据本公开的一方面,提供了一种文本识别方法,包括:确定图像序列中的第一文本图像的待识别文本行;对所述待识别文本行进行切分,得到候选文本片区;根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区,确定所述候选文本片区中的第二有效文本片区;以及对所述第二有效文本片区进行识别,得到所述第一文本图像的文本识别结果。
[0005]根据本公开的另一方面,提供了一种文本识别装置,包括:待识别文本行确定模块,用于确定图像序列中的第一文本图像的待识别文本行;候选文本片区确定模块,用于对所述待识别文本行进行切分,得到候选文本片区;第二有效文本片区确定模块,用于根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区,确定所述候选文本片区中的第二有效文本片区;以及文本识别模块,用于对所述第二有效文本片区进行识别,得到所述第一文本图像的文本识别结果。
[0006]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器和与至少一个处理器通信连接的存储器。其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的文本识别方法。
[0007]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述的文本识别方法。
[0008]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序存储于可读存储介质和电子设备其中至少之一上,计算机程序在被处理器执行时实现上述的文本识别方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1示意性示出了根据本公开一实施例的文本识别方法和装置的系统架构;
[0012]图2示意性示出了根据本公开一实施例的文本识别方法的流程图;
[0013]图3示意性示出了根据本公开又一实施例的文本识别方法的流程图;
[0014]图4示意性示出了根据本公开一实施例的文本识别过程的示意图;
[0015]图5示意性示出了根据本公开一实施例的文本识别装置的框图;
[0016]图6示意性示出了根据本公开实施例的用于文本识别的电子设备的框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
[0019]在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
[0020]在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
[0021]本公开的实施例提供了一种文本识别方法。本实施例方法包括:确定图像序列中的第一文本图像的待识别文本行,对待识别文本行进行切分,得到候选文本片区,根据图像序列中与第一文本图像相邻的第二文本图像中的第一有效文本片区,确定候选文本片区中的第二有效文本片区,以及对第二有效文本片区进行识别,得到第一文本图像的文本识别结果。
[0022]图1示意性示出了根据本公开一实施例的文本识别方法和装置的系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
[0023]根据该实施例的系统架构100可以包括请求终端101、网络102和服务器103。网络102用于在请求终端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。服务器103可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云服务、云计算、网络服务、中间件服务等基础云计算服务的云服务器。
[0024]请求终端101通过网络102与服务器103进行交互,以接收或发送数据等。请求终端101例如用于向服务器103发起文本识别请求,请求终端101例如还用于向服务器103发送待识别的图像序列,图像序列中包括具有时序关系的多帧文本图像。
[0025]服务器103可以是提供各种服务的服务器,例如可以是根据由请求终端101发送的
文本识别请求进行文本识别处理的后台处理服务器(仅为示例)。
[0026]例如,服务器103响应于自请求终端101获取的文本识别请求,确定图像序列中的第一文本图像的待识别文本行,对待识别文本行进行切分,得到候选文本片区,根据图像序列中与第一文本图像相邻的第二文本图像中的第一有效文本片区,确定候选文本片区中的第二有效文本片区,以及对第二有效文本片区进行识别,得到第一文本图像的文本识别结果。
[0027]需要说明的是,本公开实施例所提供的文本识别方法可以由服务器103执行。相应地,本公开实施例所提供的文本识别装置可以设置于服务器103中。本公开实施例所提供的文本识别方法也可以由不同于服务器103且能够与请求终端101和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文本识别装置也可以设置于不同于服务器103且能够与请求终端101和/或服务器103通信的服务器或服务器集群中。
[0028]应该理解,图1中的请求终端、网络和服务器的数目仅仅是示意性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,包括:确定图像序列中的第一文本图像的待识别文本行;对所述待识别文本行进行切分,得到候选文本片区;根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区,确定所述候选文本片区中的第二有效文本片区;以及对所述第二有效文本片区进行识别,得到所述第一文本图像的文本识别结果。2.根据权利要求1所述的方法,其中,所述根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区,确定所述候选文本片区中的第二有效文本片区,包括:确定所述候选文本片区中重复出现的第一有效文本片区,得到第三有效文本片区;以及从所述候选文本片区中删除所述第三有效文本片区,得到所述第二有效文本片区。3.根据权利要求2所述的方法,其中,所述确定所述候选文本片区中重复出现的第一有效文本片区,得到第三有效文本片区,包括:确定所述第一有效文本片区的第一图像特征和所述候选文本片区的第二图像特征;获取所述第一图像特征和所述第二图像特征之间的匹配计算结果;根据所述匹配计算结果确定所述第三有效文本片区,其中,所述第三有效文本片区对应的所述匹配计算结果指示的特征匹配度高于预设阈值。4.根据权利要求3所述的方法,其中,所述获取所述第一图像特征和所述第二图像特征之间的匹配计算结果,包括:在所述第二文本图像中包括基于片区坐标排序的M个第一有效文本片区、所述第一文本图像中包括基于片区坐标排序的N个候选文本片区的情况下,获取第M个第一有效文本片区的第一图像特征和前n个候选文本片区的第二图像特征之间的匹配计算结果;所述根据所述匹配计算结果确定所述第三有效文本片区,包括:在所述匹配计算结果指示所述第M个第一有效文本片区与第n个候选文本片区的特征匹配度高于预设阈值的情况下,确定前n

1个候选文本片区与第m个第一有效文本片区的对应特征匹配度是否高于预设阈值;以及在所述对应特征匹配度高于预设阈值的情况下,将前n个候选文本片区作为所述第三有效文本片区,其中,M、N为大于1的整数,n为整数且n∈[1,N],m为正整数且m={M

(n

1)、...、M

1}。5.根据权利要求3所述的方法,其中,所述对所述第二有效文本片区进行识别,得到所述第一文本图像的文本识别结果,包括:对所述第二有效文本片区的第三图像特征进行序列化编码,得到基础编码序列;在所述基础编码序列中加入第一方向信息,得到第一编码序列;在所述基础编码序列中加入第二方向信息,得到第二编码序列;以及基于所述第一编码序列和所述第二编码序列进行文本识别,得到所述文本识别结果,其中,所述第一方向信息指示与所述第二有效文本片区的分布方向相同的方向,所述第二方向信息指示与所述分布方向相反的方向。
6.根据权利要求1所述的方法,其中,所述在图像序列中确定第一文本图像中的待识别文本行,包括:对所述第一文本图像进行文本检测,得到文本检测结果,其中,所述文本检测结果包括用于在所述第一文本图像中框选文本图像区域的边界框坐标信息;以及根据所述坐标信息,确定所述待识别文本行。7.根据权利要求1所述的方法,其中,所述对所述待识别文本行进行切分,得到候选文本片区,包括:对所述待识别文本行进行基于预设像素尺度的切分处理,得到所述候选文本片区,其中,所述候选文本片区对应至少部分字符所在的文本图像区域。8.根据权利要求1至7中任一项所述的方法,还包括:根据所述图像序列中的至少两个文本图像之间的时序关系,对与所述至少两个文本图像关联的文本识别结果进行组合,得到针对所述图像序列的文本识别结果。9.一种文本识别装置,包括:待识别文本行确定模块,用于确定图像序列中的第一文本图像的待识别文本行;候选文本片区确定模块,用于对所述待识别文本行进行切分,得到候选文本片区;第二有效文本片区确定模块,用于根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区,确定所述候选文本片区中的第二有效文本片区;以及文本识别模块,用于对所述第二有效文本片区进行识别,得到所...

【专利技术属性】
技术研发人员:章成全乔美娜吕鹏原刘珊珊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1