【技术实现步骤摘要】
文本识别方法及装置、设备、介质和产品
[0001]本公开涉及人工智能
,具体为深度学习、图像处理、计算机视觉
,可应用于OCR(Optical Character Recognition,光学字符识别)等场景。
技术介绍
[0002]文本识别在计算机视觉、图像处理、数字媒体技术、智能翻译、自动驾驶等场景中有着广泛应用。但是,在一些场景下,文本识别过程存在识别效果不佳、识别时效性低的现象。
技术实现思路
[0003]本公开提供了一种文本识别方法及装置、设备、介质和产品。
[0004]根据本公开的一方面,提供了一种文本识别方法,包括:确定图像序列中的第一文本图像的待识别文本行;对所述待识别文本行进行切分,得到候选文本片区;根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区,确定所述候选文本片区中的第二有效文本片区;以及对所述第二有效文本片区进行识别,得到所述第一文本图像的文本识别结果。
[0005]根据本公开的另一方面,提供了一种文本识别装置,包括:待识别文本行确定模块,用于确定图像序列中的第一文本图像的待识别文本行;候选文本片区确定模块,用于对所述待识别文本行进行切分,得到候选文本片区;第二有效文本片区确定模块,用于根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区,确定所述候选文本片区中的第二有效文本片区;以及文本识别模块,用于对所述第二有效文本片区进行识别,得到所述第一文本图像的文本识别结果。
[0006]根据本公开 ...
【技术保护点】
【技术特征摘要】
1.一种文本识别方法,包括:确定图像序列中的第一文本图像的待识别文本行;对所述待识别文本行进行切分,得到候选文本片区;根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区,确定所述候选文本片区中的第二有效文本片区;以及对所述第二有效文本片区进行识别,得到所述第一文本图像的文本识别结果。2.根据权利要求1所述的方法,其中,所述根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区,确定所述候选文本片区中的第二有效文本片区,包括:确定所述候选文本片区中重复出现的第一有效文本片区,得到第三有效文本片区;以及从所述候选文本片区中删除所述第三有效文本片区,得到所述第二有效文本片区。3.根据权利要求2所述的方法,其中,所述确定所述候选文本片区中重复出现的第一有效文本片区,得到第三有效文本片区,包括:确定所述第一有效文本片区的第一图像特征和所述候选文本片区的第二图像特征;获取所述第一图像特征和所述第二图像特征之间的匹配计算结果;根据所述匹配计算结果确定所述第三有效文本片区,其中,所述第三有效文本片区对应的所述匹配计算结果指示的特征匹配度高于预设阈值。4.根据权利要求3所述的方法,其中,所述获取所述第一图像特征和所述第二图像特征之间的匹配计算结果,包括:在所述第二文本图像中包括基于片区坐标排序的M个第一有效文本片区、所述第一文本图像中包括基于片区坐标排序的N个候选文本片区的情况下,获取第M个第一有效文本片区的第一图像特征和前n个候选文本片区的第二图像特征之间的匹配计算结果;所述根据所述匹配计算结果确定所述第三有效文本片区,包括:在所述匹配计算结果指示所述第M个第一有效文本片区与第n个候选文本片区的特征匹配度高于预设阈值的情况下,确定前n
‑
1个候选文本片区与第m个第一有效文本片区的对应特征匹配度是否高于预设阈值;以及在所述对应特征匹配度高于预设阈值的情况下,将前n个候选文本片区作为所述第三有效文本片区,其中,M、N为大于1的整数,n为整数且n∈[1,N],m为正整数且m={M
‑
(n
‑
1)、...、M
‑
1}。5.根据权利要求3所述的方法,其中,所述对所述第二有效文本片区进行识别,得到所述第一文本图像的文本识别结果,包括:对所述第二有效文本片区的第三图像特征进行序列化编码,得到基础编码序列;在所述基础编码序列中加入第一方向信息,得到第一编码序列;在所述基础编码序列中加入第二方向信息,得到第二编码序列;以及基于所述第一编码序列和所述第二编码序列进行文本识别,得到所述文本识别结果,其中,所述第一方向信息指示与所述第二有效文本片区的分布方向相同的方向,所述第二方向信息指示与所述分布方向相反的方向。
6.根据权利要求1所述的方法,其中,所述在图像序列中确定第一文本图像中的待识别文本行,包括:对所述第一文本图像进行文本检测,得到文本检测结果,其中,所述文本检测结果包括用于在所述第一文本图像中框选文本图像区域的边界框坐标信息;以及根据所述坐标信息,确定所述待识别文本行。7.根据权利要求1所述的方法,其中,所述对所述待识别文本行进行切分,得到候选文本片区,包括:对所述待识别文本行进行基于预设像素尺度的切分处理,得到所述候选文本片区,其中,所述候选文本片区对应至少部分字符所在的文本图像区域。8.根据权利要求1至7中任一项所述的方法,还包括:根据所述图像序列中的至少两个文本图像之间的时序关系,对与所述至少两个文本图像关联的文本识别结果进行组合,得到针对所述图像序列的文本识别结果。9.一种文本识别装置,包括:待识别文本行确定模块,用于确定图像序列中的第一文本图像的待识别文本行;候选文本片区确定模块,用于对所述待识别文本行进行切分,得到候选文本片区;第二有效文本片区确定模块,用于根据所述图像序列中与所述第一文本图像相邻的第二文本图像中的第一有效文本片区,确定所述候选文本片区中的第二有效文本片区;以及文本识别模块,用于对所述第二有效文本片区进行识别,得到所...
【专利技术属性】
技术研发人员:章成全,乔美娜,吕鹏原,刘珊珊,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。