一种端到端的文本识别方法技术

技术编号:38492425 阅读:10 留言:0更新日期:2023-08-15 17:05
本发明专利技术公开了一种端到端的文本识别方法。该方法包括:获取待识别的文本图片;将所述文本图片输入到经训练的文本识别模型,获得文本识别结果。所述文本识别模型包括特征提取网络,文本检测分支和单字识别分支,所述特征提取网络用于提取文本候选特征和单字候选特征,所述文本检测分支基于文本候选特征预测文本边界框,所述单字识别分支通过针对单字候选特征进行关键点检测来预测单字的边界框和单字内容,所述文本识别结果通过组合落在文本边界框内的单字获得。本发明专利技术提高了文本识别的鲁棒性,能够准确识别多种场景下的文本内容,尤其适用于字体多样性的场景。适用于字体多样性的场景。适用于字体多样性的场景。

【技术实现步骤摘要】
一种端到端的文本识别方法


[0001]本专利技术涉及文本识别
,更具体地,涉及一种端到端的文本识别方法。

技术介绍

[0002]端到端文本识别,旨在以端到端的方式检测和识别文本,是计算机视觉领域的一个新兴的主题,可广泛应用于机器翻译、图像检索和自动驾驶等领域。
[0003]端到端文本识别通常由文本检测和识别模块组成。在早先的工作中,人们将文本检测和文本识别看作是两个相互独立的不同的任务。近年来,越来越多的工作将文本检测与识别统一到同一个端到端的可训练网络中,使检测和识别两部分的信息可以进行互补,这有助于提升模型的性能,称之为端到端文本识别(text spotting)。
[0004]目前,端到端文本识别主要关注场景文本,场景文本中的亮度变化和方向多样性已经被广泛研究,但由于自然图像中的大多数字符都是以标准印刷体呈现,因此近期工作都忽略了同一字符不同字体的形状差异对识别带来的影响。而在艺术字文本图片的识别中,这一问题对识别的影响会变得突出,也称之为字体多样性(font diversity)问题。
[0005]在现有技术中,存在多种端到端的文本识别方法。例如,首先使用RoI Polling通过端到端训练来关联检测和识别特征,但这种方法只能处理水平的文本。又如,提出了RoIRotate来处理倾斜文本,并通过共享卷积特征有效地连接检测和识别。再如,提出了一个基于Mask R

CNN和注意力机制的弯曲文本检测模型,它通过RoI masking操作提取特征。然而,在这些方法中,几何先验在文本定位中的重要性均被忽略了,导致文本识别性能下降。几何先验可以帮助深度学习模型提高性能,例如形状补全、位置嵌入和关键点检测。关键点检测可作为一种结构信息来辅助网络学习,但在现有技术中,还不存在基于几何先验的文本识别方案。
[0006]综上,文本的多样性是文本识别任务的关键挑战,现有的工作已经提出了多种方法来处理场景文本中光照和方向的多样性问题,但由于字符的内在多样性,即字体多样性,不同字体中相同字符的形状差异会导致阅读文本的性能显著下降,因此,目前的文本识别方法还有待改进。

技术实现思路

[0007]本专利技术的目的是克服上述现有技术的缺陷,提供一种端到端的文本识别方法。该方法包括以下步骤:
[0008]获取待识别的文本图片;
[0009]将所述文本图片输入到经训练的文本识别模型,获得文本识别结果;
[0010]其中,所述文本识别模型包括特征提取网络,文本检测分支和单字识别分支,所述特征提取网络用于提取文本候选特征和单字候选特征,所述文本检测分支基于文本候选特征预测文本边界框,所述单字识别分支通过针对单字候选特征进行关键点检测来预测单字的边界框和单字内容,所述文本识别结果通过组合落在文本边界框内的单字获得。
[0011]与现有技术相比,本专利技术的优点在于,利用端到端的文本识别模型来预测文本边界框,以及单字的边界框和单字内容,并通过组合落在文本边界框内的单字得到文本识别结果,提升了文本识别的准确度。并且针对单字边界框和单字内容的预测,引入了关键点检测,进一步提高了文本识别的鲁棒性,能够准确识别多种场景下的文本内容,尤其适用于具有字体多样性的场景。
[0012]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
附图说明
[0013]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。
[0014]图1是根据本专利技术一个实施例的端到端的文本识别方法的流程图;
[0015]图2是根据本专利技术一个实施例的端到端的文本识别方法的过程示意图;
[0016]图3是根据本专利技术一个实施例的关键点检测模块的示意图;
[0017]图4是根据本专利技术一个实施例的单字识别分支的过程示意图;
[0018]图5是根据本专利技术一个实施例的文本识别方法的应用过程示意图;
[0019]图6是根据本专利技术一个实施例的文本识别效果示意图。
具体实施方式
[0020]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。
[0021]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。
[0022]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0023]在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
[0024]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0025]参见图1所示,所提供的端到端的文本识别方法包括以下步骤。
[0026]步骤S110,构建端到端的文本识别模型。
[0027]具体地,结合图2所示,文字识别模型整体上包括特征提取网络,文本检测分支和单字识别分支。特征提取网络用于提取文本候选特征和单字候选特征。文本检测分支基于文本候选特征预测文本边界框。单字识别分支基于单字候选特征预测单字的边界框和单字内容,而最终的文本识别结果融合了文本检测分支输出的结果和单字识别分支输出的结果,即通过组合落在文本边界框内的单字获得。
[0028]由图2可以看出,单字识别分支包含关键点检测模块、图推理模块、检测和识别模块等功能模块。关键点检测模块用于将单字候选特征与提取的多个关键点位置信息结合,
获得位置增强的特征。图推理模块针对位置增强特征以及对应的单字特征进行融合,获得融合后的单字特征,进而利用检测和识别模块提取单字的边界框和单字内容。
[0029]图3是关键点检测模块的示例,具体包括两个关键点检测网络和特征几何变换模块。其中一个关键点检测网络用于从单字特征中获取关键点概率图,另一个关键点检测网络用于从单字特征经由特征几何变换后,获取估计的关键点概率图。检测的关键点数目可根据实际需要设置,各关键点反映了对单字或字符检测的重要性。通过将关键点检测引入文本识别中,定位出每个字符的关键位置(具有形变不变性的位置),增强了对同一字符不同字体的识别。
[0030]在图3中,H是经过RoIAlign(感兴趣区域对齐)操作后得到的单字特征,代表经过特征几何变换后得到的特征,M
l
和分别是原始单字特征H和几何变换特征经过关键点检测网络得到的关键点特征图,l标识关键点(landmark)。用于对齐两个特征图,用于确保对齐的关键点相互分离;align和div分别标识该目标函数的作用是对齐和分离。
[0031]应理解的是,在实际应用中,两个关键点检测网络可采用相同或不同的结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端的文本识别方法,包括以下步骤:获取待识别的文本图片;将所述文本图片输入到经训练的文本识别模型,获得文本识别结果;其中,所述文本识别模型包括特征提取网络,文本检测分支和单字识别分支,所述特征提取网络用于提取文本候选特征和单字候选特征,所述文本检测分支基于文本候选特征预测文本边界框,所述单字识别分支通过针对单字候选特征进行关键点检测来预测单字的边界框和单字内容,所述文本识别结果通过组合落在文本边界框内的单字获得。2.根据权利要求1所述的方法,其特征在于,所述特征提取网络包含骨干特征提取网络和区域候选网络,所述骨干特征提取网络对输入的文本图片进行特征提取,然后经过所述区域候选网络选出包含文本和单字的特征区域,分别得到所述文本候选特征和所述单字候选特征。3.根据权利要求1所述的方法,其特征在于,所述单字识别分支包含关键点检测模块、图推理模块以及检测和识别模块,其中所述关键点检测模块用于从输入的单字特征中抽取出多个关键点位置,以对单字特征进行位置增强,获得位置增强特征,所述图推理模块针对所述位置增强特征以及相应的单字特征进行融合,获得融合后的单字特征,进而利用所述检测和识别模块提取单字的边界框和单字内容。4.根据权利要求1所述的方法,其特征在于,在所述文本检测分支中,感兴趣区域对齐操作得到的文本区域特征...

【专利技术属性】
技术研发人员:郝希烜付彬张澳中孟宪泽乔宇
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1