一种任意形状的场景文本端到端识别方法技术

技术编号:18972764 阅读:46 留言:0更新日期:2018-09-19 03:47
本发明专利技术公开了一种任意形状的场景文本端到端识别方法,通过特征金字塔网络提取文本特征,用于区域提取网络生成候选文本框;然后通过快速区域分类回归分支调整候选文本框位置得到更准确的文本包围盒位置信息;其次将包围盒位置信息输入分割分支,通过像素投票算法得到预测字符序列;最后通过加权编辑距离算法对预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词得到最终的文本识别结果。该方法可以同时检测和识别自然图像中任意形状的场景文本,包括水平文本、多方向文本和曲形文本,并且可以完全地进行端到端训练。本发明专利技术提出的检测识别方法相对于现有技术在准确度和通用性这些方面都取得了卓越的效果,有很强的实际应用价值。

An end-to-end recognition method for arbitrary shape scene text

The invention discloses an end-to-end text recognition method for arbitrary shape scene, which extracts text features through feature pyramid network for region extraction network to generate candidate text boxes, then adjusts the position of candidate text boxes by fast region classification and regression branches to obtain more accurate text bounding box position information, and then extracts text features through feature pyramid network for region extraction network to generate candidate text boxes. The position information of the bounding box is input into the segmentation branch, and the predicted character sequence is obtained by pixel voting algorithm. Finally, the predicted character sequence is processed by weighted editing distance algorithm, and the best matching word of the predicted sequence in a given dictionary is found to get the final text recognition result. This method can simultaneously detect and recognize any shape of scene text in natural images, including horizontal text, multi-directional text and curved text, and can complete end-to-end training. Compared with the existing technology, the detection and recognition method of the invention has achieved remarkable results in accuracy and universality, and has strong practical application value.

【技术实现步骤摘要】
一种任意形状的场景文本端到端识别方法
本专利技术属于计算机视觉
,更具体地,涉及一种任意形状的场景文本端到端识别方法。
技术介绍
在计算机视觉领域中,场景文本检测和识别是一个非常活跃的、具有挑战性的研究方向,很多现实生活中的应用都和它息息相关,例如基于图片的地理定位、实时翻译和盲人帮助等。场景文本检测和识别方法的目标为同时检测和识别来自自然场景的文本,即分为检测和识别两个任务。在过去的大多数研究中,文本检测和识别都是分开处理的,即第一步使用训练好的检测器检测自然场景图片中的文字区域,第二步则将第一步检测出的文字区域输入识别模块进行识别,获取文字内容。但由于这两个任务是高度相关和互补的,一方面,检测步骤的质量决定了识别的准确性;另一方面,识别的结果也可以为检测提供反馈。这样分开处理可能导致检测和识别无法达到最优性能。最近,有两种方法提出了用于场景文本识别的端到端可训练框架。鉴于检测和识别之间的互补性,这些统一模型显著优于以前的方法。但是,这两种方法有两个主要缺点,首先,它们都不能完全以端对端的方式进行训练。其次,这些方法只能识别水平文本或定向文本,但实际场景图片中的文本的形状可能会存在显著变化,从水平或定向变为弯曲形式。因此需要设计一种可以处理任意形状的场景文本的端到端识别方法。
技术实现思路
本专利技术的目的在于提供一种任意形状的场景文本端到端识别方法,该识别方法由一个基于实例分割的文本检测器和一个基于字符分割的文本识别器组成。通过分割实例文本区域的方法实现检测任意形状的文本;通过二维空间中的语义分割来识别文本,实现识别不规则文本实例。该方法可以检测和识别任意形状的文本实例并可以完全地进行端到端训练。为实现上述目的,本专利技术从一个全新的视角来解决场景文字检测识别问题,提供了一种任意形状的场景文本的端到端识别方法,包括下述步骤:(1)训练任意形状的场景文本端到端识别网络模型,包括如下子步骤:(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列,得到带标注的标准训练数据集;(1.2)定义任意形状的场景文本端到端识别网络模型,所述检测识别网络模型由特征金字塔结构网络,区域提取网络、快速区域分类回归分支网络,分割分支网络组成。根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该任意形状的场景文本端到端识别网络,得到任意形状的场景文本端到端识别网络模型;具体包括如下子步骤:(1.2.1)构建任意形状的场景文本端到端识别网络模型,所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支网络和分割分支网络组成;其中,所述特征金字塔结构网络如图3所示,以ResNet-50深度卷积神经网络为基础网络,通过增加一个自底向上的连接,一个自顶向下的连接和一个横向连接组成,用于从输入标准数据集图片中提取融合不同分辨率的特征;将提取的不同尺度的特征输入到区域提取网络得到候选文本区域,经过感兴趣区域对齐操作后,得到固定尺度的候选文本区域,分别输入到快速区域分类回归分支和分割分支网络;将区域提取网络提取的分辨率为7×7的候选文本区域输入快速区域分类回归网络,通过分类分支预测输入的候选文本区域为正样本的概率,提供更准确的候选文本区域,通过回归分支计算候选文本区域相对于真实文本区域的偏移量,调整候选文本区域位置;分割分支网络如图4所示,由四个卷积层Conv1、Conv2、Conv3、Conv4、一个反卷积层DeConv和一个最终的卷积层Conv5构成,将区域提取网络提取的分辨率为16×64的候选文本区域输入分割分支,通过卷积与反卷积操作,最终生成38个分辨率为32×128的目标分割图层;其中包括1个全局文本实例分割图层用于预测文本区域的具体位置,36个字符分割图层和1个字符背景分割图层通过过像素投票算法得到预测字符序列。(1.2.2)根据带标注的标准训练数据集和特征图在原图上产生水平初始包围盒,为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签:对于带标注的标准训练数据集Itr,输入图片真实标签包含表示文本区域的多边形P={p1,p2…pm}和表示字符的类别和位置的字符标签C={c1=(cc1,cl1),c2=(cc2,cl2),…,cn=(ccn,cln)},对于输入图片Itri,其中,Pi是图片Itri中文本区域的多边形包围盒,pij=(xij,yij)是多边形Pi第j个顶点的坐标,m表示多边形文本标注框的数目,cck和clk分别是文本中第k个字符的类别和位置,在本专利技术中,C不是对于所有训练样本都是必需的。对于所给的标准数据集Itr,首先将数据集标签中的多边形P={p1,p2…pm}转换为多边形文本标注框的最小水平矩形包围盒,以矩形的中心点(x,y)以及高度h和宽度w来表示该矩形包围盒Gd(x,y,h,w);对于区域提取网络,根据标注数据集的标注包围盒Gd(x,y,h,w),以特征金字塔输出的待提取特征图中的每张特征图上的每个像素对应到原图,根据区域提取网络预测的候选文本区域产生许多初始包围盒,计算初始包围盒Q0相对于标注数据集的标注包围盒Gd的位置偏移量和类别,当所有的标注包围盒Gd与初始包围盒Q0的Jaccard系数均小于0.5,那么,初始包围盒Q0被标记为负类非文本,类别标签Prpn取值为0;否则,即至少存在一个标注包围盒Gd与Q0的Jaccard系数不小于0.5,Q0被标记为正类文本,类别标签Prpn取值为1,并相对于Jaccard系数最大的标注盒来计算位置偏移量,公式如下:x=x0+w0Δxy=y0+h0Δyw=w0exp(Δw)h=h0exp(Δh)其中,x0、y0分别为初始包围盒Q0的中心点的横坐标、纵坐标,w0、h0分别为初始包围盒Q0的宽度和高度,Δx、Δy分别为Q0的中心点相对于Gd的中心点的横、纵坐标位置偏移量,exp为指数运算,即可得区域提取网络的训练标签为:gtrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn,Prpn)对于快速区域分类回归分支网络,同理,可计算得训练标签为:gtrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn,Prcnn)对于分割分支网络,需生成两种类型的目标标签:用于文本实例分割的全局标签和用于字符语义分割的字符标签;对于给定的一个正候选文本框r,首先最佳匹配的水平矩形,进一步获得匹配的多边形以及字符框,接下来,将匹配的多边形和字符框进行移位和调整大小,以便将候选文本框r和预设高度为H以及预设宽度为W的目标标签按照以下公式进行对齐:By=(By0-min(ry))×H/(max(ry))其中,(rx,ry)为候选文本框r的顶点,(Bx,By)和(Bx0,By0)是多边形和所有字符框的更新顶点和原始顶点,具体地,rx分别为候选文本框r的所有顶点的横坐标的集合,ry为候选文本框r的所有顶点的纵坐标的集合,Bx,Bx0,By,By0同理,随后,通过在零初始化的掩膜上绘制标准多边形并将值填充为1生成目标全局标签Xg,对于字符标签,通过以中心为原点,缩小标准化字符框至原点框尺寸的八分之一,避免字符本文档来自技高网...

【技术保护点】
1.一种任意形状的场景文本端到端识别方法,其特征在于,所述方法包括下述步骤:(1)训练任意形状的场景文本端到端识别网络模型,包括如下子步骤:(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列,得到带标注的标准训练数据集;(1.2)定义任意形状的场景文本端到端识别网络模型,根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该场景文本端到端识别网络,得到场景文本端到端识别网络模型;包括:(1.2.1)构建任意形状的场景文本端到端识别网络模型,所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支和分割分支组成;(1.2.2)根据特征图在原图上产生水平初始包围盒,为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签;(1.2.3)以标准训练数据集Itr作为识别网络模型的输入,利用特征金字塔网络模块提取特征;(1.2.4)将特征金字塔网络提取的特征输入区域提取网络,经过锚点分配,利用感兴趣区域对齐方法调整特征图,生成候选文本框;(1.2.5)将候选文本框输入快速区域分类回归网络模块,经过分类和回归两个分支,计算损失函数并反向传导,最终生成预测文本包围盒;(1.2.6)将候选文本框输入分割分支网络模块,基于实例分割和语义分割,生成目标分割图层;(1.2.7)以训练标签gt为网络期望输出,以预测标签...

【技术特征摘要】
1.一种任意形状的场景文本端到端识别方法,其特征在于,所述方法包括下述步骤:(1)训练任意形状的场景文本端到端识别网络模型,包括如下子步骤:(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列,得到带标注的标准训练数据集;(1.2)定义任意形状的场景文本端到端识别网络模型,根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该场景文本端到端识别网络,得到场景文本端到端识别网络模型;包括:(1.2.1)构建任意形状的场景文本端到端识别网络模型,所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支和分割分支组成;(1.2.2)根据特征图在原图上产生水平初始包围盒,为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签;(1.2.3)以标准训练数据集Itr作为识别网络模型的输入,利用特征金字塔网络模块提取特征;(1.2.4)将特征金字塔网络提取的特征输入区域提取网络,经过锚点分配,利用感兴趣区域对齐方法调整特征图,生成候选文本框;(1.2.5)将候选文本框输入快速区域分类回归网络模块,经过分类和回归两个分支,计算损失函数并反向传导,最终生成预测文本包围盒;(1.2.6)将候选文本框输入分割分支网络模块,基于实例分割和语义分割,生成目标分割图层;(1.2.7)以训练标签gt为网络期望输出,以预测标签为网络预测输出,针对构建的网络模型,设计期望输出和预测输出之间的目标损失函数;(2)利用上述训练好的模型对待检测识别场景文本图片进行文字检测识别,包括如下子步骤:(2.1)将待检测识别场景文本图片提取特征输入快速区域分类回归分支网络生成候选文本区域,并对其进行非最大值抑制操作进行过滤,得到更准确的候选文本区域;(2.2)将预测的候选文本区域输入分割分支网络进行文本实例分割和字符分割,分别生成全局文本实例分割掩膜和字符分割掩膜,通过计算全局文本实例分割掩膜上文本区域的轮廓,获得多边形单词文本区域,通过在字符分割掩膜利用像素投票算法预测得到字符序列;(2.3)通过加权编辑距离算法对分割分支预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词,得到最终识别结果。2.根据权利要求1所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.1)中的检测识别网络模型具体为:所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支网络和分割分支网络组成;其中,所述特征金字塔结构网络以ResNet-50深度卷积神经网络为基础网络,通过增加一个自底向上的连接,一个自顶向下的连接和一个横向连接组成,用于从输入标准数据集图片中提取融合不同分辨率的特征;将提取的不同尺度的特征输入到区域提取网络得到候选文本区域,经过感兴趣区域对齐操作后,得到固定尺度的候选文本区域,分别输入到快速区域分类回归分支和分割分支网络;将区域提取网络提取的分辨率为7×7的候选文本区域输入快速区域分类回归网络,通过分类分支预测输入的候选文本区域为正样本的概率,提供更准确的候选文本区域,通过回归分支计算候选文本区域相对于真实文本区域的偏移量,调整候选文本区域位置;分割分支网络由四个卷积层Conv1、Conv2、Conv3、Conv4、一个反卷积层DeConv和一个最终的卷积层Conv5构成,将区域提取网络提取的分辨率为16×64的候选文本区域输入分割分支,通过卷积与反卷积操作,最终生成38个分辨率为32×128的目标分割图层;其中包括1个全局文本实例分割图层用于预测文本区域的具体位置,36个字符分割图层和1个字符背景分割图层通过过像素投票算法得到预测字符序列。3.根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.2)具体为:对于带标注的标准训练数据集Itr,输入图片真实标签包含表示文本区域的多边形P={p1,p2…pm}和表示字符的类别和位置的字符标签C={c1=(cc1,cl1),c2=(cc2,cl2),…,cn=(ccn,cln)},对于输入图片Itri,其中,Pi是图片Itri中文本区域的多边形包围盒,pij=(xij,yij)是多边形Pi第j个顶点的坐标,m表示多边形文本标注框的数目,cck和clk分别是文本中第k个字符的类别和位置;对于所给的标准数据集Itr,首先将数据集标签中的多边形P={p1,p2…pm}转换为多边形文本标注框的最小水平矩形包围盒,以矩形的中心点(x,y)以及高度h和宽度w来表示该矩形包围盒Gd(x,y,h,w);对于区域提取网络,根据标注数据集的标注包围盒Gd(x,y,h,w),以特征金字塔输出的待提取特征图中的每张特征图上的每个像素对应到原图,根据区域提取网络预测的候选文本区域产生许多初始包围盒,计算初始包围盒Q0相对于标注数据集的标注包围盒Gd的位置偏移量和类别,当所有的标注包围盒Gd与初始包围盒Q0的Jaccard系数均小于0.5,那么初始包围盒Q0被标记为负类非文本,类别标签Prpn取值为0;否则,即至少存在一个标注包围盒Gd与Q0的Jaccard系数不小于0.5,Q0被标记为正类文本,类别标签Prpn取值为1,并相对于Jaccard系数最大的标注盒来计算位置偏移量,公式如下:x=x0+w0Δxy=y0+h0Δyw=w0exp(Δw)h=h0exp(Δh)其中,x0、y0分别为初始包围盒Q0的中心点的横坐标、纵坐标,w0、h0分别为初始包围盒Q0的宽度和高度,Δx、Δy分别为Q0的中心点相对于Gd的中心点的横、纵坐标位置偏移量,exp为指数运算,即可得区域提取网络的训练标签为:gtrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn,Prpn)对于快速区域分类回归分支网络,同理,可计算得训练标签为:gtrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn,Prcnn);对于分割分支网络,需生成两种类型的目标标签:用于文本实例分割的全局标签和用于字符语义分割的字符标签;对于给定的一个正候选文本框r,首先最佳匹配的水平矩形,进一步获得匹配的多边形以及字符框,接下来,将匹配的多边形和字符框进行移位和调整大小,以便将候选文本框r和预设高度为H以及预设宽度为W的目标标签按照以下公式进行对齐:其中,(rx,ry)为候选文本框r的顶点,(Bx,By)和是多边形和所有字符框的更新顶点和原始顶点,具体地,rx分别为候选文本框r的所有顶点的横坐标的集合,ry为候选文本框r的所有顶点的纵坐标的集合,Bx,By,同理,随后,通过在零初始化的掩膜上绘制标准多边形并将值填充为1生成目标全局标签Xg,对于字符标签,通过以中心为原点,缩小标准化字符框至原点框尺寸的八分之一,避免字符掩膜相互重叠,再通过在零初始化掩膜上绘制缩小的字符框并使用它们相应的类别索引填充来生成字符标签Xc,如果C不存在,则字符图层中的所有像素均设置为-1,并且在优化时将被忽略,最终得到分割分支整体标签gtmask=X,综合上述标签gtrpn,gtrcnn,gtmask,生成最终的训练标签为:gt={Δxrpn,Δyrpn,Δhrpn,Δwrpn,Prpn,Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn,Prcnn,X}。4.根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.3)具体为:将标准训练数据集It...

【专利技术属性】
技术研发人员:白翔吕鹏原廖明辉姚聪储佳佳
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1