当前位置: 首页 > 专利查询>南京大学专利>正文

一种自然场景下端到端文本识别方法技术

技术编号:21893130 阅读:32 留言:0更新日期:2019-08-17 14:59
本发明专利技术公开了一种自然场景下端到端文本识别方法,包括用自然场景图片及真实标记训练框架以及对自然场景图片上文本区域及内容进行预测:训练阶段中,收集包含文本的自然场景下的图片、构建包含文本位置与内容的数据集、定义标准的端到端文本识别框架、使用真实检测标记训练检测部分、使用近邻相关边界优化算法优化检测区域、使用优化后的检测区域输入进识别部分中以训练识别部分参数、保存训练好的框架参数至数据平台;测试阶段中,读取训练好的框架参数、输入测试图像、检测阶段检测文本区域、采用基于近邻相关性边界优化算法优化检测区域、将优化后的检测区域送入识别部分进行文本识别。

An End-to-End Text Recognition Method in Natural Scenarios

【技术实现步骤摘要】
一种自然场景下端到端文本识别方法
本专利技术涉及一种基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,涉及自然场景下端到端文本识别,特别适用于检测区域边界不精确导致识别失败的问题。
技术介绍
自然场景下的端到端文本识别任务目的为,输入一张包含文本区域的自然场景图片,既要检测出图片位置,也要识别出相应位置文本内容。在端到端文本识别任务中,识别阶段的精确度受检测阶段精确度的影响很高,只有检测阶段精确地框住了文本中所有的字母,识别阶段才能输出精确的识别结果。特别的,现有端到端文本框架对于长文本或大文本区域的边界预测不准确,这给后续的识别任务带来了一定的困难。现有常用的后处理算法如非极大抑制(Non-MaximumSuppression,简称NMS)算法,或局部感知非极大抑制(Locality-AwareNMS,简称LANMS)算法,只能将相邻且交并比大的区域做合并,未对边界的精确性做要求,这就导致了检测过程可能得到不精确的边界,从而影响识别结果。
技术实现思路
专利技术目的:目前的端到端文本识别框架中,并未对检测结果的边界精确性做明确要求,现有框架对于长文本、大文本的检测结果通常边界不精确,甚至没有将文本完整框出,这导致了识别结果的不准确。针对上述问题,本专利技术设计了基于近邻相关性的边界优化算法,专利技术了采用该算法的端到端文本识别深度学习框架,方法表述了框架结构、框架训练过程、框架测试过程,以此来解决边界预测不精确的问题,提高端到端任务的精度。技术方案:一种自然场景下端到端文本识别方法,包括基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练,以及利用训练好的框架对自然场景中文本区域及内容进行端到端识别的测试过程。所述基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练的具体步骤为:步骤100,输入自然场景图像、真实标记区域、真实标记串至数据处理平台;步骤101,对输入自然场景图片做预处理,进行随机旋转、采样、正规化等操作;步骤102,使用真实标记区域生成真实类图与真实几何图以作为训练监督信息;步骤103,初始化整个框架的共享特征部分、检测部分、识别部分各部分的权重;步骤104,在数据处理平台上,使用自然场景图像、真实类图、真实几何图、真实标记串,用端到端的方法训练整个框架;其步骤为:自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果;步骤105,输出并保存框架各部分权重至数据处理平台的存储系统。利用训练好的基于近邻相关性边界优化算法的端到端文本识别深度学习框架,对自然场景中文本区域及内容进行端到端识别的测试,测试具体步骤为:步骤200,输入自然场景图像至数据处理平台;步骤201,读取已保存的训练好的框架各部分权重,包括共享特征部分、检测部分、识别部分各部分的权重;步骤202,自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果。所述的基于近邻相关性边界优化算法的端到端文本识别深度学习框架,其中共享特征部分,采用基于残差神经网络的U型框架提取共享特征;U型框架采用第一编码模块与第一解码模块相继连接的方式获得共享特征;所述第一编码模块包括多层卷积结构以及相邻层的卷积结构间的下采样结构,所述下采样结构用于对相邻层的卷积结构中的上层卷积结构输出的特征图进行下采样并将下采样的特征图输入相邻卷积结构中的下层卷积结构;所述第一解码模块包括多层卷积结构以及相邻层的卷积结构间的上采样结构,所述上采样结构用于对相邻层的卷积结构中的下层卷积结构输出的特征图进行上采样并将上采样的特征图输入相邻卷积结构中的上层卷积结构。所述的检测部分在共享特征上分别采用数次卷积生成预测的类图与几何图。所述的基于近邻相关性的边界优化算法,考虑了特征图上的点对相近。输入为检测部分预测的类图Fscore与几何图Fgeo,根据类图与几何图得到的单个文本区域分数阈值st,依赖于距离阈值rt的置信度函数fc;其步骤为:步骤501,对于单个文本区域得到只属于该区域,且在类图Fscore上的分类概率大于st的点集步骤502,对中每一点p,计算出该点距区域上、右、下、左四个边的距离步骤503,根据距离以及置信度函数fc,计算出置信度步骤504,对中每一点p与几何图Fgeo,计算出该点本身预测的区域步骤505,根据中所有点各自置信度以及预测的区域通过加权平均的过程计算出最终的区域算法所述的加权平均过程计算最终区域的过程,假设用表示区域的一个顶点坐标,区域为四边形,用i=1、2、3、4分别表示区域的左上角、右上角、右下角、左下角四个顶点,则坐标的加权过程可用以下公式描述:算法所述的置信度函数fc设计,可采用如下形式:所述的识别部分采用第二编码模块与第二解码模块相继连接的方式获得预测文本串;其中第二编码模块包括多层卷积结构以及相邻卷积结构间的下采样结构,第二解码模块采用基于长短时记忆神经网络结构。所述的双线性插值采样部分,针对一个检测结果区域,在共享特征图上找到相应的位置,对其进行双线性插值采样,获得识别特征图。有益效果:与现有技术相比,本专利技术提供的基于近邻相关性边界优化算法的端到端文本识别方法,利用到了特征图上点对近邻预测准确的性质,提高了检测结果边界的精度,从而提高了端到端任务的结果。附图说明图1为本专利技术实施的基于近邻相关性边界优化算法的流程图;图2为本专利技术设计的基于近邻相关性边界优化算法的端到端文本识别深度学习框架的共享特征层中,第一解码模块以及U型网络示意图;图3为本专利技术设计的基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练过程流程图;图4为具体使用学习算法训练的所述框架的流程图;图5为本专利技术设计的基于近邻相关性边界优化算法的端到端文本识别深度学习框架测试过程流程图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。基于近邻相关性边界优化算法的端到端文本识别深度学习框架,结构分为共享特征部分、检测部分、边界优化算法部分、双线性插值采样部分、识别部分等几个部分。共享特征部分可采用基于残差神经网络的U型框架提取共享特征;U型框架采用第一编码模块与第一解码模块相继连接的方式获得共享特征;第一编码模块包括多层卷积结构以及相邻层的卷积结构间的下采样结构,下采样结构用于对相邻层的卷积结构中的上层卷积结构输出的特征图进行下采样并将下采样的特征图输入相邻卷积结构中的下层卷积结构;第一解码模块包括多层卷积结构以及相邻层的卷积结构间的上采样结构,上采样结构用于对相邻层的卷积结构中的下层卷积结构输出的特征图进行上采样并将上采样的特征图输入相邻卷积结构中的上层卷积结构。检测部分在共享特征上分别采用数次卷积生成预测的类图与几何图。基于近邻相关性的边界优化算法核心思想在于,对某边本文档来自技高网...

【技术保护点】
1.一种基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,包括基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练,以及利用训练好的框架对自然场景中文本区域及内容进行端到端识别的测试过程;所述基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练的具体步骤为:步骤100,输入自然场景图像、真实标记区域、真实标记串至数据处理平台;步骤101,对输入自然场景图片做预处理;步骤102,使用真实标记区域生成真实类图与真实几何图以作为训练监督信息;步骤103,初始化整个框架的共享特征部分、检测部分、识别部分各部分的权重;步骤104,在数据处理平台上,使用自然场景图像、真实类图、真实几何图、真实标记串,用端到端的方法训练整个框架;其步骤为:自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果;步骤105,输出并保存框架各部分参数至数据处理平台的存储系统。

【技术特征摘要】
1.一种基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,包括基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练,以及利用训练好的框架对自然场景中文本区域及内容进行端到端识别的测试过程;所述基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练的具体步骤为:步骤100,输入自然场景图像、真实标记区域、真实标记串至数据处理平台;步骤101,对输入自然场景图片做预处理;步骤102,使用真实标记区域生成真实类图与真实几何图以作为训练监督信息;步骤103,初始化整个框架的共享特征部分、检测部分、识别部分各部分的权重;步骤104,在数据处理平台上,使用自然场景图像、真实类图、真实几何图、真实标记串,用端到端的方法训练整个框架;其步骤为:自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果;步骤105,输出并保存框架各部分参数至数据处理平台的存储系统。2.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,利用训练好的基于近邻相关性边界优化算法的端到端文本识别深度学习框架,对自然场景中文本区域及内容进行端到端识别的测试,测试具体步骤为:步骤200,输入自然场景图像至数据处理平台;步骤201,读取已保存的训练好的框架各部分权重,包括共享特征部分、检测部分、识别部分各部分的权重;步骤202,自然场景图像首先经过共享特征部分,得到共享特征图;检测部分利用共享特征图生成检测结果;近邻相关性边界优化算法优化检测结果;作用在共享特征图上的双线性插值将检测区域采样得到识别特征;识别部分利用输入的识别特征得到识别结果。3.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法,其特征在于,所述的基于近邻相关性边界优化算法的端到端文本识别深度学习框架,其中共享特征部分,采用基于残差神经网络的U型框架提取共享特征;U型框架采用第一编码模块与第一解码模块相继连接的方式获得共享特征;所述第一编码模块包括多层卷积结构以及相邻层的卷积结构间的下采样结构,所述下采样结构用于对相邻层的卷积结构中的上层卷积结构输出的特征图进行下采样并将下采样的特征图输入相邻卷积结构中的下层卷积结构;所述第一解码模块包括多层卷积结构以及相邻层的卷积结构间的上采样结构,所述上采样结构用于对相邻层的卷积结构中的下层卷积结构输出的特征图进行上采样并将上采样的特...

【专利技术属性】
技术研发人员:李武军陈雨
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1