一种自然场景下端到端文本识别方法技术

技术编号：21893130 阅读：32 留言：0更新日期：2019-08-17 14:59

本发明专利技术公开了一种自然场景下端到端文本识别方法，包括用自然场景图片及真实标记训练框架以及对自然场景图片上文本区域及内容进行预测：训练阶段中，收集包含文本的自然场景下的图片、构建包含文本位置与内容的数据集、定义标准的端到端文本识别框架、使用真实检测标记训练检测部分、使用近邻相关边界优化算法优化检测区域、使用优化后的检测区域输入进识别部分中以训练识别部分参数、保存训练好的框架参数至数据平台；测试阶段中，读取训练好的框架参数、输入测试图像、检测阶段检测文本区域、采用基于近邻相关性边界优化算法优化检测区域、将优化后的检测区域送入识别部分进行文本识别。

An End-to-End Text Recognition Method in Natural Scenarios

全部详细技术资料下载

【技术实现步骤摘要】
一种自然场景下端到端文本识别方法
本专利技术涉及一种基于近邻相关性边界优化算法的自然场景下端到端文本识别方法，涉及自然场景下端到端文本识别，特别适用于检测区域边界不精确导致识别失败的问题。
技术介绍
自然场景下的端到端文本识别任务目的为，输入一张包含文本区域的自然场景图片，既要检测出图片位置，也要识别出相应位置文本内容。在端到端文本识别任务中，识别阶段的精确度受检测阶段精确度的影响很高，只有检测阶段精确地框住了文本中所有的字母，识别阶段才能输出精确的识别结果。特别的，现有端到端文本框架对于长文本或大文本区域的边界预测不准确，这给后续的识别任务带来了一定的困难。现有常用的后处理算法如非极大抑制(Non-MaximumSuppression，简称NMS)算法，或局部感知非极大抑制(Locality-AwareNMS，简称LANMS)算法，只能将相邻且交并比大的区域做合并，未对边界的精确性做要求，这就导致了检测过程可能得到不精确的边界，从而影响识别结果。
技术实现思路
专利技术目的：目前的端到端文本识别框架中，并未对检测结果的边界精确性做明确要求，现有框架对于长文本、大文本的检测结果通常边界不精确，甚至没有将文本完整框出，这导致了识别结果的不准确。针对上述问题，本专利技术设计了基于近邻相关性的边界优化算法，专利技术了采用该算法的端到端文本识别深度学习框架，方法表述了框架结构、框架训练过程、框架测试过程，以此来解决边界预测不精确的问题，提高端到端任务的精度。技术方案：一种自然场景下端到端文本识别方法，包括基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练，以及...

【技术保护点】
1.一种基于近邻相关性边界优化算法的自然场景下端到端文本识别方法，其特征在于，包括基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练，以及利用训练好的框架对自然场景中文本区域及内容进行端到端识别的测试过程；所述基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练的具体步骤为：步骤100，输入自然场景图像、真实标记区域、真实标记串至数据处理平台；步骤101，对输入自然场景图片做预处理；步骤102，使用真实标记区域生成真实类图与真实几何图以作为训练监督信息；步骤103，初始化整个框架的共享特征部分、检测部分、识别部分各部分的权重；步骤104，在数据处理平台上，使用自然场景图像、真实类图、真实几何图、真实标记串，用端到端的方法训练整个框架；其步骤为：自然场景图像首先经过共享特征部分，得到共享特征图；检测部分利用共享特征图生成检测结果；近邻相关性边界优化算法优化检测结果；作用在共享特征图上的双线性插值将检测区域采样得到识别特征；识别部分利用输入的识别特征得到识别结果；步骤105，输出并保存框架各部分参数至数据处理平台的存储系统。

【技术特征摘要】
1.一种基于近邻相关性边界优化算法的自然场景下端到端文本识别方法，其特征在于，包括基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练，以及利用训练好的框架对自然场景中文本区域及内容进行端到端识别的测试过程；所述基于近邻相关性边界优化算法的端到端文本识别深度学习框架训练的具体步骤为：步骤100，输入自然场景图像、真实标记区域、真实标记串至数据处理平台；步骤101，对输入自然场景图片做预处理；步骤102，使用真实标记区域生成真实类图与真实几何图以作为训练监督信息；步骤103，初始化整个框架的共享特征部分、检测部分、识别部分各部分的权重；步骤104，在数据处理平台上，使用自然场景图像、真实类图、真实几何图、真实标记串，用端到端的方法训练整个框架；其步骤为：自然场景图像首先经过共享特征部分，得到共享特征图；检测部分利用共享特征图生成检测结果；近邻相关性边界优化算法优化检测结果；作用在共享特征图上的双线性插值将检测区域采样得到识别特征；识别部分利用输入的识别特征得到识别结果；步骤105，输出并保存框架各部分参数至数据处理平台的存储系统。2.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法，其特征在于，利用训练好的基于近邻相关性边界优化算法的端到端文本识别深度学习框架，对自然场景中文本区域及内容进行端到端识别的测试，测试具体步骤为：步骤200，输入自然场景图像至数据处理平台；步骤201，读取已保存的训练好的框架各部分权重，包括共享特征部分、检测部分、识别部分各部分的权重；步骤202，自然场景图像首先经过共享特征部分，得到共享特征图；检测部分利用共享特征图生成检测结果；近邻相关性边界优化算法优化检测结果；作用在共享特征图上的双线性插值将检测区域采样得到识别特征；识别部分利用输入的识别特征得到识别结果。3.如权利要求1所述的基于近邻相关性边界优化算法的自然场景下端到端文本识别方法，其特征在于，所述的基于近邻相关性边界优化算法的端到端文本识别深度学习框架，其中共享特征部分，采用基于残差神经网络的U型框架提取共享特征；U型框架采用第一编码模块与第一解码模块相继连接的方式获得共享特征；所述第一编码模块包括多层卷积结构以及相邻层的卷积结构间的下采样结构，所述下采样结构用于对相邻层的卷积结构中的上层卷积结构输出的特征图进行下采样并将下采样的特征图输入相邻卷积结构中的下层卷积结构；所述第一解码模块包括多层卷积结构以及相邻层的卷积结构间的上采样结构，所述上采样结构用于对相邻层的卷积结构中的下层卷积结构输出的特征图进行上采样并将上采样的特...

【专利技术属性】
技术研发人员：李武军，陈雨，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人