本发明专利技术涉及一种基于文本山峰概率密度的文本定位方法,包括数据预处理,通过公开数据集现有的标注信息,生成所需要的文本掩膜和文本山峰概率图;将处理好的训练集进行数据增强,将数据传入卷积神经网络进行训练,再通过组合损失函数不断优化网络参数得到最优模型;先将训练好的模型参数进行加载,给深度学习网络传入待预测的图片,得到预测文本预测结果,进行预测信息后处理,便可得到精确度文本定位结果。本发明专利技术的技术方案增加了神经网络对文本中心概率信息的学习,配合后处理算法,求得文本预测图分割质心,能够得到曲形文本中心线,进而得到曲形文本边界,能够很好地处理长、多方向、弯曲的文本。
A text prediction method based on the probability density of text peak
【技术实现步骤摘要】
一种基于文本山峰概率密度的文本预测方法
本专利技术涉及图像处理
,尤其涉及一种基于文本山峰概率密度的文本预测方法。
技术介绍
文字在生活中随处可见,随着智能终端和数码产品的广泛普及,人们可以随时随地拍摄自己感兴趣的场景,这些场景包含着大量有用文本信息,例如自然场景中,路标道路信息、商店名称、宣传标语等,这些文本信息可以为智能交通、无人驾驶、数据智能等提供决策输入。工业场景中,零件上的激光刻印编号、印刷编号、点焊编号等,工人需要对这些编码进行系统录入,进行产品溯源,以便精确定位到生产环节,但人工肉眼观测、记录并输入电脑会存在人为失误。创建智能、快捷、高效的生活方式成为当今人们的向往,而在不同的场景中,背景复杂多样,周边环境可能对文字定位产生光照或阴暗影响,不同文字、字体也会对文本定位算法带来极大干扰,所以鲁棒的文字定位算法是文字识别的基础。现有的文本定位方法主要有以下两类:基于分割思想,对整张图像进行分割,然后送入训练好的文本检测器判别是否有文字,再将具有文字的分割图组合成图片传入文本检测模型进行预测,得到文本定位信息,其原理相当于两步走,第一步使用分类网络去除无文字的区域,第二步,将干净图像送入预测网络进行定位。基于深度学习思想,对图像进行特征提取,使用区域推荐网络选择出至少一个文本预选区域,再通过卷积神经网络对候选区域进行调整,最后将预选区域合并,得到最终文本区域位置。以上方法均通过两个模型分阶段进行特征提取和图像合并,不是端到端的过程,定位时间较长,图像分割部分容易对文字部分进行分离,容易导致分类错误。对于临近文本和弯曲文本难以分别,对于一张数字图像中的不同尺寸字符无法有效定位,进而无法识别,且对于复杂背景下的文本定位效果较差。
技术实现思路
本专利技术提出了一种基于文本山峰概率密度的文本定位方法,设计了一种多尺度文本检测网络,采用一种分割质心法求解中心线,以得到精确的预测结果。一种基于文本山峰概率密度的文本定位方法,包括以下四个步骤:S1)图像预处理:进行数据预处理,通过公开数据集现有的标注信息,生成所需要的文本掩膜和文本山峰概率图;S2)数据增强:将处理好的训练集进行数据增强,包括亮度、对比度、色调、饱和度、旋转、镜像、裁剪和放缩等至少一种的随机变换;S3)网络训练:将数据传入卷积神经网络进行训练,再通过组合损失函数不断优化网络参数得到最优模型;S4)预测过程:先将训练好的模型参数进行加载,给深度学习网络传入待预测的图片,得到预测文本预测结果,进行预测信息后处理,便可得到精确度文本定位结果。上述技术方案中,步骤S1)具体包括:S11)数据预处理:设文本行中心区域特征图由0~255灰度构成,越靠近文本行中心线数值越大,文本中心越白,边缘越黑,呈现渐变效果;S12)文本掩膜生成:通过公开数据集现有的标注信息,生成所需要的文本掩膜和文本行中心掩膜,其中文本掩膜通过数据集中的文本块定位信息,一般为文本块的4个角点坐标,生成文本矩形掩膜;S13)文本山峰概率图:文本行山峰概率根据文本标注的4个角点坐标得到文本块中心线,中心线处为山峰最高点,其值为255,由中心线向文本块边缘逐渐递减,边缘处值为0,得到文本山峰概率图。上述技术方案中,步骤S3)中卷积神经网络基础模块包括残差网络模块、concat模块、上采样模块等。上述技术方案中,步骤S4)中所述预测信息后处理具体为:S41)首先将预测文本掩膜和文本山峰概率图进行连通域计算并消除较小连通域;S42)将预测文本框四个角点坐标计算出来,并对文本框进行分割,利用预测信息计算每个分割块质心坐标;S43)使用最小二乘法对文本框计算的所有质心进行圆心和半径的拟合,对于预测文本框最长边不足宽边2倍的不进行计算,对质心连线进行偏移,得到准确的文本预测信息,对于曲形文本框进行极坐标变换,最终得到水平的文本,对于不符合分割条件的预测框直接进行文本切割。本专利技术的有益效果:1、与传统对文本进行检测或分割方式方式不同,本文增加了神经网络对文本中心概率信息的学习。文本山峰概率图就像一个山一样(山峰是中心,山脚是边界),山顶可以更容易的分离文本实例(通过语义分割)。虽然有文本掩膜但对于边界和中心的分界不够准确,而充分利用文本山峰概率图能够很好地帮助网络区分文本定位信息。配合后处理算法,求得文本预测图分割质心,能够得到曲形文本中心线,进而得到曲形文本边界,能够很好地处理长、多方向、弯曲的文本。2、摒弃以往对文本区域进行坐标学习方式,将标注数据生成文本掩膜和文本山峰概率图,使卷积神经网络同时学习掩膜和山峰概率。3、设计了一种多尺度文本检测网络。4、对预测所得概率图使用高通滤波使概率较小的像素被抑制,进而分离相邻文本,利用连通域方法消除具有少量元素的特征区域,减少预测误差。5、提出一种分割质心法求解中心线,以得到精确的预测结果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种基于文本山峰概率密度的文本定位方法的卷积神经网络架构设计示意图。图2为本专利技术一种基于文本山峰概率密度的文本定位方法的训练流程示意图。图3为本专利技术一种基于文本山峰概率密度的文本定位方法的预测流程示意图。图4为本专利技术一种基于文本山峰概率密度的文本定位方法的预测信息后处理步骤示意图。图5为本专利技术一种基于文本山峰概率密度的文本定位方法的质心计算示意图。图6为本专利技术方法的一个具体实施例的待预测图像。图7为图6中的实施例预测得到的文本掩膜。图8为图6中的实施例预测得到的文本山峰概率图。图9为图6中的实施例计算文本块内文本掩膜质心得到文本中心线的示意图。图10为图6中的实施例拟合后得到的图像。图11为图6中的实施例得到的文本预测结果图像。图12为图6中的实施例弯曲文本校正后并分割出来的最终结果图像。具体实施方式以下结合本专利技术的附图来进一步介绍本专利技术的技术方案:一种基于文本山峰概率密度的文本定位方法,包括以下四个步骤:S1)图像预处理:进行数据预处理,通过公开数据集现有的标注信息,生成所需要的文本掩膜和文本山峰概率图;S2)数据增强:将处理好的训练集进行数据增强,包括亮度、对比度、色调、饱和度、旋转、镜像、裁剪和放缩等至少一种的随机变换;S3)网络训练:将数据传入卷积神经网络进行训练,再通过组合损失函数不断优化网络参数得到最优模型;S4)预测过程:先将训练好的模型参数进行加载,给深度学习网络传入待预测的图片,得到预测文本预测结果,进行预测信息后处理,便本文档来自技高网...
【技术保护点】
1.一种基于文本山峰概率密度的文本定位方法,其特征在于,包括以下四个步骤:/nS1)图像预处理:进行数据预处理,通过公开数据集现有的标注信息,生成所需要的文本掩膜和文本山峰概率图;/nS2)数据增强:将处理好的训练集进行数据增强,包括亮度、对比度、色调、饱和度、旋转、镜像、裁剪和放缩等至少一种的随机变换;/nS3)网络训练:将数据传入卷积神经网络进行训练,再通过组合损失函数不断优化网络参数得到最优模型;/nS4)预测过程:先将训练好的模型参数进行加载,给深度学习网络传入待预测的图片,得到预测文本预测结果,进行预测信息后处理,便可得到精确度文本定位结果。/n
【技术特征摘要】
1.一种基于文本山峰概率密度的文本定位方法,其特征在于,包括以下四个步骤:
S1)图像预处理:进行数据预处理,通过公开数据集现有的标注信息,生成所需要的文本掩膜和文本山峰概率图;
S2)数据增强:将处理好的训练集进行数据增强,包括亮度、对比度、色调、饱和度、旋转、镜像、裁剪和放缩等至少一种的随机变换;
S3)网络训练:将数据传入卷积神经网络进行训练,再通过组合损失函数不断优化网络参数得到最优模型;
S4)预测过程:先将训练好的模型参数进行加载,给深度学习网络传入待预测的图片,得到预测文本预测结果,进行预测信息后处理,便可得到精确度文本定位结果。
2.根据权利要求1所述的一种基于文本山峰概率密度的文本定位方法,其特征在于,步骤S1)具体包括:
S11)数据预处理:设文本行中心区域特征图由0~255灰度构成,越靠近文本行中心线数值越大,文本中心越白,边缘越黑,呈现渐变效果;
S12)文本掩膜生成:通过公开数据集现有的标注信息,生成所需要的文本掩膜和文本行中心掩膜,其中文本掩膜通过数据集中文本块的4个角点...
【专利技术属性】
技术研发人员:张发恩,孙天齐,袁智超,陆强,
申请(专利权)人:创新奇智成都科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。