【技术实现步骤摘要】
一种基于文本山峰概率密度的文本预测方法
本专利技术涉及图像处理
,尤其涉及一种基于文本山峰概率密度的文本预测方法。
技术介绍
文字在生活中随处可见,随着智能终端和数码产品的广泛普及,人们可以随时随地拍摄自己感兴趣的场景,这些场景包含着大量有用文本信息,例如自然场景中,路标道路信息、商店名称、宣传标语等,这些文本信息可以为智能交通、无人驾驶、数据智能等提供决策输入。工业场景中,零件上的激光刻印编号、印刷编号、点焊编号等,工人需要对这些编码进行系统录入,进行产品溯源,以便精确定位到生产环节,但人工肉眼观测、记录并输入电脑会存在人为失误。创建智能、快捷、高效的生活方式成为当今人们的向往,而在不同的场景中,背景复杂多样,周边环境可能对文字定位产生光照或阴暗影响,不同文字、字体也会对文本定位算法带来极大干扰,所以鲁棒的文字定位算法是文字识别的基础。现有的文本定位方法主要有以下两类:基于分割思想,对整张图像进行分割,然后送入训练好的文本检测器判别是否有文字,再将具有文字的分割图组合成图片传入文本检测 ...
【技术保护点】
1.一种基于文本山峰概率密度的文本定位方法,其特征在于,包括以下四个步骤:/nS1)图像预处理:进行数据预处理,通过公开数据集现有的标注信息,生成所需要的文本掩膜和文本山峰概率图;/nS2)数据增强:将处理好的训练集进行数据增强,包括亮度、对比度、色调、饱和度、旋转、镜像、裁剪和放缩等至少一种的随机变换;/nS3)网络训练:将数据传入卷积神经网络进行训练,再通过组合损失函数不断优化网络参数得到最优模型;/nS4)预测过程:先将训练好的模型参数进行加载,给深度学习网络传入待预测的图片,得到预测文本预测结果,进行预测信息后处理,便可得到精确度文本定位结果。/n
【技术特征摘要】
1.一种基于文本山峰概率密度的文本定位方法,其特征在于,包括以下四个步骤:
S1)图像预处理:进行数据预处理,通过公开数据集现有的标注信息,生成所需要的文本掩膜和文本山峰概率图;
S2)数据增强:将处理好的训练集进行数据增强,包括亮度、对比度、色调、饱和度、旋转、镜像、裁剪和放缩等至少一种的随机变换;
S3)网络训练:将数据传入卷积神经网络进行训练,再通过组合损失函数不断优化网络参数得到最优模型;
S4)预测过程:先将训练好的模型参数进行加载,给深度学习网络传入待预测的图片,得到预测文本预测结果,进行预测信息后处理,便可得到精确度文本定位结果。
2.根据权利要求1所述的一种基于文本山峰概率密度的文本定位方法,其特征在于,步骤S1)具体包括:
S11)数据预处理:设文本行中心区域特征图由0~255灰度构成,越靠近文本行中心线数值越大,文本中心越白,边缘越黑,呈现渐变效果;
S12)文本掩膜生成:通过公开数据集现有的标注信息,生成所需要的文本掩膜和文本行中心掩膜,其中文本掩膜通过数据集中文本块的4个角点...
【专利技术属性】
技术研发人员:张发恩,孙天齐,袁智超,陆强,
申请(专利权)人:创新奇智成都科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。