【技术实现步骤摘要】
本专利技术涉及一种图像处理
,具体地说,涉及的是一种在自然场景图像中基于文字结构部件检测的深度学习网络的文字检测方法及系统。
技术介绍
文本是计算机视觉的许多应用中的一项重要特征。图像中的文本存有很多有用的信息,对视觉内容理解和获取至关重要。文本提取的主要目的是将文本图像转化为符号形式,从而利于修改、检索、利用及传输。文本定位是文本提取的一个重要步骤。文本定位是对图像中文本位置的精确定位。基于极值连通域的文本定位方法首先将图像表示为一个个的连通域,然后从结构分析出发,通过合并方法将文本行标示,输出结果。传统的合并方法在处理一些结构复杂的汉字时效果不甚理想。外语如最常见的英语单词字符之间一般水平排列。对于中文文字,情况更加复杂。经检索,于慧敏和李天豪申请的公开号为104794504A、申请号为201510207913.5的专利技术专利申请,该专利技术公开了一种在自然场景图像中基于深度学习的文字检测方法。首先,通过图形图案文字样本合成训练深度卷积自编码网络,然后使用已标记的样本,通过稀疏字典进行分类。之后使用合成的样本集,建立深度卷积自编码网络,并使用分层训练、整体调优的方式学习特征模板;然后对已有的标记样本,使用深度网络学习得到的特征模板进行特征提取;最后把提取的特征上采样至原图大小,并以单个分块作为识别的单位,训练稀疏字典以及分类器。在完成训练步骤后,对待处理的图像进行多分辨率分解,并使用特 ...
【技术保护点】
一种基于文字结构部件检测神经网络的文字检测方法,其特征在于:所述方法在深度卷积神经网络中构建文字结构部件检测层,所述文字结构部件检测层对文字结构部件进行检测,从而实现文字区域定位和分割。
【技术特征摘要】
1.一种基于文字结构部件检测神经网络的文字检测方法,其特征在于:所
述方法在深度卷积神经网络中构建文字结构部件检测层,所述文字结构部件检测
层对文字结构部件进行检测,从而实现文字区域定位和分割。
2.根据权利要求1所述的基于文字结构部件检测深度神经网络的文字检测
方法,其特征在于:包括以下步骤:
S1,在深度卷积神经网络构建文字结构部件检测层,所述文字结构部件检测
层由多个文字结构部件检测器组成,针对中文字包含的文字结构部件的种类,对
每一种文字结构部件构建相应的文字结构部件检测器;
S2,建立中文字数据集,包括从文字检测数据集中选出大量文字区域和非文
字区域,用于训练深度学习网络;
所述S1、S2没有先后顺序要求,S1、S2完成后进行训练得到训练后的深度
卷积神经网络;
S3,使用多尺度滑动窗算法提取自然图像中的候选文字区域,并由训练得到
的深度卷积神经网络分类,得到文字区域;
S4,分析文字区域之间的相关性,将相关文字区域聚合成文本行,并用矩形
框对文本行加以标定。
3.根据权利要求1或2所述的基于文字结构部件检测神经网络的文字检测
方法,其特征在于:所述构建文字结构部件检测层,具体如下:
S11,根据文字结构的长宽比,提取中文字中的文字结构种类;
S12,对于每一种文字结构,构建与其长宽比相同的卷积窗大小的卷积网络,
网络大小由该种文字结构占所有文字结构的比例确定,作为一个文字结构检测
器;
S13,将输入图像输入所有文字结构检测器,对所有种类的文字结构进行检
测;
S14,合并所有文字结构检测器的输出进行合并,即为文字结构检测层的输
出。
4.根据权利要求2所述的基于文字结构部件检测神经网络的文字检测方法,
\t其特征在于:所述S2中,建立的中文字数据集特征如下:
非文字区域图像中不包含任何文字;
文字区域图像有两种类型:全文字图像和半文字图像;
全文字图像中大部分区域为文字图像;
半文字图像中小部分区域为文字图像
数据集图像大小为32×32。
5.根据权利要求2所述的在基于文字结构部件检测神经网络的文字检测方
法,其特征在于,所述S3中,使用多尺度滑动窗算法提取自然图像中的候选文
字区域,其中提取参数如下:
最大尺度为1/4图像大...
【专利技术属性】
技术研发人员:周异,吴敏辰,陈凯,苗丽,奚国坚,周曲,任逍航,
申请(专利权)人:上海交通大学,中国太平洋保险集团股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。