基于无监督学习深度学习网络的中文检测方法及系统技术方案

技术编号：13114983 阅读：55 留言：0更新日期：2016-04-06 07:28

本发明专利技术公开一种基于无监督学习深度学习网络的中文检测方法及系统。本发明专利技术使用无监督学习法训练一个深度卷积神经网络，而后使用该网络对自然图像中的各个候选文字区域进行分类，最后对分类为文字的区域进行文本行聚合，检测得到图像中的文字区域。本发明专利技术抓住深度学习网络对图像特征超强的提取能力，利用无监督学习强大的训练能力，针对中文字特征训练深度卷积神经网络，实现文字区域定位和分割，方法简单有效；针对文字特征构建了深度卷积神经网络无监督学习方法，在文字检测方面具有更好的针对性，因此具有更高的主动性和精确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种图像处理
，具体地说，涉及的是一种在自然场景图像中基于无监督学习深度学习网络的文字检测方法及系统。
技术介绍
文本是计算机视觉的许多应用中的一项重要特征。图像中的文本存有很多有用的信息，对视觉内容理解和获取至关重要。文本提取的主要目的是将文本图像转化为符号形式，从而利于修改、检索、利用及传输。文本定位是文本提取的一个重要步骤。文本定位是对图像中文本位置的精确定位。基于极值连通域的文本定位方法首先将图像表示为一个个的连通域，然后从结构分析出发，通过合并方法将文本行标示，输出结果。传统的合并方法在处理一些结构复杂的汉字时效果不甚理想。外语如最常见的英语单词字符之间一般水平排列。对于中文文字，情况更加复杂。经检索，于慧敏和李天豪申请的公开号为104794504A、申请号为201510207913.5的专利技术专利申请，该专利技术公开了一种在自然场景图像中基于深度学习的文字检测方法。首先，通过图形图案文字样本合成训练深度卷积自编码网络，然后使用已标记的样本，通过稀疏字典进行分类。之后使用合成的样本集，建立深度卷积自编码网络，并使用分层训练、整体调优的方式学习特征模板；然后对已有的标记样本，使用深度网络学习得到的特征模板进行特征提取；最后把提取的特征上采样至原图大小，并以单个分块作为识别的单位，训练稀疏字典以及分类器。在完成训练步骤后，对待处理的图像进行多分辨率分解，并使用特征>模板提取特征，再使用稀疏字典进行分类获取结果。该专利技术使用稀疏字典分类方法在复杂中文文字的检测上效果不佳，原因是此类文字出现概率小，字典中很难找到。
技术实现思路
本专利技术的目的在于针对目前图像文本定位上的定位不甚理想的情况，提出一种在自然场景图像中基于无监督学习深度学习网络的中文检测方法及系统，采用基于深度学习的文字区域特征提取和分类的方法，可以克服上述问题，提高识别效果。为实现上述目的，本专利技术采用以下技术方案：本专利技术使用无监督学习法训练一个深度卷积神经网络，而后使用该网络对自然图像中的各个候选文字区域进行分类，最后对分类为文字的区域进行文本行聚合，检测得到图像中的文字区域。本专利技术抓住深度学习网络对图像特征超强的提取能力，利用无监督学习强大的训练能力，针对中文字特征训练深度卷积神经网络，实现文字区域定位和分割，方法简单有效。这种方法针对文字特征构建了深度卷积神经网络无监督学习方法，在文字检测方面具有更好的针对性，因此具有更高的主动性和精确性。具体的：本专利技术提供一种基于无监督学习深度学习网络的文字检测的方法，包括以下步骤：第一步，训练深度卷积神经网络：构建无监督学习算法：以卷积运算和离散编码算法为基础，针对深度学习网络和中文字的特性，构建深度卷积神经网络的无监督学习算法；建立中文字数据集：中文字数据集包括常用字以及常用字体；使用无监督学习算法和所述中文字数据集训练深度卷积神经网络；第二步，使用多尺度滑动窗算法提取自然图像中的候选文字区域，并由训练得到的所述深度卷积神经网络进行分类，得到文字区域；第三步，分析文字区域之间的相关性，将相关文字区域聚合成文本行，并用矩形框对文本行加以标定。上述第一步中，需要根据中文字特征构建无监督学习算法，算法具体流程如下：(1)根据卷积运算和离散编码算法构建目标函数，优化目标为：特征h，字典D和网络参数p；(2)固定字典D，使用FISTA(FASTIterativeShrinkage-ThresholdingAlgorithm)法得到最优特征h‘；(3)固定最优特征h‘，单次使用随机梯度下降法训练字典D；(4)固定最优特征h‘，多次使用随机梯度下降法训练网络参数p，直至训练误差小于预设值θ；(5)使用最新网络参数p重新计算特征h；(6)重复上述(2)-(5)步骤直至达到学习目标。上述第一步中，人工建立中文字数据集，数据集具体特征如下：(1)所用文字为3500个常用字；(2)所用字体为15种有代表性的字体；(3)文字图像类型为黑底白字和白底黑字两种；(4)文字图像大小为32×32。上述第二步中，所述多尺度滑动窗算法的提取参数如下：(1)最大尺度为1/4图像大小，最小尺度为20像素；(2)重叠系数为0.5滑动提取；(3)提取出的图像块长宽比为1：1，并统一缩放为32×32的图像块。上述第三步中，利用第二步得到的文字区域，执行基于区域相关性的文本行聚合算法，具体相关性特征和聚合规则如下：(1)两个文字区域的高度比值该在0.5和2之间；(2)两个文字区域外接矩形的中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2；(3)两个文字区域的外接矩形的中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍；(4)单个文本行至少有三个或以上的文字区域。本专利技术还提供一种用于实现上述方法的基于无监督学习深度学习网络的中文检测系统，包括：深度卷积神经网络模块，该模块包括构建无监督学习算法子模块和建立中文字数据集子模块，其中：构建无监督学习算法子模块，以卷积运算和离散编码算法为基础，针对深度学习网络和中文字的特性，构建深度卷积神经网络的无监督学习算法；建立中文字数据集子模块，用于建立中文字数据集，所述中文字数据集包括常用字以及常用字体；构建的所述无监督学习算法和所述中文字数据集用于训练深度卷积神经网络；文字区域提取模块，使用多尺度滑动窗算法提取自然图像中的候选文字区域，并由训练得到的所述深度卷积神经网络进行分类，得到文字区域；文字区域聚合模块，分析文字区域之间的相关性，将相关文字区域聚合成文本行，并用矩形框对文本行加以标定。与现有技术相比，本专利技术具有如下的有益效果：本专利技术利用无监督学习法训练深度卷积神经网络，然后多尺度滑动窗算法提取候选文字区域，最后训练得到的神经网络模型对候选文字区域进行分类并根据相关性进行文本行聚合得到文字区域。传统的区域提取方法在处理一些受到干扰的文字时效果不甚理想，比如最常见的闪光灯下的文字，传统方法会将一个文字的不同部分和背景连成一体，成为混合了背景的多个区域。本专利技术的深度卷积神经网络方法可以有效地将存在干扰的文字和背景分成不同的两类，因此在处理复杂干扰影响的文字具有更高的准确性。综上，本专利技术基于无监督学习深度学习网络的文字检测方法相比于传统的文本检测等方法，拥有更高的主动性和精确性。附图说本文档来自技高网...

【技术保护点】
一种基于无监督学习深度学习网络的中文检测方法，其特征在于包括以下步骤：第一步，训练深度卷积神经网络：构建无监督学习算法：以卷积运算和离散编码算法为基础，针对深度学习网络和中文字的特性，构建深度卷积神经网络的无监督学习算法；建立中文字数据集：中文字数据集包括常用字以及常用字体；使用所述无监督学习算法和所述中文字数据集训练深度卷积神经网络；第二步，使用多尺度滑动窗算法提取自然图像中的候选文字区域，并由训练得到的所述深度卷积神经网络进行分类，得到文字区域；第三步，分析文字区域之间的相关性，将相关文字区域聚合成文本行，并用矩形框对文本行加以标定。

【技术特征摘要】
1.一种基于无监督学习深度学习网络的中文检测方法，其特征在于包括以
下步骤：
第一步，训练深度卷积神经网络：
构建无监督学习算法：以卷积运算和离散编码算法为基础，针对深度学习网
络和中文字的特性，构建深度卷积神经网络的无监督学习算法；
建立中文字数据集：中文字数据集包括常用字以及常用字体；
使用所述无监督学习算法和所述中文字数据集训练深度卷积神经网络；
第二步，使用多尺度滑动窗算法提取自然图像中的候选文字区域，并由训练
得到的所述深度卷积神经网络进行分类，得到文字区域；
第三步，分析文字区域之间的相关性，将相关文字区域聚合成文本行，并用
矩形框对文本行加以标定。
2.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法，
其特征在于所述第一步，具体过程如下：
(1)根据卷积运算和离散编码算法构建目标函数，优化目标为：特征h，
字典D和网络参数p；
(2)固定字典D，使用FISTA法得到最优特征h‘；
(3)固定最优特征h‘，单次使用随机梯度下降法训练字典D；
(4)固定最优特征h‘，多次使用随机梯度下降法训练网络参数p，直至训
练误差小于预设值θ；
(5)使用最新网络参数p重新计算特征h；
(6)重复上述(2)-(5)步骤直至达到学习目标。
3.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法，
其特征在于第一步中，建立的中文字数据集特征如下：
所用文字为3500个常用字；
所用字体为15种有代表性的字体；
文字图像类型为黑底白字和白底黑字两种；
文字图像大小为32×32。
4.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法，
其特征在于第二步中，所述多尺度滑动窗算法，其提取参数如下：
最大尺度为1/4图像大小，最小尺度为20像素；
重叠系数为0.5滑动提取；
...

【专利技术属性】
技术研发人员：周异，陈凯，周曲，任逍航，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人