文本行分类器的生成方法及装置制造方法及图纸

技术编号:14066717 阅读:98 留言:0更新日期:2016-11-28 12:40
本申请公开了一种文本行分类器的生成方法及装置,其中,文本行分类器的生成方法包括:利用当前终端系统字库生成文本行样本;对文本行样本和预存的标注样本进行特征提取;以及根据提取到的特征进行模型训练,生成文本行分类器,以用于识别文本区域。上述文本行分类器的生成方法,基于系统字库生成文本行样本的方式,使得生成的文本行分类器可以针对不同场景或不同需求进行文本区域识别,适用性强、应用范围广且实现简单,同时结合标注样本进行文本行样本特征提取的方式使得生成的文本行分类器的准确率高。

【技术实现步骤摘要】

本申请涉及模式识别
,尤其涉及一种文本行分类器的生成方法及装置
技术介绍
目前,很多图片例如淘宝网图片中含有大量违禁文字,为了识别这些违禁文字,可使用自然场景图片的光学字符识别(Optical Character Recognition,OCR)技术对文本检测、定位的结果进行筛选,滤除非文本的检测结果,筛选出候选文本送入识别装置,从而提高识别的准确度。其中,自然场景的OCR技术一直是工业界和学术研究的热点之一,针对不同的语言,所使用的特征以及算法架构都会有所改变。目前国际上的OCR技术主要针对英文,相对于英文识别,由于中文汉字较为复杂且字符种类较多,汉字偏旁部首的存在也使得单个汉字并非连通区域,识别难度较大。目前,对于自然场景中的中文OCR的文本区域识别方法分为三类:第一类,利用经验阈值进行分类;第二类,根据不同的应用场景标注大量样本,提取中文文本行经验特征,利用支持向量机(SVM)等分类器进行分类;第三类,利用更为大量的标注正负样本,并利用卷积神经网络(CNN)训练分类器进行分类。在现有的中文OCR的文本区域识别中,使用经验阈值进行分类的方法最为简单,其进行判断的特征多来自于单字符验证提取的文字特征,但是该算法准确率较低且鲁棒性较差,容易出现过拟合现象;第二类方法是目前比较主流的方案,第三类方法的使用并不多见,主要原因在于CNN方法会消耗过多的计算资源,影响算法总体效率,但是,无论是第二类方法还是第三类方法,都需要标注大量样本,这必然会耗费大量的人力成本,且分类效果依赖于特征的提取以及样本的选取,因此对于不同的应用需求往往需要重新标注一批新的业务依赖数据,即新的样本,故现有的标注样本适用性差,不仅如此,中文文字的字体多样、样式复杂,还包括简体、繁体以及手写体等多个类型,使得文本行的多样性异常丰富,也无疑大大增加了中文文本区域的识别难度。因此,迫切需要提供一种适用性强、简单、有效的中文OCR文本区域识别方法。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种文本行分类器的生成方法,该方法可以针对不同场景或不同需求进行文本区域识别,适用性强、应用范围广且实现简单。本申请的第二个目的在于提出一种文本行分类器的生成装置。为达上述目的,本申请第一方面实施例提出了一种文本行分类器的生成方法,该文本行分类器的生成方法包括:利用当前终端系统字库生成文本行样本;对文本行样本和预存的标注样本进行特征提取;以及根据提取到的特征进行模型训练,生成文本行分类器,以用于识别文本区域。本申请实施例的文本行分类器的生成方法,基于系统字库生成文本行样本的方式,使得生成的文本行分类器可以针对不同场景或不同需求进行文本区域识别,适用性强、应用范围广且实现简单,同时结合标注样本进行文本行样本特征提取的方式使得生成的文本行分类器的准确率高。为达上述目的,本申请第二方面实施例提出了一种文本行分类器的生成装置,该文本行分类器的生成装置包括:生成模块,用于利用当前终端系统字库生成文本行样本;提取模块,用于对生成模块生成的文本行样本和预存的标注样本进行特征提取;以及训练模块,用于根据提取模块提取到的特征进行模型训练,生成文本行分类器,以用于识别文本区域。本申请实施例的文本行分类器的生成装置,通过生成模块生成文本行样本的方式,使得生成的文本行分类器可以针对不同场景或不同需求进行文本区域识别,适用性强、应用范围广且实现简单,通过提取模块结合标注样本进行文本行样本特征提取的方式使得生成的文本行分类器的准确率高。附图说明图1a是本申请一个实施例文本行分类器的生成方法的流程图。图1b是本申请一个实施例的单字样本示意图。图1c是本申请一个实施例的文本行样本示意图。图2a是本申请一个实施例的生成文本行分类器的细化流程图。图2b是本申请一个实施例的生成文本样本的流程图。图2c是本申请一个实施例的利用文字样本生成文本行样本的流程图。图3是本申请一个实施例利用BP神经网络进行特征训练的流程图。图4是本申请另一个实施例文本区域的识别方法的流程图。图5是本申请一个实施例文本行分类器的生成装置的结构示意图。图6是本申请另一个实施例文本行分类器的生成装置的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的文本行分类器的生成方法及装置。图1a是本申请一个实施例文本行分类器的生成方法的流程图。如图1a所示,该文本行分类器的生成方法包括:S101,利用当前终端系统字库生成文本行样本。在该实施例中,利用当前终端系统字库生成文本行样本可以包括:利用当前终端系统字库生成文字样本,然后对文字样本进行处理,从而生成不同类型的文本行样本。具体地,利用当前终端系统字库生成文字样本可以为:从字库提取不同字体的文字,加入间距、旋转、大小、噪声等扰动,从而生成文字样本;对文字样本进行处理,从而生成不同类型的文本行样本可以为:基于生成的文字样本,将同一字体的文字随机搭配,加入扰动后形成不同类型的文本行样本。例如,从字库提取文字后,加入不同扰动生成的单字样本如图1b所示,需要说明的是,图1b仅为一个示例。又例如,基于文字样本可以生成的文本行样本如图1c所示。S102,对文本行样本和预存的标注样本进行特征提取。在该实施例中,在对文本行样本和预存的标注样本进行特征提取之前,还可以包括:保存标注样本。具体地,可以利用检测算法切出候选文本区域,人工对候选文本区域进行标注,即可以通过将候选文本区域标注为1或0来标识其是否为文本区域。在生成文本行样本和保存标注样本之后,可以对这些样本进行特征提取,具体地,可以提取文本行样本对应图片的梯度方向直方图特征、梯度大小直方图特征、像素直方图特征和像素变化特征中的一种或几种;以及获得文本行样本和标注样本的连通区域,并提取上述连通区域的特征。由此可见,本专利技术实施例在提取特征时可以提取至少两个特征,即一组特征,从而有利于分类器的生成。S103,根据提取到的特征进行模型训练,生成文本行分类器,以用于识别文本区域。在该实施例中,可以利用反向传播(BP,Back Propagation)神经网络对提取的特征进行单模型训练,由于每种类型的文本行样本可以训练出一个模型,故多种类型的文本行样本可以训练出多个模型,每个模型可以作为一棵决策树,初始设置每棵决策树的权重,然后利用一部分标注样本对决策树进行权重训练,使得每棵决策树可以获得合适的权重以保证分类的准确性,通过上述过程,可以生成文本行分类器。利用上述文本行分类器可以识
别文本区域,进而可以识别出含有违禁文字的图片。假设一个文本行样本提取的特征可以用一个向量表示,即一个文本行样本对应的图片可以生成一维向量X,则所有文本行样本可以生成向量集合{X(i)本文档来自技高网
...
文本行分类器的生成方法及装置

【技术保护点】
一种文本行分类器的生成方法,其特征在于,包括:利用当前终端系统字库生成文本行样本;对所述文本行样本和预存的标注样本进行特征提取;以及根据提取到的特征进行模型训练,生成文本行分类器,以用于识别文本区域。

【技术特征摘要】
1.一种文本行分类器的生成方法,其特征在于,包括:利用当前终端系统字库生成文本行样本;对所述文本行样本和预存的标注样本进行特征提取;以及根据提取到的特征进行模型训练,生成文本行分类器,以用于识别文本区域。2.根据权利要求1所述的方法,其特征在于,还包括:对待识别的图片进行检测,以获得检测结果;以及使用所述文本行分类器针对所述检测结果输出分数,若所述分数大于预设阈值,则确认待识别的图片为文本区域,若所述分数小于等于预设阈值,则确认待识别的图片为非文本区域。3.根据权利要求1或2所述的方法,其特征在于,所述利用当前终端系统字库生成文本行样本,包括:利用当前终端系统字库生成文字样本,对所述文字样本进行处理,以生成不同类型的文本行样本,其中,所有文本行样本中包含的文字样本均满足以下条件:大小相同、旋转角度相同、字体相同、包含的常用字大于预设比例。4.根据权利要求1或2所述的方法,其特征在于,所述对所述文本行样本和预存的标注样本进行特征提取,包括:提取所述文本行样本对应图片的梯度方向直方图特征、梯度大小直方图特征、像素直方图特征和像素变化特征中的一种或几种;以及获得所述文本行样本和所述标注样本的连通区域,并提取所述连通区域的特征。5.根据权利要求1或2所述的方法,其特征在于,所述根据提取到的特征进行模型训练,生成文本行分类器,包括:根据提取到的特征生成与文本行样本类型对应的模型,并利用所述标注样本设置所述模型的权重,以生成所述文本行分类器。6.根据权利要求4所述的方法,其特征在于,所述获得所述标注样本的连通区域,包括:使用第一预设算法获得所述标注样本的连通区域,所述第二预设算法包括最大稳定极值区域MSER算法和MSER算法的改进算法。7.根据权利要求4所述的方法,其特征在于,所述获得所述连通区域的特征,包括:使用第二预设算法获得所述连通区域中笔画的宽度特征,所述第二预设算法包括SWT算法和SFT算法。8.一种文本行分类器的生成装...

【专利技术属性】
技术研发人员:金炫王天舟薛琴
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1