文本行分类器的生成方法及装置制造方法及图纸

技术编号：14066717 阅读：98 留言：0更新日期：2016-11-28 12:40

本申请公开了一种文本行分类器的生成方法及装置，其中，文本行分类器的生成方法包括：利用当前终端系统字库生成文本行样本；对文本行样本和预存的标注样本进行特征提取；以及根据提取到的特征进行模型训练，生成文本行分类器，以用于识别文本区域。上述文本行分类器的生成方法，基于系统字库生成文本行样本的方式，使得生成的文本行分类器可以针对不同场景或不同需求进行文本区域识别，适用性强、应用范围广且实现简单，同时结合标注样本进行文本行样本特征提取的方式使得生成的文本行分类器的准确率高。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及模式识别
，尤其涉及一种文本行分类器的生成方法及装置。
技术介绍
目前，很多图片例如淘宝网图片中含有大量违禁文字，为了识别这些违禁文字，可使用自然场景图片的光学字符识别(Optical Character Recognition，OCR)技术对文本检测、定位的结果进行筛选，滤除非文本的检测结果，筛选出候选文本送入识别装置，从而提高识别的准确度。其中，自然场景的OCR技术一直是工业界和学术研究的热点之一，针对不同的语言，所使用的特征以及算法架构都会有所改变。目前国际上的OCR技术主要针对英文，相对于英文识别，由于中文汉字较为复杂且字符种类较多，汉字偏旁部首的存在也使得单个汉字并非连通区域，识别难度较大。目前，对于自然场景中的中文OCR的文本区域识别方法分为三类：第一类，利用经验阈值进行分类；第二类，根据不同的应用场景标注大量样本，提取中文文本行经验特征，利用支持向量机(SVM)等分类器进行分类；第三类，利用更为大量的标注正负样本，并利用卷积神经网络(CNN)训练分类器进行分类。在现有的中文OCR的文本区域识别中，使用经验阈值进行分类的方法最为简单，其进行判断的特征多来自于单字符验证提取的文字特征，但是该算法准确率较低且鲁棒性较差，容易出现过拟合现象；第二类方法是目前比较主流的方案，第三类方法的使用并不多见，主要原因在于CNN方法会消耗过多的计算资源，影响算法总体效率，但是，无论是第二类方法还是第三类方法，都需要标注大量样本，这必然会耗费大量的人力成本，且分类效果依赖于特征的提取以及样本的选取，因此对于不同的应用需求往往需要重新标注一批新的业...
文本行分类器的生成方法及装置

【技术保护点】
一种文本行分类器的生成方法，其特征在于，包括：利用当前终端系统字库生成文本行样本；对所述文本行样本和预存的标注样本进行特征提取；以及根据提取到的特征进行模型训练，生成文本行分类器，以用于识别文本区域。

【技术特征摘要】
1.一种文本行分类器的生成方法，其特征在于，包括：利用当前终端系统字库生成文本行样本；对所述文本行样本和预存的标注样本进行特征提取；以及根据提取到的特征进行模型训练，生成文本行分类器，以用于识别文本区域。2.根据权利要求1所述的方法，其特征在于，还包括：对待识别的图片进行检测，以获得检测结果；以及使用所述文本行分类器针对所述检测结果输出分数，若所述分数大于预设阈值，则确认待识别的图片为文本区域，若所述分数小于等于预设阈值，则确认待识别的图片为非文本区域。3.根据权利要求1或2所述的方法，其特征在于，所述利用当前终端系统字库生成文本行样本，包括：利用当前终端系统字库生成文字样本，对所述文字样本进行处理，以生成不同类型的文本行样本，其中，所有文本行样本中包含的文字样本均满足以下条件：大小相同、旋转角度相同、字体相同、包含的常用字大于预设比例。4.根据权利要求1或2所述的方法，其特征在于，所述对所述文本行样本和预存的标注样本进行特征提取，包括：提取所述文本行样本对应图片的梯度方向直方图特征、梯度大小直方图特征、像素直方图特征和像素变化特征中的一种或几种；以及获得所述文本行样本和所述标注样本的连通区域，并提取所述连通区域的特征。5.根据权利要求1或2所述的方法，其特征在于，所述根据提取到的特征进行模型训练，生成文本行分类器，包括：根据提取到的特征生成与文本行样本类型对应的模型，并利用所述标注样本设置所述模型的权重，以生成所述文本行分类器。6.根据权利要求4所述的方法，其特征在于，所述获得所述标注样本的连通区域，包括：使用第一预设算法获得所述标注样本的连通区域，所述第二预设算法包括最大稳定极值区域MSER算法和MSER算法的改进算法。7.根据权利要求4所述的方法，其特征在于，所述获得所述连通区域的特征，包括：使用第二预设算法获得所述连通区域中笔画的宽度特征，所述第二预设算法包括SWT算法和SFT算法。8.一种文本行分类器的生成装...

【专利技术属性】
技术研发人员：金炫，王天舟，薛琴，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人