一种用于复杂文字识别的随机样本产生方法技术

技术编号:12032345 阅读:91 留言:0更新日期:2015-09-10 19:49
本发明专利技术涉及图像识别领域,特别涉及一种用于复杂文字识别的随机样本产生方法。在复杂文字识别中,通过分析文字复杂性的原因,在与待识别字符相似的标准字符的基础上使用随机样本生成器产生的包含待识别图片噪声模型和扭曲特征模型的大量样本。随机样本生成器自动生成的训练样本中包含各种复杂的噪声和扭曲变形,可以满足各种复杂文字识别的需要;将上述随机样本作为训练样本输入深度神经网络中,可以解决训练深度神经网络来识别文字时需要大量人工标注的问题,使复杂文字图像的自动识别变得更加简单易行,显著节省了相关的人工成本。

【技术实现步骤摘要】

本专利技术涉及图像识别领域,特别涉及一种用于复杂文字识别的随机样本产生方 法。
技术介绍
图片识别在智能识别领域具有十分重要的意义,随着科技的进步和社会的发展, 对图片中文字的自动识别的需求量也急速增加。传统的光学文字识别(OCR)系统常常用于 识别使用光学设备扫描生成的文档,比如数字化古籍,识别名片、发票、表单等。通常这类 扫描文档有着比较高的分辨率和对比度,而且打印字体一般都比较单一规整,提取用于识 别的单个文字变得比较简单。所以这类文档识别的核心是消除噪音,噪音的消除方法比较 多:比如使用高斯进行平滑化处理,然后使用阈值化对图片进行二值化,最后提取工程化设 计好的特征向量进行模版匹配或者交付给分类器进行识别。 随着互联网的发展和移动设备的普及,产生了大量含有复杂噪音或者各种变形的 文字图片,比如验证码图片、随手拍照片、车辆车牌等。复杂噪音产生的原因既包括了客观 因素,比如拍照状况的复杂性、拍照设备的质量偏低;也包括了主观因素,比如为了网站安 全,将验证码的噪音和扭曲都人为设计得很复杂。为了从大量公开的多媒体数据中挖掘出 有价值的信息,识别这些复杂文字图片开始变得很有意义。 识别这些复杂文字时,使用传统的OCR方法,在识别速度和准确性方面已经难以 满足庞大数据的识别要求。随着人工神经网络的出现,使得图像和语音识别变得简单高效; 而深度神经网络在图像和语音识别领域都得到了突破性的进展,但是使用神经网络来进行 文字或者语音识别之前,需要输入大量的标注数据来完成神经网络的训练;而深度神经网 络所需要的标注数据量更加巨大,比如谷歌的语音识别系统使用了上万小时的带标注的语 音训练数据,这就需要消耗大量的人力成本。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种用于复杂文字识 别的随机样本产生方法。通过分析文字复杂性的原因,自动生成大量的可供深度神经网络 使用的包含各种噪声和扭曲特征的训练样本,解决了现有技术中使用深度神经网络识别文 字时需要大量的人力标注的问题,显著的节约了人力成本;提高识别的效率。 为了实现上述专利技术目的,本专利技术提供了以下技术方案: -种用于复杂文字识别的随机样本产生方法,包括以下实现步骤: (1-1)选取一定数量的待处理样本(比如说500个)。将目标样本图片中所包含 的字符切分出来,将待处理图片中的字符串切分成仅包含单个字符的待处理子图片。其中 所述待处理样本图片从待识别图片集中选取,包含待识别图片的一般噪声特征和、或扭曲 特征。本专利技术随机样本生成方法的目的是用于复杂文字识别;因此在进行样本分析时,选取 的待处理图片也应该是具有待识别图片的一般特征,比如说待识别图片中包含点状背景噪 声和线条噪声,那么选取的待处理图片中也应该包含这些特征,以便于在接下来步骤中来 构建相应的模型。 (1-2)对上述待处理子图片进行分析,选取与目标图片字符最相似的字体库(字 体库的选择可以依经验进行人工选择,也可以通过机器自动对比,通过机器自动对比时:通 过分析各个字体库与目标图片中对应字符的特征,计算字体的相似度,选择相似度最高的 字体);分析目标图片字符的字符集(比如说待处理图片中仅仅包含数字,那么只需要对 应研宄数字集"〇、1、2、3、4、5、6、7、8、9"而不需要研宄汉字集;当待识别图片中既包括字 母又包括数字还包括汉字,比如说常见的车牌号识别,就需要对汉字、字母以及数字都进行 研宄;而且本专利技术所说的字符集是指待识别图片集中所包含的所有字符构成的集合,比如 说待识别图片集中包含1000个汉字,那么只需要选择这1000个汉字作为进行处理的字符 集)。 (1-3)分析待处理子图片的噪声情况和扭曲特征,在已选择字体库的标准字符的 基础上构建相应的噪声模型和,或扭曲模型。所谓构建噪声模型是指将待处理子图片中所 包含的各类噪声进行相应的归类,在归类的基础上对每类噪声分布情况和复杂程度进统计 和计算,将噪声参数模型化;复杂文字识别可能遇到的噪声种类很多,比如说背景噪声、线 条噪声和,或污染物噪声等;所述构建扭曲模型是指将待处理子图片中所包含的扭曲特性 进行相应的归类,在分类的基础上对扭曲的程度和扭曲范围进行统计和计算,将扭曲参数 模型化;待处理目标图片的扭曲特征包括由仿射变换产生的平移、压缩、拉伸、旋转和,或扭 曲。 (1-4)根据噪声模型和扭曲的复杂程度,选择一定的变化步长在已选择字体库标 准字符的基础上生成大量的随机样本。 比如说步骤(3)中已分析出的噪声模型包括背景中的点状噪声、线条噪声;扭 曲特征为旋转,其中点状噪声的灰度值分布在10-90之间,线条噪声的长度和宽度分布在 0-100和1-3(这里指像素点的个数)之间,旋转度在-30°到30°之间,这样根据这些噪声 模型和扭曲特征的复杂度可以在已选择字体库中的标准字的基础上,生成包括背景噪声像 素灰度值为1〇、11、12.........90 ;线条噪声长度为0、1、2、3............1〇〇,宽度为1、 2、3 ;旋转度在-30°、-29°、-28° ......0° ......28°、29°、30°等特征组合的随机样 本;假定产生随机样本的尺寸为50*50像素大小,那么针对单个字符可产生的随机样本个 数为805W5°*100*3*60数量巨大(事实上旋转度用浮点数表示,可以选择步长值可以为浮点 数,这样所可以产生的样本个数非常巨大,可满足各种复杂神经网络的训练需要)。 作为一种优选,实际工作中为了避免因构造点状背景噪声产生数量过大的随机样 本;点状背景噪声产生方式为:通过计算待处理图片中点状噪声的平均灰度以及方差值, 在构造点状噪声时,通过使用高斯采样的方式随机设置噪声的灰度值。 进一步的,待识别图片的表面具有污染物的时候,比如车牌上的泥浆点,泥浆点的 表现为字体的表面具有类似椭圆状或者放射状的斑点,可以选择椭圆或者放射状形状的像 素块,通过设置这些像素块的灰度值从而实现表面污染物噪声的构建。 进一步的,图片的扭曲特征如:平移、压缩、拉伸、旋转和扭曲都可以根据仿射变 换来构建,仿射变换一般可用下列公式来进行表示:为为原像素 点的位置向量,X为横坐标,y为纵坐标,为系数矩阵,T为仿射变换后 的对应像素点的位置向量;为常数向量;上述公式还可以写成:T=M? T,M仿射变化系数矩阵,,具体的,平移变化的情况:在系数矩阵为单位矩阵的情况下,加上常数向量就可实现;缩放变化的系数矩阵为对角矩阵分别 调整x和y坐标的缩放倍数;而旋转变换的系数矩阵.和常数向量1其中c是旋转的中心点(c.x为中心的横坐标值,c.y为中心的 纵坐标值),0是旋转的角度;而且通过步骤(1-3)中对待处理图片中扭曲程度和模式统计 分析,也可以计算出对应系数矩阵的取值范围,这样在进行扭曲样本构建时,通过在所述取 值范围内,随机选取相关参数来设置系数矩阵,将该系数矩阵乘以标准字符的位置向量,就 可以得到不同扭曲程度的随机样本。 进一步的,可以根据待处理样本的特点,仅仅选取字符的某一部分进行仿射变换, 这样所产生的对应随机样本仅仅在字符中的对应区域具有扭曲特征。 进一步的,生成随机样本时,诸如背景噪声、线条噪声、污染物噪声等为可加噪声,本文档来自技高网
...

【技术保护点】
一种用于复杂文字识别的随机样本产生方法,其特征在于,包含以下实现步骤:(1‑1)选取一定数量的待处理样本图片,将所述样本图片中所的字符串切分成各个仅包含单个字符的待处理子图片;(1‑2)对上述待处理子图片进行分析,选取与待处理子图片字符最相似的字体库;(1‑3)分析待处理子图片的噪声情况和扭曲特征,构建相应的噪声模型和,或扭曲模型;(1‑4)根据噪音和扭曲的复杂程度,选择一定的变化步长在已选择字体库标准字符的基础上生成随机样本。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘世林何宏靖吴雨浓
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1