一种用于复杂文字识别的随机样本产生方法技术

技术编号：12032345 阅读：91 留言：0更新日期：2015-09-10 19:49

本发明专利技术涉及图像识别领域，特别涉及一种用于复杂文字识别的随机样本产生方法。在复杂文字识别中，通过分析文字复杂性的原因，在与待识别字符相似的标准字符的基础上使用随机样本生成器产生的包含待识别图片噪声模型和扭曲特征模型的大量样本。随机样本生成器自动生成的训练样本中包含各种复杂的噪声和扭曲变形，可以满足各种复杂文字识别的需要；将上述随机样本作为训练样本输入深度神经网络中，可以解决训练深度神经网络来识别文字时需要大量人工标注的问题，使复杂文字图像的自动识别变得更加简单易行，显著节省了相关的人工成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别领域，特别涉及一种用于复杂文字识别的随机样本产生方法。
技术介绍
图片识别在智能识别领域具有十分重要的意义，随着科技的进步和社会的发展，对图片中文字的自动识别的需求量也急速增加。传统的光学文字识别（OCR)系统常常用于识别使用光学设备扫描生成的文档，比如数字化古籍，识别名片、发票、表单等。通常这类扫描文档有着比较高的分辨率和对比度，而且打印字体一般都比较单一规整，提取用于识别的单个文字变得比较简单。所以这类文档识别的核心是消除噪音，噪音的消除方法比较多：比如使用高斯进行平滑化处理，然后使用阈值化对图片进行二值化，最后提取工程化设计好的特征向量进行模版匹配或者交付给分类器进行识别。随着互联网的发展和移动设备的普及，产生了大量含有复杂噪音或者各种变形的文字图片，比如验证码图片、随手拍照片、车辆车牌等。复杂噪音产生的原因既包括了客观因素，比如拍照状况的复杂性、拍照设备的质量偏低；也包括了主观因素，比如为了网站安全，将验证码的噪音和扭曲都人为设计得很复杂。为了从大量公开的多媒体数据中挖掘出有价值的信息，识别这些复杂文字图片开始变得很有意义。识别这些复杂文字时，使用传统的OCR方法，在识别速度和准确性方面已经难以满足庞大数据的识别要求。随着人工神经网络的出现，使得图像和语音识别变得简单高效；而深度神经网络在图像和语音识别领域都得到了突破性的进展，但是使用神经网络来进行文字或者语音识别之前，需要输入大量的标注数据来完成神经网络的训练；而深度神经网络所需要的标注数据量更加巨大，比如谷歌的语音识别系统使...

【技术保护点】
一种用于复杂文字识别的随机样本产生方法，其特征在于，包含以下实现步骤：(1‑1)选取一定数量的待处理样本图片，将所述样本图片中所的字符串切分成各个仅包含单个字符的待处理子图片；(1‑2)对上述待处理子图片进行分析，选取与待处理子图片字符最相似的字体库；(1‑3)分析待处理子图片的噪声情况和扭曲特征，构建相应的噪声模型和，或扭曲模型；(1‑4)根据噪音和扭曲的复杂程度，选择一定的变化步长在已选择字体库标准字符的基础上生成随机样本。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘世林，何宏靖，吴雨浓，
申请(专利权)人：成都数联铭品科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人