用于图像文字识别的特征图片自动生成系统技术方案

技术编号：15502163 阅读：111 留言：0更新日期：2017-06-03 23:11

本发明专利技术涉及图像识别处理领域，特别涉及用于图像文字识别的特征图片自动生成系统；包含图像文字切分模块、特征图片生成模块和存储模块，图像文字切分模块采用投影法将待识别切分成仅包含单个字符的子图片，将中的数字、字母和标点符号标记出来存储于存储模块中；特征图片生成模块，根据用户在每个数字、字母和标点对应的子图片中选择的一张子图片，和根据用户选择对应字体生成的样本图片；对图片中的字符分别向上、下、左、右、左上、左下、右上和右下移动设定距离l，制成对应的特征图片标注后存储于存储模块中。本系统在对待识别图像文字进行有效切分的基础上据用户选择的字体自动生成特征图片，为实现特殊字体OCR识别准备简单快捷的工具。

Automatic generation system of feature pictures for image character recognition

The present invention relates to image processing field, in particular for the feature picture text image automatic generation system includes image; character segmentation module, feature image generation module and storage module, image character segmentation module using the projection method to be identified only includes a single character segmentation into sub images, in numbers, letters and punctuation the symbol mark is stored in the storage module; feature image generation module, according to a user in each sub select corresponding numbers, letters and punctuation sub images in the picture, and according to the user select the corresponding font sample images; on the characters in the picture are up and down, left and right, left, the left and right upper and lower right mobile set distance L, features pictures made into corresponding annotation stored in a memory module. On the basis of effective segmentation of the recognized image characters, the system automatically generates feature pictures according to the font chosen by the user. It is a simple and fast tool for OCR recognition of special fonts.

全部详细技术资料下载

【技术实现步骤摘要】
用于图像文字识别的特征图片自动生成系统
本专利技术图像识别领域，特别涉及用于图像文字识别的特征图片自动生成系统。
技术介绍
随着社会的发展和科技的进步，人类创造的知识正以指数级的数量增加，在电子书籍出现之前，大部分的知识是以图书的方式进行传承，中华上下五千年，产生了大量优秀书籍，这些书籍在历史的长河中，或多或少都遭到了不同程度的损坏，因此对这些书籍进行数字化存储迫在眉睫；在图书管理领域，书籍内容的快速搜索对于快速定位书籍很有帮助，而由于书籍数量太多，加上早期印刷的图书没有作者的电子文稿，因此纸质书籍的电子化很有必要。光学字符识别软件就是处理这种纸质图书到电子文档转化的利器，其主要利用大量的字符样本，经过复杂网络的学习，生成相应的模型文件，从而达到识别图片中字符的目的。光学字符识别软件主要功能是识别拍摄、扫描图片中的字符，现有技术中在进行图像中文字的识别时，首先需要将图像中的字符串切分开，形成包含单个文字的小图片，然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法，即是将图像文字二值化处理后，通过垂直投影法找到两个文字之间的分界线，根据分界线将文字切分开来。然而当图像中的文字之间具有粘连，且图像中包含左右结构的汉字时，简单的投影方法就很难实现较好的切分效果；正是因为这个原因使得切分一直是OCR识别的难点，切分的质量将直接影响到文字的识别效果。此外光学字符识别软件主要功能是识别拍摄、扫描图片中的字符，对于一些特殊字体的扫描件，公章，拍照，比如早期印刷的书籍，政府单位制作的证件等，由于历史原因以及保密与安全需要，其字体往往是特制的，现有...
用于图像文字识别的特征图片自动生成系统

【技术保护点】
用于图像文字识别的特征图片自动生成系统，其特征在于，包含图像文字切分模块、特征图片生成模块和存储模块，所述图像文字切分模块采用投影法将待识别切分成仅包含单个字符的子图片，并将中的数字、字母和标点符号标记出来，存储于存储模块中；所述特征图片生成模块，根据用户在每个数字、字母和标点对应的子图片中选择的一张子图片，将子图中的字符，分别向上、下、左、右、左上、左下、右上和右下移动设定距离l，制成对应的特征图片，并对制成的特征图片进行对应的标注后存储于存储模块中；所述特征图片生成模块根据用户选择对应字体，生成样本图片；对样本图片中的字符分别向上、下、左、右、左上、左下、右上和右下移动设定距离l，制成对应的特征图片；并对制成的特征图片进行对应的标注后存储于存储模块中。

【技术特征摘要】
1.用于图像文字识别的特征图片自动生成系统，其特征在于，包含图像文字切分模块、特征图片生成模块和存储模块，所述图像文字切分模块采用投影法将待识别切分成仅包含单个字符的子图片，并将中的数字、字母和标点符号标记出来，存储于存储模块中；所述特征图片生成模块，根据用户在每个数字、字母和标点对应的子图片中选择的一张子图片，将子图中的字符，分别向上、下、左、右、左上、左下、右上和右下移动设定距离l，制成对应的特征图片，并对制成的特征图片进行对应的标注后存储于存储模块中；所述特征图片生成模块根据用户选择对应字体，生成样本图片；对样本图片中的字符分别向上、下、左、右、左上、左下、右上和右下移动设定距离l，制成对应的特征图片；并对制成的特征图片进行对应的标注后存储于存储模块中。2.如权利要求1所述的系统，其特征在于，n*h＜l＜N*h。3.如权利要求2所述的系统，其特征在于，n≤1/4。4.如权利要求1至3之一所述的系统，其特征在于，所述系统文字字符图片的切分包含以下实现过程：A、将图片序列中的数字、字母和标点符号标记出来；B、对未标记的子图片进行判断：是否满足L≤M*h，L为子图片字符投影的宽度，M为系数，h为行高；对于不满足条件的子图片进行切分...

【专利技术属性】
技术研发人员：韩远，景亮，刘世林，康青杨，唐涔轩，
申请(专利权)人：成都数联铭品科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人