非常见字体的图像文字OCR识别系统技术方案

技术编号：15355644 阅读：274 留言：0更新日期：2017-05-17 13:51

本发明专利技术涉及图像识别处理领域，特别涉及非常见字体的图像文字OCR识别系统；特征图片生成模块，图像文字切分模块，存储模块和图像文字识别模块；特征图片生成模块，根据用户选择的待识别图像文字的字体，制作出对应的字符特征图片，并将制作成的特征图片存储于存储模块中；图像文字切分模块将待处理图像中的字符进行切分，切分成各个仅包含单个字符的子图片存储模块中；所述图像识别模块，提取存储模块中的子图片，计算子图片与特征图片的符合程度，进而实现子图片字符内容的识别，并将识别结果输入。在使用时用户仅需将待识别图像输入系统中，并根据待识别图像选择对应字体，就可以得出识别后的可编辑，可操作的图像文字识别结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术图像识别领域，特别涉及非常见字体的图像文字OCR识别系统。
技术介绍
随着社会的发展和科技的进步，人类创造的知识正以指数级的数量增加，在电子书籍出现之前，大部分的知识是以图书的方式进行传承，中华上下五千年，产生了大量优秀书籍，这些书籍在历史的长河中，或多或少都遭到了不同程度的损坏，因此对这些书籍进行数字化存储迫在眉睫；在图书管理领域，书籍内容的快速搜索对于快速定位书籍很有帮助，而由于书籍数量太多，加上早期印刷的图书没有作者的电子文稿，因此纸质书籍的电子化很有必要。光学字符识别软件就是处理这种纸质图书到电子文档转化的利器，其主要利用大量的字符样本，经过复杂网络的学习，生成相应的模型文件，从而达到识别图片中字符的目的。光学字符识别软件主要功能是识别拍摄、扫描图片中的字符，现有技术中在进行图像中文字的识别时，首先需要将图像中的字符串切分开，形成包含单个文字的小图片，然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法，即是将图像文字二值化处理后，通过垂直投影法找到两个文字之间的分界线，根据分界线将文字切分开来。然而当图像中的文字之间具有粘连，且图像中包含左右结构的汉字时，简单的投影方法就很难实现较好的切分效果；正是因为这个原因使得切分一直是OCR识别的难点，切分的质量将直接影响到文字的识别效果。此外光学字符识别软件主要功能是识别拍摄、扫描图片中的字符，对于一些特殊字体的扫描件，公章，拍照，比如早期印刷的书籍，政府单位制作的证件等，由于历史原因以及保密与安全需要，其字体往往是特制的，现有的光学字符识别软件主要集中于机器学习的方法...
非常见字体的图像文字OCR识别系统

【技术保护点】
非常见字体的图像文字OCR识别系统，其特征在于，包含特征图片生成模块，图像文字切分模块，存储模块和图像文字识别模块；所述特征图片生成模块，根据用户选择的待识别图像文字的字体，制作出对应的字符特征图片，并将制作成的特征图片存储于所述存储模块中；所述图像文字切分模块将待处理图像中的字符进行切分，切分成各个仅包含单个字符的子图片，并将切分后的子图片序列存储于存储模块中；所述图像文字识别模块，提取存储模块中的子图片，计算子图片与特征图片的符合程度，进而实现子图片字符内容的识别，并将识别结果输入。

【技术特征摘要】
1.非常见字体的图像文字OCR识别系统，其特征在于，包含特征图片生成模块，图像文字切分模块，存储模块和图像文字识别模块；所述特征图片生成模块，根据用户选择的待识别图像文字的字体，制作出对应的字符特征图片，并将制作成的特征图片存储于所述存储模块中；所述图像文字切分模块将待处理图像中的字符进行切分，切分成各个仅包含单个字符的子图片，并将切分后的子图片序列存储于存储模块中；所述图像文字识别模块，提取存储模块中的子图片，计算子图片与特征图片的符合程度，进而实现子图片字符内容的识别，并将识别结果输入。2.如权利要求1所述的系统，其特征在于，所述图像文字切分模块对文字字符图片的切分包含以下实现过程：A、使用投影法待识别图像文字进行切分，切分成子图片序列；将其中的数字、字母和标点符号标记出来；B、对未标记的子图片进行判断：是否满足L≤M*h，L为子图片字符投影的宽度，M为系数，h为行高；对于不满足条件的子图片进行切分，切分位置根据以下公式进行确定：f(x)＝g(x)t(x)g(x)=11+e-0.01|x-h|]]>重复执行步骤B，直到序列中未标记的子图片均满足条件：L≤M*h；C、对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断：是否满足L合≤M*h；如果满足，依序对满足条件的相邻子图片进行合并；重复执行步骤C直到除数字、字母和标点以外的相邻子图片总宽度均不满足L合≤M*h；D、对序列中未标记的子图片进行判断：如果序列中存在三个相邻的子图片，且三个子图片满足：第一子图片和第三子图片的宽度L≤0.5h，且中间子图片的宽度L≥h，则将中间子图片根据公式：f(x)＝g(x)t(x)g(x)=11+e-0.01|x-0.5h|]]>所确定的切分点进行切分；根据确定的切分点，将中间子图片切分...

【专利技术属性】
技术研发人员：景亮，刘世林，康青杨，唐涔轩，
申请(专利权)人：成都数联铭品科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人