一种图像文字识别系统技术方案

技术编号:6101332 阅读:253 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了.一种图像文字识别系统,所述图像文字识别系统包括数据接收模块,用于从DataServer接收具体的图象文件数据以供后续的图象文字识别工作;背景过滤模块,用于去除图像背景,提取字符区域;字符分割模块,用于对每个字符区域做细化和大小归一化处理,分割字符;特征提取模块,用于提取每个区域每个字符的特征值;特征对比模块,用于查询数据库,得到字符对比结果;数据库更新模块:用于将特征值与对应字符写入特征数据库。本发明专利技术的识别系统降低了字符识别的错误率,对不能识别的文字,可以进行学习,增强系统的识别能力。

【技术实现步骤摘要】

本专利技术涉及图象分析处理领域,尤其是相应的图象过滤分析应用领域,特别是针 对通信运营商的多媒体信息监控过滤系统。
技术介绍
随着移动通信技术的发展,所发送的数据已不仅仅局限于文字信息,也包含了大 量的图像信息。目前,国家对短信息已经有了较好的监控,抑制了一部分不良信息的传播, 但对图像信息,却不能监控,这就让很多不法分子有可乘之机,使用这种方式,广为传播含 有扰乱社会治安或是居民生活的信息。
技术实现思路
本专利技术的目的是提供一流的、高效稳定的图像文字识别系统解决方案。针对图像 数据进行识别处理,直接得到图像数据所包含的字符信息。为此本专利技术提出了一种图像文字识别系统,所述图像文字识别系统包括数据接收模块,用于从Data krver接收具体的图象文件数据以供后续的图象文字识 别工作;背景过滤模块,用于去除图像背景,提取字符区域;字符分割模块,用于对每个字 符区域做细化和大小归一化处理,分割字符;特征提取模块,用于提取每个区域每个字符的 特征值;特征对比模块,用于查询数据库,得到字符对比结果;数据库更新模块用于将特 征值与对应字符写入特征数据库。根据本专利技术的实施例,所述背景过滤模块首先进行彩色游程编码;其次得到颜 色聚类;再次进行字符层的生成和选择;最后提取字符区域。上述彩色游程编码根据彩色欧氏距离进行编码从每一行的第一个象素开始,以 该像素为一个新的游程的起始点,计算该起始点和同一行中与它紧邻的下一个像素在RGB 空间内的欧氏距离dii';如果dii'小于阈值Th,将这两个像素合并为一个游程,游程 长度Ii增1,并计算该游程的平均值RGB值(ri,bi,gi),相反,如果大于等于阈值 Th,则游程序号i增1,并以该像素为新游程的起始点,记录下该像素坐标和颜色值(1) ,新游程长度初始值为1 ;按照这种方法,继续计算下一个相邻像素与该相邻游程的欧氏 距离,如果距离小于Th,就将该像素并入该游程,并重新计算它的RGB值,反之,生成 新的游程;根据上述规则,遍历图像中每一行的所有像素可以得到若干个彩色游程;在彩 色游程生成同时,从图像的第二行开始,计算该行与上一相邻行在位置上是8邻域相连的 各彩色游程两两之间在RGB空间内的欧氏距离,判断该距离是否小于阈值Tv,若小于Tv 则合并为同一个连通域,即连接这两个游程;遍历完全部图像后,根据游程之间的连接 指针便可以得到组成图像的所有连通域的集合{ Ci I 1 = 1,2, ,ρ},ρ为图像所 包含连通域的总数;其中所述Tv = Th = 13至16。根据本专利技术的实施例,该系统通过如下步骤得到颜色聚类所含像素数目最多的连通域的平均颜色作为初始的中心颜色,计算其它连通域与其在RGB彩色空间的欧氏距离;若小于阈值TC,则计算两个连通域平均RGB值,并作为新 的中心颜色值取代原来的初始中心颜色;若大于TC,则生成第二个新的颜色中心,该连通 域的平均颜色值即为该中心的初始RGB值;按照该方法逐个计算比较,合并中心距离小于 TC的颜色中心;其中所述TC =观 30。根据本专利技术的实施例,所述图像文字识别系统按照如下步骤进行字符层的生成和 选择在连通域颜色聚类之后,保留所有面积大于1 Xi的连通域,分别计算这些连通域 与各个颜色中心的欧氏距离;如果某个连通域与其中一个颜色中心的欧氏距离小于TC, 那么该连通域会被分配到该颜色中心决定的层面上。根据本专利技术的实施例,所述图像文字识别系统通过如下步骤来提取字符区域1)依次测试每一图像层面对于每一个图像层面,如果大于该层分割阈值的像素个数 超过100个,就作为文字层面,如果大于该层分割阈值的像素个数小于100,作为噪声或背景层面;2)依次测试每一连通域如果被测试的连通域的长和宽与测试图像大小大体相当, 被测试的连通域的平均颜色作为背景色,它所在层面即为背景层面3)删除噪声层面和背景层面,剩下的层面均为图像文字层面。根据本专利技术的实施例,所述图像文字识别系统包括图像增强模块,用于对每个字 符区域做预处理,增强图像识别强度;所述图像文字识别系统通过如下步骤进行增强处理 根据背景过滤模块处理后的图像数据,计算图像上字符区域的像素平均值,比较每个像素 与平均像素之间的差异,保留字符区域中差异不大的像素;然后使用均值滤波去除噪声; 再根据灰度直方图统计阈值,并根据阈值分割图像。根据本专利技术的实施例,所述字符分割模块完成如下步骤首先要提取字符骨架,文本的骨架,要根据它的八个相邻点的情况来判断1.内部点 不能删除;2.孤立点不能删除;3.直线端点不能删除4.如果像素点P是边界点,去掉P后, 如果连通分量不增加,则删除P ;根据索引表,每次对一行一行的将整个图象扫描一遍,对于非边界的每个点,计算它对 应在表中的索引,若为0,则保留,否则删除该点;如果这次扫描没有一个点被删除,则循环 结束,剩下的点就是骨架点,如果有点被删除,则进行新的一轮扫描,如此反复,直到没有点 被删除为止;对抽取骨架的图像数据,按照从左到右,从上到下的方式进行遍历,根据字符的八连同 性进行字符分割。根据本专利技术的实施例,所述字符特征提取模块完成如下步骤 首先根据统一的宽高比,对每个分割的字符进行大小归一处理; 其次,根据横向和纵向需要提取特征点的数量,将字符等量切分;或1)取得笔画的起点坐标和终点坐标,分别为(Martx,StartY)和(EndX,EndY);2)如果EndX=StartX,那么笔画的矢量编码code-4,转到5);3)计算笔画斜率的绝对值slope4)根据slope确定笔画在第一象限的矢量编码code。如果 0<~slope<tan( r/16),贝ij code=0 ;如果tan(>/16) S slope<tan(3;r/16),则 code=l ;如果权利要求1.一种图像文字识别系统,其特征在于,所述图像文字识别系统包括数据接收模块,用于从Data krver接收具体的图象文件数据以供后续的图象文字识 别工作;背景过滤模块,用于去除图像背景,提取字符区域;字符分割模块,用于对每个字符区域做细化和大小归一化处理,分割字符;特征提取模块,用于提取每个区域每个字符的特征值;特征对比模块,用于查询数据库,得到字符对比结果;数据库更新模块用于将特征值与对应字符写入特征数据库。2.如权利要求1所述的图像文字识别系统,其特征在于,所述背景过滤模块 首先进行彩色游程编码;其次得到颜色聚类; 再次进行字符层的生成和选择; 最后提取字符区域。3.如权利要求2所述的图像文字识别系统,其特征在于,所述彩色游程编码根据彩色 欧氏距离进行编码从每一行的第一个象素开始,以该像素为一个新的游程的起始点,计算该起始点和同 一行中与它紧邻的下一个像素在RGB空间内的欧氏距离dii';如果dii'小于阈值Th,将这两个像素合并为一个游程,游程长度Ii增1,并计算 该游程的平均值RGB值(ri,bi,gi),相反,如果大于等于阈值Th,则游程序号i增 1,并以该像素为新游程的起始点,记录下该像素坐标和颜色值(1),新游程长度初始值 为1 ;按照这种方法,继续计算下一个相邻像素与该相邻游程的欧氏距离,如果距离小于Th ,就将该像素并入该游程,并重新计算它的RGB值,反之,本文档来自技高网...

【技术保护点】
1.一种图像文字识别系统,其特征在于,所述图像文字识别系统包括数据接收模块,用于从Data Server接收具体的图象文件数据以供后续的图象文字识别工作;背景过滤模块,用于去除图像背景,提取字符区域;字符分割模块,用于对每个字符区域做细化和大小归一化处理,分割字符;特征提取模块,用于提取每个区域每个字符的特征值;特征对比模块,用于查询数据库,得到字符对比结果;数据库更新模块:用于将特征值与对应字符写入特征数据库。

【技术特征摘要】

【专利技术属性】
技术研发人员:王鑫鑫税彬
申请(专利权)人:成都四方信息技术有限公司
类型:发明
国别省市:90

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1