一种基于网格特征智能匹配残缺汉字的识别方法技术

技术编号:11076200 阅读:195 留言:0更新日期:2015-02-25 14:37
本发明专利技术公开了一种基于网格特征智能匹配残缺汉字的识别方法,包括以下步骤:S1:将碎纸复原图转化成0-1矩阵;S2:用完整字大小的子矩阵逐行逐列的循环方法来定位汉字的图像位置;S3:将步骤S2中得到的残缺汉字进行网格分块分成多个子矩阵,提取特征;S4:分别对残缺汉字网格分割后的每一网格子矩阵特征通过标准词库进行智能匹配识别。本发明专利技术提供一种基于网格特征智能匹配残缺汉字的识别方法,解决碎纸复原技术虽然由机器进行识别匹配,但行列拼接均有出错的情况导致最终无法对残缺汉字进行识别的问题。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
如今,碎纸复原技术在司法物证复原、历史文献修复以及军事情报获取等重要领域都有着重大作用。在对隐私信息进行处理时,也要将碎纸复原技术考虑在内。 如图1和图2所示,现在的碎纸复原技术主要是使用一种拼接算法,将汉字按像素点以矩阵形式存储,根据纸片边距和汉字匹配程度进行碎纸还原。虽然此方法科学易实现,但是由机器进行识别匹配,行列拼接均有出错的情况,最终会导致无法对汉字进行识别的问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供,解决碎纸复原技术虽然由机器进行识别匹配,但行列拼接均有出错的情况导致最终无法对残缺汉字进行识别的问题。 本专利技术的目的是通过以下技术方案来实现的:,包括以下步骤:S1:将碎纸复原图转化成0-1矩阵;52:根据图像位置定位规则,用完整字大小(大小取决于图像中平均字大小)的子矩阵逐行逐列的循环方法来定位汉字的图像位置;53:将步骤S2中得到的残缺汉字进行网格分块分成子矩阵,提取特征;S4:分别对残缺汉字网格分割后的每一网格子矩阵特征通过标准词库进行智能匹配识别。 步骤SI采用MATLAB软件对碎纸复原图进行转化。 步骤S2中所述的图像位置定位规则包括:(1)如果在完整字大小的子矩阵中含有宽/长等于一个字大小的,则确定一个残缺字,同时记录位置;(2)如果完整字大小的子矩阵中含有宽/长大于一个字大小的,则确定为I个残缺字,同时记录位置,并且再分别从左右/上下两个反方向循环,再确定一个残缺字,同时记录位置;(3)如果完整字大小的子矩阵中含有宽/长少于一个字大小的,确定为I个残缺字,同时记录位置。 所述的步骤S3包括以下子步骤:531:按照残缺汉字大小,将残缺汉字分成多个子矩阵;532:对每个子矩阵分别用小波函数分析提取这多个子矩阵图片的多个参数矩阵,将这多个参数矩阵一起作为该残缺字的特征。 还包括一个建立标准词库子步骤:将每一个完整汉字的每种字号,分别进行网格分解,得到标准特征的多个子矩形及其多个参数矩阵,确定一个完整汉字的特征值。 所述的子矩阵为2*2大小的子矩阵。 所述的参数矩阵包括垂直属性、水平属性和对角属性的3个参数矩阵。 所述的多种字号为10号字至22号字之间的8种字号。 所述的步骤S4包括以下子步骤:541:将步骤S3得到的多个网格子矩阵与标准词库中每一个完整汉字的标准特征矩阵进行比较;542:如果相似度大于某一比例,就判定该残缺字为词库中的这个完整的字。 步骤S42所述的某一比例为百分之五十。 本专利技术的有益效果是:本专利技术首先将碎纸复原图转化成0-1矩阵,再根据图像位置定位规则,用完整字大小的子矩阵逐行逐列的循环方法来定位汉字的图像位置,判断其是否可能是一个残缺的字,有可能是字的话将其保存,然后通过基于小波函数提取汉字特征向量来实现与词库中的汉字识别。本专利技术解决碎纸复原技术虽然由机器进行识别匹配,但行列拼接均有出错的情况导致最终无法对残缺汉字进行识别的问题,提供一种残缺汉字识别方法。 【附图说明】 图1为商务函电样本图;图2为样本碎纸复原效果图;图3为本专利技术方法流程图。 【具体实施方式】 下面结合附图进一步详细描述本专利技术的技术方案:如图3所示,,包括以下步骤:S1:将碎纸复原图转化成0-1矩阵;52:用完整字大小(大小取决于图像中平均字大小)的子矩阵逐行逐列的循环方法来定位汉字的图像位置;53:将步骤S2中得到的残缺汉字进行网格分块分成子矩阵,提取特征;S4:分别对残缺汉字网格分割后的每一网格子矩阵特征通过标准词库进行智能匹配识别。 步骤SI采用MATLAB软件对碎纸复原图进行转化。 步骤S2中所述的定位汉字的图象位置的规则包括以下子步骤:521:如果在完整字大小的子矩阵中含有宽/长等于一个字大小的,则确定一个残缺字,同时记录位置;522:如果完整字大小的子矩阵中含有宽/长大于一个字大小的,则确定为I个残缺字,同时记录位置,并且再分别从左右/上下两个反方向循环,再确定一个残缺字,同时记录位置; S23:如果完整字大小的子矩阵中含有宽/长少于一个字大小的,确定为I个残缺字,同时记录位置。 所述的步骤S3包括以下子步骤:531:按照残缺汉字大小,将残缺汉字分成多个子矩阵;532:对每个子矩阵分别用小波函数分析提取这多个子矩阵图片的多个参数矩阵,将这多个参数矩阵一起作为该残缺字的特征。 还包括一个建立标准词库子步骤:将每一个完整汉字的每种字号,分别进行网格分解,得到标准特征的多个子矩形及其多个参数矩阵,确定一个完整汉字的特征值。 所述的子矩阵为2*2大小的子矩阵。 所述的参数矩阵包括垂直属性、水平属性和对角属性的3个参数矩阵。 所述的多种字号为10号字至22号字之间的8种字号。 所述的步骤S4包括以下子步骤:541:将步骤S3得到的多个网格子矩阵与标准词库中每一个完整汉字的标准特征矩阵进行比较;542:如果相似度大于某一比例,就判定该残缺字为词库中的这个完整的字。 步骤S42所述的某一比例为百分之五十。本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201410607290.html" title="一种基于网格特征智能匹配残缺汉字的识别方法原文来自X技术">基于网格特征智能匹配残缺汉字的识别方法</a>

【技术保护点】
一种基于网格特征智能匹配残缺汉字的识别方法,其特征在于:它包括以下步骤:S1:将碎纸复原图转化成0‑1矩阵;S2:根据图像位置定位规则,用完整字大小的子矩阵逐行逐列的循环方法来定位汉字的图像位置;S3:将步骤S2中得到的残缺汉字进行网格分块分成子矩阵,提取特征;S4:分别对残缺汉字网格分割后的每一网格子矩阵特征通过标准词库进行智能匹配识别。

【技术特征摘要】
1.一种基于网格特征智能匹配残缺汉字的识别方法,其特征在于:它包括以下步骤: S1:将碎纸复原图转化成0-1矩阵; 52:根据图像位置定位规则,用完整字大小的子矩阵逐行逐列的循环方法来定位汉字的图像位置; 53:将步骤S2中得到的残缺汉字进行网格分块分成子矩阵,提取特征; S4:分别对残缺汉字网格分割后的每一网格子矩阵特征通过标准词库进行智能匹配识别。2.根据权利要求1所述的一种基于网格特征智能匹配残缺汉字的识别方法,其特征在于:步骤S1采用MATLAB软件对碎纸复原图进行转化。3.根据权利要求1所述的一种基于网格特征智能匹配残缺汉字的识别方法,其特征在于:步骤S2中所述的图像位置定位规则包括: (1):如果在完整字大小的子矩阵中含有宽/长等于一个字大小的,则确定一个残缺字,同时记录位置; (2)如果完整字大小的子矩阵中含有宽/长大于一个字大小的,则确定为1个残缺字,同时记录位置,并且再分别从左右/上下两个反方向循环,再确定一个残缺字,同时记录位置; (3)如果完整字大小的子矩阵中含有宽/长少于一个字大小的,确定为1个残缺字,同时记录位置。4.根据权利要求1所述的一种基于网格特征智能匹配残缺汉字的识别方法,其特征在于:所述的步骤S3包括以下子步骤: 531:按照残缺汉字大小,将残缺汉字分成多个子矩阵; 532:对...

【专利技术属性】
技术研发人员:陈旭李耘书杨翰典王越亚白维珊
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1