基于影像档案电子资料识别系统中分类器的识别方法技术方案

技术编号:10352268 阅读:154 留言:0更新日期:2014-08-25 11:16
本发明专利技术提供一种基于影像档案电子资料识别系统中分类器的识别方法,在识别系统中设置分类器,对图像的识别信息进行分类得到不同的信息项,为每个信息项构建相应的查找表,以查找表中的内容对识别信息进行比对。本发明专利技术能够自动识别扫描图像,从中提取有用信息,并按照一定的分类规则保存到数据库中,供用户检索、查询,最大程度减少用户的工作量。本发明专利技术利用多分类器融合方法来提高字符的识别率;利用格式模板,并运用多区域多内容冗余校验的方法对不同信息项内容进行比对,保证识别结果的充分可信赖性,提高了识别效率。

【技术实现步骤摘要】

本专利技术涉及数据管理系统领域,特别涉及一种。
技术介绍
现代社会中,纸质文档(例如银行票据凭证、个人信息表等等)仍然被广泛使用,对纸质文档的存储、管理及文件上的信息归类、查找都十分困难。计算机和智能手机的普及,使得通过电子方法对纸质文档进行管理成为可能,但是将纸质文档上的信息通过人工输入电子系统需要耗费大量的时间和人力;而通过智能系统自动识别票据内容还存在很多局限。诸如银行业务中,票据上的大量信息都是打印上去的印刷体的数字及中英文字符,准确提取并识别这些信息对票据自动处理有着重要作用。然而,由于票据版面的复杂性和识别要求的特殊性,在实际系统中可能会遇到各种困难:票据版面上存在印章、油墨、手写信息、背景图案等等干扰信息;另外票据上还会出现字符粘连、字体字号变化频繁、识别信息不全等问题。针对于银行系统中的兑付业务而言,其过程是将每个柜员办理的业务票据与电脑中存储的流水信息进行比对,以检查操作员是否进行了误操作;如果票据内容识别错误会导致账目不平的后果。近些年来,相对于设计更复杂的分类器来提高识别率来说,人们更倾向于将一些单个的分类器融合起来以获得更高的性能。多分类器融合算法包括两个基本途径:多个分类器的融合,也就是将每个分类器的输出结果按照特定的融合规则进行融合来得到最终的分类结果;动态分类器选择,也就是对于特定类型的待识别模式动态选择最有可能分类正确的分类器进行分类。目前在自动识别系统中,多分类器融合方法得到了很好地应用。
技术实现思路
为了解决上述现有问题,本专利技术提供了一种,对识别结果进行分类后按相应的格式模板进行识别,有效提高识别效率和准确性。为了达到上述目的,本专利技术的技术方案是提供一种,在识别系统中设置分类器,对图像的识别信息进行分类得到不同的信息项,为每个信息项构建相应的查找表,以查找表中的内容对识别信息进行比对。可选地,将信息项划分为具有上下顺位的不同类别,为不同类别的信息项对应设置有对应级别的查找表。可选地,记录信息项之间的关联情况,对任意一个信息项的内容通过与之关联的信息项的内容进行验证。可选地,通过与信息项对应的格式模板进行信息识别;所述格式模板中定义了信息项的固有位置、固有格式、固有内容、固有表达方式中的一项或若干项的组合。可选地,所述识别系统中设置有信息识别模块,对图像中的信息进行初步识别; 再通过所述分类器,对初步识别后的信息进行分类; 之后,将分类结果反馈至所述信息识别模块进行精确识别。可选地,所述识别系统中设置有信息校正模块,基于信息分类结果及其查找表、信息项关联情况、格式模板,对识别信息进行校正。可选地,在查找表中预先设置与识别信息中格式及内容固定的信息项对应的内容;还将经过精确识别或校正后的信息项的内容在查找表中进行更新。可选地,通过与所述信息校正模块信号连接的信息补录模块,对遗漏或错误识别的信息进行校正。可选地,所述识别系统中设置有预处理模块,对图像进行包含二值化的预处理;还设置有版面分析模块,从预处理过的图像中提取出识别区域,使信息识别模块对识别区域信进行信息识别。可选地,所述识别系统中设置有多个分类器,以不同的特征各自进行信息分类;对各分类器分别设置阈值来筛选其信息分类结果,将多个分类器的信息分类结果融合后输出。本专利技术提供的,其优点在于:本专利技术能够自动识别扫描图像,从中提取有用信息,并按照一定的分类规则保存到数据库中,供用户检索、查询,最大程度减少用户的工作量。本专利技术利用多分类器融合方法来提高字符的识别率;运用多区域多内容冗余校验的方法对不同信息项内容进行比对,保证识别结果的充分可信赖性,提高了识别效率。【附图说明】图1是本专利技术中影像档案电子资料的识别系统的示意图; 图2是本专利技术识别系统中信息分类过程的示意图。【具体实施方式】本专利技术通过使用如图1所示的影像档案电子资料的识别系统,对扫描纸质文档得到的图像进行信息识别,形成与该信息相匹配的电子档案存入数据库,供用户后续查询使用。该识别系统主要包含:对扫描获得的图像进行包含二值化等预处理的预处理模块;从图像中提取出识别区域,切分出文字行,并去除干扰信息(例如印章、手写体、背景图案、底纹、噪音等)的版面分析模块;对图像中识别区域的字符进行识别的信息识别模块;将识别出的信息按照不同类型进行分类的分类器;对识别出的信息根据分类结果进行校正的信息校正模块。本专利技术所述的版面分析模块,以图像版面内的连通体分析为基础,采用区域生长算法对连通体行进行聚类,从而确定所需的识别区域。具体地,所述连通体由版面中同颜色像素点(白像素或黑像素)连通构成:从一个像素点出发,若其相邻的4个或8个方向上有相邻的同颜色像素点,则将两者连接起来,直到找不到相邻的同颜色像素点,则将已经找到的同颜色像素点作为一个连通体。这里可以通过BAG (block adjacency graph)来寻找图像中的连通体。图像中不同特征的连通体往往混杂在一起。其中,背景纹理产生的连通体通常表现为小的点或者窄长的线,手写字产生的连通体往往形状不规则;而本专利技术中需要识别的由连续的印刷字产生的连通体,一般是比较规则的方块或者较宽的条带。因而,对连通体的长度、宽度、倾斜角度等参数设置阈值,来去掉那些明显不符合规则的连通体。之后,根据位置关系,将位置相邻的连通体组成连通体行。再对这些连通体进行聚类,确定需要识别的信息域。本专利技术所述的分类器,利用某个领域内使用的纸质文档具有相对固定的格式与内容的特点,可以预先将一些常见信息项的内容分别添加在不同的查找表中,然后把要识别的信息到查找表中比对,找到最符合的项目。如果没有找到,可以在查找表中增加新的项目,以备以后查找之用。例如,有的纸质文档中包含个人基本信息:姓名、出生年月、身份证号、毕业学校、专业、籍贯、住址等。则诸如其中毕业学校、专业、籍贯的内容较为固定,一般可以在各自的查找表中全部列出,提供识别比对。分类器中的分类规则,主要基于上下文或其他自然语言理解方法实现。举例来说, (1)姓氏、地址中的省市名称等一般都是某些固定的文字; (2)邮编、电话号、身份证号等一般都是数字格式; (3)由于表达上的习惯,地址、日期等信息的书写有固定的格式及次序; (4)由于表达上的习惯,姓氏一般在名字前面,等等。另外,可以对不同查找表中的信息进行关联,将不同信息项之间的对应关系进行记录,供冗余校验使用。例如,地址与邮编之间,金额的大小写之间,年龄与出生年月之间等等,往往都存在对应关系,因此可以通过一个信息项内容来验证另一个信息项内容,来判断识别出的内容是否正确。本专利技术的分类器,先将初步识别出的信息按照大类划分后利用一级查找表进行比对,例如将某个图像上的信息划分为文字类和数字类;或者按照不同的字符长度划分,等等;在某个大类下可以再具体按照小类划分后以二级查找表进行识别,例如在数字类下设电话号、邮编类、身份证号类等等。根据实际情况,可以进一步将信息细分至下一类别,并以相应的查找表识别。初步识别并经过分类的信息可以再反馈给信息识别模块,进行精准识别。在精确识别中,本专利技术中分好类型的不同信息项,按照对应的格式模板进行匹配,使识别更快速准确。并且,根据信息分类的结果、查找表、格式模板、验证结果等进行信息识别后的校正也可有效提升效率;可本文档来自技高网...

【技术保护点】
一种基于影像档案电子资料识别系统中分类器的识别方法,其特征在于,在识别系统中设置分类器,对图像的识别信息进行分类得到不同的信息项,为每个信息项构建相应的查找表,以查找表中的内容对识别信息进行比对。

【技术特征摘要】
1.一种基于影像档案电子资料识别系统中分类器的识别方法,其特征在于, 在识别系统中设置分类器,对图像的识别信息进行分类得到不同的信息项,为每个信息项构建相应的查找表,以查找表中的内容对识别信息进行比对。2.如权利要求1所述的识别方法,其特征在于, 将信息项划分为具有上下顺位的不同类别,为不同类别的信息项对应设置有对应级别的查找表。3.如权利要求1所述的识别方法,其特征在于, 记录信息项之间的关联情况,对任意一个信息项的内容通过与之关联的信息项的内容进行验证。4.如权利要求1所述的识别方法,其特征在于, 通过与信息项对应的格式模板进行信息识别; 所述格式模板中定义了信息项的固有位置、固有格式、固有内容、固有表达方式中的一项或若干项的组合。5.如权利要求1所述的识别方法,其特征在于, 所述识别系统中设置有信息识别模块,对图像中的信息进行初步识别; 再通过所述分类器,对初步识别后的信息进行分类; 之后,将分类结果反馈至所述信息识别模块进行精确识...

【专利技术属性】
技术研发人员:林珉
申请(专利权)人:上海珉智信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1