一种分层带回溯查找机制的票据类型识别方法技术

技术编号:7462222 阅读:214 留言:0更新日期:2012-06-25 08:07
本发明专利技术公开了一种分层带回溯查找机制的票据类型识别方法,属于票据类型模式识别领域。本发明专利技术包含多个识别特征层,根据票据图像在特征层间回溯查找最匹配的票据类型模板。每个特征层包含多个特征匹配阈值区间,特征匹配过程按照阈值区间从小到大的顺序执行,一旦某区间的匹配结果集非空,就转到下一特征层继续进行匹配;若某层内所有区间的匹配结果集都为空,则回溯到上一层的下一个阈值区间进行匹配。其中,在表头文字特征的匹配过程中,引入表头长度阈值λ,当表头长度小于λ时,进行完整匹配;当表头长度大于λ时,进行局部匹配。本发明专利技术有效解决了传统方法由于特征匹配阈值设置不当导致的票据图像识别速度较慢和拒识率较高的问题。

【技术实现步骤摘要】

本专利技术涉及模式识别领域,尤其涉及票据类型模式识别领域,特别的,本专利技术涉及。
技术介绍
模式识别(Pattern Recognition)是指对表征事物或现象的各种形式(数值、文字、逻辑关系等)的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。票据类型识别是模式识别的一个应用领域。 票据类型识别常常是涉及票据影像的业务处理系统的重要组成部分;常见的票据包括转帐支票、存款凭条、取款凭条等,票据类型识别是指计算机系统通过分析纸质票据扫描成的票据影像,自动判断该票据所属的票据类型的过程。通过票据类型识别可以辅助完成票据影像类型索引的建立。票据类型识别主要包含两部分内容识别模板库和识别算法。识别模板库包含多个识别模板,其中每个识别模板定义了某种票据所包含的标准特征信息。通常情况下,识别模板库由模板定制人员通过模板定制工具手工制作。识别算法的输入包括识别模板库和待识别票据图像。针对待识别票据图像,识别算法首先提取待识别图像的特征,然后将提取得到的特征与识别模板库中识别模板包含的标准特征信息进行匹配,最后确定待识别票据图像的类型。如何选择票据特征匹配方法和有效地组织各票据特征进行识别是票据类型识别方法需要重点解决的问题。特征匹配方法将待识别票据图像上提取到的特征与识别模板库中识别模板包含的标准特征信息进行匹配,计算得出待识别图像与某个识别模板的偏差量;用于判断某个识别模板是否为待识别图像的候选模板的偏差量值称为特征匹配阈值。识别模板与待识别图像的偏差量小于特征匹配阈值,则认为该识别模板为待识别图像的一个候选模板;反之, 待识别图像拒绝该识别模板。如何组织票据的各种特征进行识别对票据类型识别方法有较大的影响。现有的票据类型识别方法组织各票据特征的方式主要有两种。第一种方式称为“全局式”,该方法设置一个全局的特征匹配阈值。全局式方法首先针对每个票据特征,计算待识别图像与所有识别模板的偏差量;然后利用某种组合规则(如加权平均)得出待识别图像与所有识别模板的偏差量;如果最小偏差量小于全局特征匹配阈值,将其相应的识别模板作为结果,否则拒识。第二种方式称为“分层过滤式”,该方法为每个票据特征定义1个特征匹配阈值。首先在第1个特征上计算待识别图像与所有识别模板的偏差量,如果某个识别模板与待识别图像的偏差量小于该特征的特征匹配阈值,则将识别模板加入到候选模板集中;然后匹配在第2,...,i,...,η个特征上进行,第i个特征输入的识别模板为第i-Ι个特征输出的候选模板集;这样经过各个特征的匹配过滤得出识别结果或拒识。票据凭证的表头文字是票据的重要特征,基本上是票据类型识别方法必须包含的票据特征。现有的票据类型识别方法通常采取以下方法进行表头文字特征的匹配首先4对待识别的整张票据图像进行文字识别,如果文字识别结果中包含某个识别模板的表头文字,则该识别模板被作为待识别票据图像的一个候选模板。“全局式”特征组合方法由于在每个特征上都需要计算所有识别模板与待识别图像的偏差量,必然导致识别时间较长。另外,由于需要对各个特征上的偏差量进行组合处理,该方法还需要对各特征的偏差量进行归一化处理。“分层过滤式”特征组合方法针对每个特征设置1个特征匹配阈值,特征匹配阈值设置起来比较困难。为了保持较高的识别率, 该方法会尽量把每个特征的特征匹配阈值放大,但是这样会导致送入下一个特征的候选模板集中包含较多的识别模板,导致识别时间较长;如果调小每个特征的特征匹配阈值,可能导致正确的识别模板在较早的特征进行匹配时被拒绝掉,从而引起拒识率的升高。现有的票据类型识别方法在进行表头文字特征的匹配时往往采用较严格的策略, 即待识别图像的文字OCR识别结果必须完全包含某个识别模板的表头文字,该识别模板才可以作为待识别图像的候选模板,否则会拒绝该识别模板。这样对于含有较长表头的识别模板(如表头文字为“中国XX银行有价单证重要空白凭证零星入库领用单”),可能导致由于1个字识别错误,从而拒绝正确的识别模板的现象。
技术实现思路
本专利技术的目的是提出一种快速的、具有较高识别率的票据类型识别方法。本专利技术通过针对每个票据特征引入特征匹配阈值区间的方法,解决了现有票据类型识别方法特征匹配阈值设置不当可能导致的识别速度较慢或拒绝率较高的缺点。另外,本专利技术通过在表头文字的特征匹配过程中引入表头长度阈值和局部匹配机制较大的提高了识别率。本专利技术公开了,包括如下步骤Si、将票据特征分为多个识别特征层Lp每个特征层包含多个特征匹配阈值区间, 特征匹配阈值代表允许的待识别图像与识别模板的偏差量;S2、依次对每个特征层进行特征匹配;S3、特征匹配过程按照阈值区间从小到大的顺序执行,首先在较小的特征匹配阈值区间进行;S4、如果得到的匹配结果集(匹配结果集又称为候选模板集)非空,则进入下一个特征层进行特征匹配;如果候选模板集为空,则移向下一个较大的特征匹配阈值区间进行特征匹配;S5、如果在允许的最大特征匹配阈值区间候选模板集仍为空,则回溯到上一级的特征层的下一个特征匹配阈值区间进行特征匹配;S6、循环步骤S3-S5,直到得出识别模板或拒识。进一步,每个特征层Lj定义一个特征偏差量函数Fj (I,、),用于计算票据图像I与识别模板、之间的偏差,其中I为票据图像,、为识别模板;每个特征层Lj定义Pj个特征匹配阈值 < aj2 < + + + < ^XPj)唭中Pj > 1 ;这些特征匹配阈值形成Pj-I个阈值区间Ajk = [aJk,…(时)),其中k = 1,2,. . .,Pj-I ;满足阈值区间Ajk的候选模板集合记为Tjk= ItiIFj(Lti) £ΑΛ,、εΤ},其中T =It1, t2,...,tj为识别模板库。进一步,每个特征层h的特征匹配阈值按着从小到大的顺序设定,其中最大的特征匹配阈值代表识别模板与待识别图像之间可接受的最大偏差量; Ζ,为决策层每个特征层Lj定义函数"(、)=。,其中选择层利用票据图像的辅助特征进行识别,决策层利用票据图像的关键特征进行识别;特征层安排顺序为先选择层,再决策层。进一步,在特征匹配过程中,每个特征层需要记录获得非空候选模板集的阈值区间的位置,以方便下级的特征层回溯到该特征时,从记录位置的下一个阈值区间进行特征匹配;经过决策层特征匹配后,如果候选模板集中仅包含一个模板,则返回该模板作为识别结果;如果经过选择层特征匹配后,候选模板集中仅包含一个模板,则需要进入下级特征层进行进一步的匹配验证。进一步,在决策层利用票据图像的表头文字关键特征进行匹配的过程中,引入表头长度阈值λ,当表头长度小于λ时,进行完整匹配;当表头长度大于λ时,进行局部匹配。进一步,当识别模板的表头长度小于λ时,要求识别模板的表头文字是待识别图像文字识别结果的子串;当识别模板的表头长度大于λ时,允许识别模板部分表头文字是待识别图像文字识别结果的子串;识别模板、的某个表头TSCk与待识别图像的文字识别结果ITC1的匹配度 MTmeiJSCtk,ITC1)定义为:r IsSubStr (TSC[, ITC1) StrLen(TSC[ ) < λ StrLen(MaxSubStr(TSCk,ITC1)本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:刘冠强高昊江
申请(专利权)人:北京京北方信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术