一种有限符号集的局部择优匹配法制造技术

技术编号:2935757 阅读:223 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种有限符号集的局部择优匹配法,在符号数量有限的前提下对每个符号的左上、右上、左下和右下四块图象进行局部分析,分别找出直线子特征横、竖、撇、捺和拐角子特征左上勾、右上勾、左下勾、右下勾的数量、位置和长度,与标准符号的相应子特征进行比较。本发明专利技术的优点是针对性强、匹配信息量大,配合图形扫描仪或摄象机用于防伪税控发票符号,现金支票符号、汽车牌照符号的识别等,具有识别率高,识别时间短的特点。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种模式识别方法,具体说是一种在计算机中对扫描仪或摄像头获取的静态图像按像素块分割,并提取符号块的结构信息,与有限符号集的特征进行匹配的方法。对于文字识别,目前传统的方法是对大数量的字模作广度优先搜索。在这种方法中,先从初始字模开始,按规则G(x)逐步逼近下一个字模,顺序检查是否出现目标字模Sg,在全部范围中沿广度进行″横向″扫描,运用评价函数E(x)=d(x),得出与字模的相似度。这种方法在字模数量多的情况下具有实用性。但是,为了保证匹配速度,其匹配特征太简化,有效识别率不高。本专利技术的目的是提供一种应用于需要匹配的符号数量有限,但识别准确率要求较高、识别速度较快的方法,从而实现有限符号集的快速和准确识别的图象/文本转换。本专利技术所采取的技术措施是在符号数量有限的前提下对每个符号的左上、右上、左下和右下四块图象进行局部分析,分别找出直线子特征横、竖、撇、捺和拐角子特征左上勾、右上勾、左下勾、右下勾的数量、位置和长度,与标准符号的相应子特征进行比较,其中数量作为主特征,位置和长度作为辅特征,当单从主特征可以把其中一个符号辨析出来时,该符号只做主特征辨析;两个以上的符号主特征重合时,对这些符号加做位置和长度辅特征辨析;有限集合内两个符号相似即其大部分特征相同时,针对不同的特征加强辨析权重,用整体和局部最优的方法按权重取相似度的方法搜索出最近似符号。本专利技术所述的搜索的过程就是在样本集空间中找出到最相似目标状态的路径集合,从树根的一个初始状态开始,构造一棵为可能解的动作序列树,明显不匹配的分支被忽略,然后找出与根结点匹配的所有分支,建立新的状态结点,从而生成下一层树,取上层树生成的每一结点,再找出与其匹配的结点并又生成下一层树,继续此过程直至匹配目标状态的构型生成为止,最后取加权重后相似度最高的样本为最优解。本专利技术所述的采用整体和局部最优的方法使用函数来对单个符号块特征作出估计,以确定其与样本的近似程度,该函数把相似描述映射成成功度并用数值表示,采用生长点扩张法勾勒出图象的局部轮廓,把线条单值化,由象素粘连角度判断横、竖、撇、捺和四种方向拐角的矢量特征;由象素投影面积得到笔画的长度特征;由象素段的起点和终点得到相对位置特征。局部择优匹配法是广度优先匹配法的一种改进,同时也是一种层次递进的快速匹配方法。该方法在特征匹配策略中引入了层次结构,使匹配过程的相似函数E(x)反映下层次信息,当上层特征不足以判断时,选取最有希望逼近目标样本的方向,逐级沿纵向深度进行细节匹配,以便加快匹配过程,提高匹配效率。本专利技术的优点是针对性强、匹配信息量大,配合图形扫描仪或摄象机用于防伪税控发票符号,现金支票符号,汽车牌照符号的识别等,具有识别率高,识别时间短的特点。下面结合实施例对本专利技术作进一步的详述。首先,对待识别对象的全部集合进行分析。分别找出标准样版左上、右上、左下和右下四部分图象的直线子特征横、竖、撇、捺和拐角子特征左上勾、右上勾、左下勾、右下勾的数量、长度和相对位置,建立样本记录集。对于没有明显拐角的曲线,当成首尾相连的直线,由于在单字分辨率为24*16象素的样本中,取四个象素为直线特征的最小描述,所以曲线被近似为长度为四的折线段。在特定系统中,例如字符集合只有“6”和“9”,那么只要记录两个字模子特征的数量就可以完成辩识,但当字符集是“6”和“8”,它们的子特征在数量上相同,就需要增加长度或位置辨析,特征为完整的数量、长度和位置信息。同时建立单从数量不能辨析的符号数量矩阵E,其中包含候选符号序列E(x)。再建立符号子特征权重表,记录需要仔细辨析的各个符号的细节权重。在匹配时权重值表现了该细节相对于其他细节的重要性。本方法是辨析信息不定长的弹性匹配,这也是符合整体信息快速匹配,容易混淆的符号再用细节区分的效率原则。待识别对象的预处理,按实现顺序包括倾斜矫正、去干扰、定位、单符号切割和尺寸换算。倾斜矫正是根据图象中的明显水平线或垂直线如表格外框的倾斜角度为基准,把图象逆向旋转该基准角度实现的。先在图象中长水平或长垂直线的可能位置用相临点延伸的方法找到直线,用直线上两点坐标求出倾斜角度a,取图象左上角0点为初试旋转原点,然后每个象素k(i,j)在X,Y方向上分别平移O_k(i,j)*Sin(a)*tg(a)和-O_k(i,j)sin(a),其中O_k(i,j)为k(i,j)到O点的直线距离,为 ,得到矫正后的图象。干扰包括网格、离散点、粘连点和成片污迹。本方法先用检测相临点,并在有象素的方向上递归,找到长直线,并记录与该直线相交的所有线段的交点坐标。删去该直线除交点外的所有点,实现去除网格。在这个步骤中,记录了图象所有点的粘连象素数和该粘连群与其他粘连群的最小距离,判断粘连数不大并且距离过大的粘连群为孤立群,即离散点。附着在符号上粘连点,超出符号大小边界的,在符号分割时切除,粘连的小块象素,在对子特征的大小,方向判断时,对识别结果几乎没有影响。孤立的成片污迹,根据粘连数过大的特征实现剔除。覆盖在符号上的大片污迹,将对符号块定位和符号切割产生影响。对策是利用污迹边界非直线而符号块的边界特性尖锐的特征,对符号块的上、下、左和右同时寻找有效边界,只要有一个边界有效,就可以根据已知的符号块大小切割出整个符号块。如果四个边界都被污迹覆盖,意味着这个符号块已经被整块污损,已经失去识别价值。单符号切割的实现是根据已知符号块中符号的行数和列数并且符号块中符号大小一致,间隔相等的原理,根据符号块边界进行分割。为了适用于识别对象大小不一的场合,需要对待识别对象的尺寸进行标准换算。先得到符号与标准模板的比例,在进行子特征长度和相对位置匹配时,再进行相应补偿。最后,对每个分割出来的单符号进行线段单值化。这样可以减小图象对比度和识别对象油墨浓淡的影响。先对单符号的左上、右上、左下和右下四块图象区域逐点扫描,让象素在单方向生长,记录粘连象素的坐标,再分别于水平方向和竖直方向找出线条边界,生成单值化点的坐标((X1+X2)/2,(Y1+Y2)/2)。然后记录出直线子特征横、竖、撇、捺和拐角子特征左上勾、右上勾、左下勾、右下勾的数量、相对换算长度和起点终点的相对换算坐标并与标准符号的相应子特征进行比较。在实现时遵守先从数量信息进行辨别,当数量特征符合“不能从数量匹配矩阵”E时,再对该数量匹配符号的E(X)候补序列中的每一个符号进行长度和位置细节匹配。具体的实现是把识别对象和模板的每一个相应子特征的折合坐标两两相减,取距离最小的两个配成子特征对,再把每对子特征的折合长度两两相减,乘以权重,得到子特征的“不相似度”。取所有子特征“不相似度”之和为最小的符号为识别结果。并根据“不相似度”的大小得到该符号识别“确信”“可疑”和“失败”的信息。关于本方法在划分左上、右上、左下和右下四块图象时的边界问题处理。例如“1”,可能这个竖被划分为左上和左下,也可能被划到左下和右下。所以在建模时对于在划分十字线旁边的每一个特征的个数是两边都定为0.5个。再记录这些边界特征的个数n。在匹配时允许有n/2的个数偏差,但匹配成功的附加条件是偏差能在对应侧正负配平。还以“1”为例,其竖线特征的个数在左上、右上、左下和右下四个区域分别都是0.5。在匹配是如果本文档来自技高网...

【技术保护点】
一种有限符号集的局部择优匹配法,其特征在于:在符号数量有限的前提下对每个符号的左上、右上、左下和右下四块图象进行局部分析,分别找出直线子特征横、竖、撇、捺和拐角子特征左上勾、右上勾、左下勾、右下勾的数量、位置和长度,与标准符号的相应子特征进行比较,其中数量作为主特征,位置和长度作为辅特征,当单从主特征可以把其中一个符号辨析出来时,该符号只做主特征辨析;两个以上的符号主特征重合时,对这些符号加做位置和长度辅特征辨析;有限集合内两个符号相似即其大部分特征相同时,针对不同的特征加强辨析权重,采用整体和局部最优的方法按权重取相似度的方法搜索出最近似符号。

【技术特征摘要】

【专利技术属性】
技术研发人员:皮佑国吴效明
申请(专利权)人:广东省科学院自动化工程研制中心
类型:发明
国别省市:81[中国|广州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1