构建级联分类器的方法、识别对象的方法及装置制造方法及图纸

技术编号:4125550 阅读:353 留言:0更新日期:2012-04-11 18:40
公开了构建级联分类器的方法、识别对象的方法以及装置。该方法包括:基于第一级样本集来构建第一级节点分类器作为临时级联分类器,循环执行以下步骤:基于下级样本集来构建下级节点分类器,下级样本集是上级样本集中针对上级节点分类器的上级识别分数小于与上级节点分类器相对应的上级识别分数阈值与大于或等于0的识别分数阈值偏量之和的样本的集合;将下级节点分类器与临时级联分类器级联以构建新的临时级联分类器;比较增加该下级节点分类器前后的临时级联分类器的识别精度;如果增加下级节点分类器后识别精度不变或降低,则将删除下级节点分类器后的临时级联分类器确定为最终的级联分类器并终止循环,否则继续构建下一个下级节点分类器。

【技术实现步骤摘要】

本专利技术总体上涉及模式识别领域,更具体地涉及级联分类器。
技术介绍
随着计算机技术的发展,图像处理技术也取得了很大的进步。目前,人们已经能够 采用光学字符识别(OCR)技术将一个文档图像中的文字识别出来,避免了繁重的人工键盘 录入的劳动。众所周知,字符语言类型识别技术有助于提高OCR的性能。现有的大部分字符语 言类型识别技术的文本单位是整篇文档图像、文本行或词,这要求在文本单位内存在语言 同一性的假设,因此在使用上具有一定的局限性。然而,实际中存在多语言混排文档,其中包括两种或两种以上的语言文字,各语言 文字间混合排列,例如票据。如果采用上述字符语言类型识别技术对该混合文档进行识别, 则可能产生不理想的识别结果。为此,在 Yefeng Zheng、Changsong Liu 禾口 Xiaoqing Ding 所著的"Single character type identification,,(SPIE Document Recognition andRetrieval IX 论文 集,4670卷,第49-56页,2002年)一文中公开了一种采用Fisher分类器和支持向量机 (SVM)分类器来识别英文和中文字符的方法,其中,首先使用Fisher分类器计算Fisher分 类置信度,然后再使用SVM分类器进一步提高识别准确度。上述现有技术中的分类器运算复杂度高,构建代价较高,运算速度较慢。
技术实现思路
有必要提供一种构建方法较简单,分类速度较快的分类器来识别单字符语言类 型。本专利技术提出了构建一种级联分类器,该级联分类器可以用来识别单字符语言类 型。根据本专利技术的一方面,提供了一种构建级联分类器的方法,该级联分类器包括一 个或多个级,每一级包括一个节点分类器,该方法包括基于第一级样本集来构建第一级节 点分类器作为临时级联分类器,循环执行以下步骤基于下级样本集来构建下级节点分类 器,该下级样本集是上级样本集中针对上级节点分类器的上级识别分数小于与上级节点分 类器相对应的上级识别分数阈值与识别分数阈值偏量之和的样本的集合,识别分数阈值偏 量是大于或等于0的数,将构建的下级节点分类器与临时级联分类器级联以构建新的临时 级联分类器,比较增加该下级节点分类器前后的临时级联分类器的识别精度;以及如果增 加下级节点分类器后识别精度不变或降低,则将删除下级节点分类器后的临时级联分类器 确定为最终的级联分类器并终止循环,否则继续构建下一个下级节点分类器。根据本专利技术的另一方面,提供了一种利用前述方法构建的级联分类器来识别对象 的方法,包括对于级联分类器的从第一级节点分类器到最后一级节点分类器的每一级节点分类器,循环执行以下步骤获取对象的与节点分类器相对应的特征;将对象的与节点 分类器相对应的特征输入到节点分类器进行识别;如果对象在节点分类器的识别分数小于 与节点分类器所对应的识别分数阈值并且节点分类器不是最后一级节点分类器,则将对象 输入到下一级节点分类器,否则将节点分类器的识别结果确定为最终的识别结果。根据本专利技术的又一方面,提供了一种用于识别对象的装置,包括特征获取单元, 用于获取对象的特征;以及由上述构建级联分类器的方法所构建的级联分类器,与特征获 取单元相耦合。本专利技术的构建级联分类器的方法较简单,所构建的分类器分类速度较快,精度也 比较高。附图说明本专利技术可以通过参考下文中结合附图所给出的详细描述而得到更好的理解。所述 附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例 说明本专利技术的优选实施例和解释本专利技术的原理和优点。在附图中图1所示为根据本专利技术的第一实施例的构建级联分类器的方法流程图;图2所示为根据本专利技术的第四实施例的构建下级节点分类器的一个实施例的示 意图;图3所示为根据本专利技术一个实施例的识别对象的方法流程图;以及图4所示为根据本专利技术一个实施例的用于识别对象的装置。具体实施例方式下面参照附图来说明本专利技术的实施例。应当注意,为了清楚的目的,附图和说明中 省略了与本专利技术无关的、本领域普通技术人员已知的部件和处理的表示和描述。目前,GBK Level 1收录的中文字符集包括3755个字符。而英文字符集包括62个 字符,包括26个大写英文字、26个小写英文字和10个数字。大部分中文字符(例如表1 所示的)与英文字符有较大差别。然而,有些中文字符(例如表2所示的)在结构上与英 文字符相似。表1 _ 囹回囡@··表 2 这些结构相似的字符在特征空间上可能重叠,造成识别困难和识别精度的下降。在本专利技术的实施例中,提供一种构建级联分类器的方法。该级联分类器包括一个 或多个级,每一级包括一个节点分类器。下面以识别中、英文两类字符为例,对该方法进行 描述。图1所示为根据本专利技术的第一实施例的构建级联分类器的方法流程图。在步骤102中,基于一个训练样本集来构建第一级节点分类器作为临时级联分类器。该训练样本集被称为第一样本集。在本实施例中,可以将第一级节点分类器训练为最 近邻分类器,更具体地,可以是标准最近邻分类器或k近邻分类器。最近邻分类器是本领域 技术人员公知的,这里不再详细描述。在步骤104中,构建下级节点分类器。这里下级节点分类器是针对上级节点分类 器而言的。例如第二级节点分类器是第一级节点分类器的下级节点分类器,而第一级节点 分类器是第二级节点分类器的上级节点分类器,首先,选择上级节点分类器中所使用的样本集的一个子集作为该下级节点分类器 的训练集(称为下级样本集)。可以通过以下方式来得到下级样本集。例如,在上级节点 分类器为最近邻分类器的情况下,该最近邻分类器可以获得中、英文两字符类的类中心。以 dl和d2分别表示样本到中、英两字符类中心的距离。一般地,如果dl > d2,则将字符识别 为英文,如果dl < d2,则将字符识别为中文。然而,如果一个样本的dl和d2很接近,识别 结果可能有错误。于是可以将这样的样本的集合作为下级节点分类器的训练样本集。具体 地,可以定义识别分数(或者,具体地这里可以称为置信度)Conf为Conf = 100 * |dl_d2|/(dl+d2)。按照上述定义的Conf的范围是0 100,如果针对上级节点分类器的样本识别分 数Conf小于对应于上级节点分类器的识别分数阈值,则确定该样本为下级节点分类器的 训练样本。在本实施例中,识别分数阈值可以是预先设定的值,例如可以是25。对于每级节 点分类器,识别分数阈值可以相同,也可以不同。在得到下级样本集后,基于该下级样本集来进行分类器训练,以构建下级节点分 类器。下级节点分类器也可以训练为标准最近邻分类器或k近邻分类器。在步骤106中,将构建的下级节点分类器与临时级联分类器级联以构建新的临时 级联分类器。在步骤108中,比较步骤104中训练得到的下级节点分类器增加前后的临时级联 分类器的识别精度。可以通过利用一个测试样本集对临时级联分类器进行测试来确定临时 级联分类器的识别精度。例如,首先将测试样本输入临时级联分类器的第一级节点分类器 进行识别。如果识别分数大于第一级节点分类器的识别分数阈值,则输出识别结果并结束 识别过程。如果识别分数小于第一级节点分类器的识别分数阈值,则将测试样本传递到下 级节点分类器进行识别。本文档来自技高网...

【技术保护点】
一种构建级联分类器的方法,所述级联分类器包括一个或多个级,每一级包括一个节点分类器,所述方法包括:基于第一级样本集来构建第一级节点分类器作为临时级联分类器,循环执行以下步骤:基于下级样本集来构建下级节点分类器,所述下级样本集是上级样本集中针对上级节点分类器的上级识别分数小于与上级节点分类器相对应的上级识别分数阈值与识别分数阈值偏量之和的样本的集合,所述识别分数阈值偏量是大于或等于0的数,将构建的下级节点分类器与所述临时级联分类器级联以构建新的临时级联分类器,比较增加该下级节点分类器前后的临时级联分类器的识别精度;以及如果增加所述下级节点分类器后识别精度不变或降低,则将删除所述下级节点分类器后的所述临时级联分类器确定为最终的级联分类器并终止循环,否则继续构建下一个下级节点分类器。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱远平孙俊皆川明洋堀田悦伸直井聪于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1