处理包含字符的图像的方法和设备技术

技术编号:7270361 阅读:175 留言:0更新日期:2012-04-15 15:59
提供了处理包含字符的图像的方法和设备。该方法包括:在字符集中搜索与该字符集中的某个字符(称为第一字符)在形状上相似度最高的一个或更多个字符,形成该第一字符的相似字符列表;在所述字符集中搜索与所述第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符,作为所述第一字符的相似字符列表中的每个字符的相似字符列表;及在这些相似字符列表中选择彼此之间在形状上相似度高的一个或更多个字符,作为一个字符簇。

【技术实现步骤摘要】

本公开涉及字符图像处理,具体而言,涉及一种处理包含字符的图像的方法和设备
技术介绍
在字符集中,会存在很多在外形上相似的字符。例如,在日文汉字字符集和韩文字符集中分别有如下相似字符始始拾蛤袷給(1)诠社旮旮^ ⑵上述两个字符组(1)和(2)可以分别作为其相应字符集中的字符类。如果首先对字符集进行粗分类,那么在识别某个待识别的字符时,可以首先初步判断该字符属于哪个类,再进一步将该字符与类中的每个字符进行比较。这样,可以大大减少字符识别所需时间,提高字符识别的效率。上述的粗分类过程是非常重要的。在字符识别时,如果利用这种错误的粗分类结果,会导致字符识别的错误。已知存在多种聚类方法可以用于上述粗分类。其中K均值法是一种常用的聚类方法。关于K均值法,可以参见下列文献中的描述“Data clustering :50years beyond K-means,,(作者Α· K. Jain ;干丨J于 Proceedings of the 19th International Conference on Pattern Recognition (ICPR),2008年)。在这种聚类方法中,首先为K个类中的每个类确定一个初始中心,并按照最小距离原则将每个样本分配到K个类中的一个;然后使用每个类中所有样本的均值作为新的中心,重复以上步骤,从而将将给定的样本集分成K类。
技术实现思路
下文中给出关于本公开一些方面的简要概述,以便提供关于本公开的基本理解。 应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本公开的一些实施例提供了一种处理包含字符的图像的方法和设备。利用所述方法和设备,能够将字符集分成多个紧凑的字符簇。根据本公开的实施方式,可以在字符集中搜索与该字符集中的某个字符(为了叙述方便,下文中将该字符称为第一字符)的图像样本在形状上相似度最高的一个或更多个字符,形成该第一字符的相似字符列表;然后,在所述字符集中搜索与第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符,作为第一字符的相似字符列表中的每个字符的相似字符列表;然后,可以在这些相似字符列表中选择彼此之间在形状上相似度高的一个或更多个字符,作为一个字符簇。附图说明参照下面结合附图对本公开实施例的说明,会更加容易地理解本公开的以上和其它目的、特点和优点。附图中的部件不是成比例绘制的,而只是为了示出本公开的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图1是示出了根据本公开的一个实施例的用于处理包含字符的图像的方法的示意性流程图;图2是示出了在字符集中搜索某个字符的相似字符列表的方法的一个具体实施例的示意性流程图;图3是示出了在字符集中搜索某个字符的相似字符列表的方法的另一具体实施例的示意性流程图;图4是示出了在字符集中搜索字符的图像样本的候选字符集的方法的一个具体实施例的示意性流程图;图5是示出了在字符集中搜索字符的图像样本的候选字符集的方法的另一具体实施例的示意性流程图;图6是示出了根据一个示例而建立的字符簇的示意图;图7是示出了根据本公开的一个实施例的用于处理包含字符的图像的设备的示意性结构框图;以及图8是示出用于实现根据本公开的实施例/示例的方法的计算机的结构的示例性框图。具体实施例方式下面参照附图来说明本公开的实施例。在本公开的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本公开无关的、本领域普通技术人员已知的部件和处理的表示和描述。本公开的专利技术人注意到,一些聚类方法(如K均值聚类方法)需要预先定义簇的数目(K的值),但却没有提供用于选择该数目K的准则。另外,一些聚类方法(如K均值法) 中所采用的距离度量往往与后续的字符识别处理所采用的相似度度量没有关联。例如,在这些聚类方法中仅利用两个元素之间的距离来找到每个元素的最近邻。而在进行字符识别或分类(如MQDF(修改的二次判别函数,Modified Quadratic Discriminant Function)和 SVM(支持矢量机,Support Vector Machine))时计算距离往往会考虑多个类的影响。因此, 利用这些聚类方法进行粗分类得到的字符类中的各个字符,在后续的字符识别或分类中往往不是彼此相似的。本公开的一些实施例提供了处理包含字符的图像的方法和设备,能够弥补上述不足中的一个或更多个。图1示出了根据本公开的一个实施例的用于处理包含字符的图像的方法的流程图。利用该实施例的方法,能够将字符集中的字符分成多个紧凑的字符簇。如图1所示,该方法可以包括步骤103、107和111。具体地,在步骤103中,对于字符集中的某个字符(称为第一字符),在字符集中搜索与第一字符在形状上相似度最高的一个或更多个字符。搜索到的这些字符形成第一字符的相似字符列表。在本公开中,某个字符或其图像样本与另一字符的“相似度”是指这两个字符之间在外观上的相似程度,例如,上文所提及的字符组(1)或( 中的各字符彼此在形状上是相似的。相似度可以采用任何适当的度量来表示。例如,可以计算两个字符之间的距离(如欧式距离、马式距离(Mahalanobis Distance)等),并利用该距离值来表示二者之间相似度,距离的值越小,则相似度越高,距离的值越大,则相似度越低。这里不一一列举。可以采用任何适当的方法搜索与第一字符在形状上相似度高的字符。例如,可以利用第一字符的某个图像样本,在字符集中搜索与该图像样本在形状上相似度高的字符, 作为与该第一字符的相似字符,形成该第一字符的相似字符列表。又如,还可以利用第一字符的多个图像样本来搜索该第一字符的相似字符,作为具体实施例,可以采用下文中参考图2或图3描述的方法。可以采用任何适当的方法来搜索与某个图像样本在形状上相似度高的字符,作为具体示例,可以采用下文中将参考图4或图5所描述的方法。作为一个示例,可以不预先限定相似字符列表中的字符个数。例如,可以设置某个相似度阈值,与第一字符的相似度大于该阈值的字符均可以作为其相似字符列表中的元素。作为另一示例,可以根据实际应用场景来预先设定相似字符列表中的字符个数(如用 N表示,N ^ 1),然后根据各字符与第一字符的相似度选择其中相似度最大的N个。在形成第一字符的相似字符列表之后,则在步骤107中对该列表中的每个字符作同样的处理,即在字符集中搜索与第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符,作为第一字符的相似字符列表中的每个字符的相似字符列表。由于第一字符的相似字符列表包括一个或更多个字符,因此,可以得到分别与这些字符对应的一个或更多个相似字符列表。最后,在步骤111中对出现在这些相似字符列表中的字符进行进一步的筛选,即, 进一步在这些相似字符列表中选择彼此之间在形状上相似度高的一个或更多个字符,所选择的这些字符即可以作为该字符集的一个字符簇。可以采用任何适当的方法对这些相似字符列表中的字符进行进一步的筛选,只要保证所形成的本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:孙俊于浩直井聪
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术