处理包含字符的图像的方法和设备技术

技术编号：7270361 阅读：175 留言：0更新日期：2012-04-15 15:59

提供了处理包含字符的图像的方法和设备。该方法包括：在字符集中搜索与该字符集中的某个字符(称为第一字符)在形状上相似度最高的一个或更多个字符，形成该第一字符的相似字符列表；在所述字符集中搜索与所述第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符，作为所述第一字符的相似字符列表中的每个字符的相似字符列表；及在这些相似字符列表中选择彼此之间在形状上相似度高的一个或更多个字符，作为一个字符簇。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及字符图像处理，具体而言，涉及一种处理包含字符的图像的方法和设备。
技术介绍
在字符集中，会存在很多在外形上相似的字符。例如，在日文汉字字符集和韩文字符集中分别有如下相似字符始始拾蛤袷給(1)诠社旮旮^ ⑵上述两个字符组(1)和(2)可以分别作为其相应字符集中的字符类。如果首先对字符集进行粗分类，那么在识别某个待识别的字符时，可以首先初步判断该字符属于哪个类，再进一步将该字符与类中的每个字符进行比较。这样，可以大大减少字符识别所需时间，提高字符识别的效率。上述的粗分类过程是非常重要的。在字符识别时，如果利用这种错误的粗分类结果，会导致字符识别的错误。已知存在多种聚类方法可以用于上述粗分类。其中K均值法是一种常用的聚类方法。关于K均值法，可以参见下列文献中的描述“Data clustering :50years beyond K-means，，(作者Α· K. Jain ；干丨J于 Proceedings of the 19th International Conference on Pattern Recognition (ICPR)，2008年)。在这种聚类方法中，首先为K个类中的每个类确定一个初始中心，并按照最小距离原则将每个样本分配到K个类中的一个；然后使用每个类中所有样本的均值作为新的中心，重复以上步骤，从而将将给定的样本集分成K类。
技术实现思路
下文中给出关于本公开一些方面的简要概述，以便提供关于本公开的基本理解。应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分，也不是意图限定本公开的范围。其目的仅...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：孙俊，于浩，直井聪，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人