字符识别设备和字符识别方法技术

技术编号:9895087 阅读:72 留言:0更新日期:2014-04-09 21:16
公开了字符识别设备和字符识别方法。一种字符识别设备,包括估计值输出单元、生成单元、学习单元以及确定单元。估计值输出单元针对每个互不相同的字符识别程序输出多个估计值。每个估计值均指示字符图案与每个字符码的对应程度。生成单元生成关于字符图案的特征信息。特征信息包括由估计值输出单元输出的估计值作为元素。基于字符图案的特征信息,学习单元学习以逐个字符码为基础对特征信息的多种分类。确定单元基于如下条件来确定未知字符图案的字符码,所述条件是在所学习的以逐个字符码为基础对特征信息的多种分类当中的哪一种分类包括了由生成单元生成的关于该未知字符图案的特征信息。未知字符图案是字符码未知的字符图案。

【技术实现步骤摘要】
【专利摘要】公开了。一种字符识别设备,包括估计值输出单元、生成单元、学习单元以及确定单元。估计值输出单元针对每个互不相同的字符识别程序输出多个估计值。每个估计值均指示字符图案与每个字符码的对应程度。生成单元生成关于字符图案的特征信息。特征信息包括由估计值输出单元输出的估计值作为元素。基于字符图案的特征信息,学习单元学习以逐个字符码为基础对特征信息的多种分类。确定单元基于如下条件来确定未知字符图案的字符码,所述条件是在所学习的以逐个字符码为基础对特征信息的多种分类当中的哪一种分类包括了由生成单元生成的关于该未知字符图案的特征信息。未知字符图案是字符码未知的字符图案。【专利说明】
本专利技术涉及。
技术介绍
一些字符识别程序用于识别由人绘制的手写字符的字符码。在日本未审查专利申请公开第8-96082号中,描述了目的在于通过相互比较从多个字符识别程序获得的各输出结果来改进字符识别的准确度的专利技术。对于一些字符,字符识别程序可能以高准确度输出结果,而对于另一些字符,该字符识别程序可能以低准确度输出结果。当仅以简单方式比较来自字符识别程序的各输出结果时,很难考虑这样的情况。
技术实现思路
本专利技术的目的在于提供一种,其通过使用将不同的字符识别方法相互结合的统计的机器学习来以高准确度获得字符识别结果。根据本专利技术的第一方面,提供一种字符识别设备,其包括估计值输出单元、生成单元、学习单元、以及确定单元。估计值输出单元针对每个互不相同的字符识别程序输出多个估计值。每个估计值都指示已被输入的字符图案与将使用字符识别程序识别的每个字符码的对应程度。生成单元生成关于已被输入的字符图案的特征信息。特征信息包括通过估计值输出单元输出的估计值作为元素。基于由生成单元生成的关于预先指定了字符码的字符图案的特征信息,学习单元学习以逐个字符码为基础对特征信息的多种分类。确定单元基于如下条件来确定未知字符图案的字符码,其中所述条件是在所学习的以逐个字符码为基础对特征信息的多种分类当中的哪一种分类包括了由生成单元生成的关于该未知字符图案的特征信息。未知字符图案是字符码未知的字符图案。根据本专利技术的第二方面,在根据第一方面的字符识别设备中,字符识别程序包括第一字符识别程序和第二字符识别程序。将由第一字符识别程序识别的至少一些字符码与将由第二字符识别程序识别的至少一些字符码匹配。根据本专利技术的第三方面,根据第一或第二方面的字符识别设备还包括指定单元和添加单元。对于预先指定了字符码的每个字符图案,指定单元将针对字符图案由确定单元确定的字符码与针对字符图案指定的字符码进行比较,并且基于通过比较获得的结果来指定准确率等于或小于阈值的字符码。添加单元将用于对指定单元所指定的字符码进行识别的字符识别程序添加到估计值输出单元。根据本专利技术的第四方面,提供一种字符识别方法,包括以下步骤:针对每个互不相同的字符识别程序输出估计值,每个估计值均指示已被输入的字符图案与将使用字符识别程序来识别的每个字符码的对应程度;生成关于已被输入的字符图案的特征信息,特征信息包括估计值作为元素;基于所生成的关于预先指定了字符码的字符图案的特征信息,学习以逐个字符码为基础对特征信息的多种分类;以及基于如下条件来确定未知字符图案的字符码,其中所述条件是在所学习的以逐个字符码为基础对特征信息的多种分类当中的哪一种分类包括了所生成的关于该未知字符图案的特征信息,未知字符图案是字符码未知的字符图案。根据第一和第四方面,与不使用本专利技术的配置的情况相比,通过使用相互结合不同的字符识别方法的统计的机器学习,获得了具有高准确度的字符识别结果。根据本专利技术的第二方面,与不使用通过不同字符识别方法所获得的针对相同字符码的多个结果来执行估计的情况相比,获得了具有高准确度的字符识别结果。根据本专利技术的第三方面,通过添加被配置成用于对其他字符识别方法输出了具有低准确度的结果的字符码进行识别的字符识别方法,获得了具有高准确度的字符识别结果O【专利附图】【附图说明】将基于附图详细地描述本专利技术的示例性实施例,其中:图1是根据示例性实施例的字符识别设备的功能框图;图2是用于描述生成特征矢量的处理的示图;图3是学习处理的流程图;图4是字符识别处理的流程图;以及图5是设置字符识别引擎的处理的流程图。【具体实施方式】以下将参考附图描述用于实现本专利技术的示例性实施例(此后称为示例性实施例)。功能块图1示出根据示例性实施例的字符识别设备I的功能框图。如图1中所示,字符识别设备I包括培训数据获取单元11、字符图案输入单元12、字符识别引擎管理单元13、特征矢量生成单元14、鉴别器培训单元15、鉴别器数据保持单元16、未知图案获取单元17、字符辨识单元18、以及辨识结果输出单元19。包括在字符识别设备I中的上述单元的功能可以以计算机读取并随后执行存储在计算机可读信息存储介质中的程序的方式实现,所述计算机包括诸如中央处理单元(CPU)之类的控制单元、诸如存储器之类的存储单元、以及从外部装置接收数据/将数据发送到外部装置的输入/输出单元。可以经由诸如光盘、磁盘、磁带、磁光盘、或闪存之类的信息存储介质来将程序提供给作为计算机的字符识别设备I。可替换地,可以经由诸如互联网之类的数据通信网络来提供程序。培训数据获取单元11获取用于对识别字符的鉴别器(辨识模型)进行培训的培训数据。例如,当培训数据是离线字符图案时,培训数据可以包括关于字符图案的信息和由该字符图案指示的字符码。当培训数据是在线字符图案时,培训数据可以包括关于字符图案的信息、该字符图案的笔划顺序数据(笔划数据)、以及由该字符图案指示的字符码。字符图案输入单元12将通过以下描述的培训数据获取单元11和未知图案获取单元17所获取的字符图案输入到字符识别引擎管理单元13中。对于离线字符图案,字符图案输入单元12将字符图案(字符图像)输入到字符识别引擎管理单元13中,而对于在线字符图案,字符图案输入单元12将字符图案(字符图像)及其笔划顺序数据输入到字符识别引擎管理单元13中。字符识别引擎管理单元13包括多个字符识别引擎,即,字符识别程序,并且对将信息输入到字符识别引擎和将信息从字符识别引擎输出进行管理。字符识别引擎管理单元13包括互不相同的字符识别引擎E1至En (其中,N是等于或大于2的整数)。字符识别引擎E1至En可以是用于离线字符识别的引擎,或者可以是用于在线字符识别的引擎。字符识别引擎Ei (其中,i是从I到N中的任何整数)被配置成识别数量为Mi的字符码,而且生成并随后输出Mi维估计矢量Wi,该矢量的元素是与相应Mi个字符码相对应的关于已从字符图案输入单元12输入的字符图案的估计值(诸如,可能性、相似性、或距离)。将由字符识别引擎Ei识别的字符码可能不同于将由其它字符识别弓I擎识别的字符码。可替换地,将由字符识别引擎Ei识别的至少一些字符码可能与将由其它字符识别弓I擎识别的至少一些字符码匹配。特征矢量生成单元14根据各估计矢量来生成针对已由字符图案输入单元12输入到字符识别引擎管理单元13的字符图案的特征矢量,其中各估计矢量中的每个估计矢量是按照字符图案从包括在字符识别引擎管理单元13中的字符识别引擎E1至En中的相应一个输出的。图2是用于描述生成特征矢量的处理的示图。如本文档来自技高网...

【技术保护点】
一种字符识别设备,包括:估计值输出单元,其针对互不相同的多个字符识别程序的每一个输出多个估计值,所述多个估计值中的每一个均指示已被输入的字符图案与将使用所述字符识别程序来识别的多个字符码中的每一个的对应程度;生成单元,其生成关于已被输入的所述字符图案的特征信息,所述特征信息包括由所述估计值输出单元输出的所述多个估计值作为元素;学习单元,其基于由所述生成单元生成的关于预先指定了字符码的字符图案的特征信息来学习以逐个字符码为基础对特征信息的多种分类;以及确定单元,其基于如下条件来确定未知字符图案的字符码,其中所述条件是在所学习的以逐个字符码为基础对特征信息的多种分类当中的哪一种分类包括了由所述生成单元生成的关于所述未知字符图案的特征信息,所述未知字符图案是字符码未知的字符图案。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:织田英人
申请(专利权)人:富士施乐株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1