利用判定树减少手写体识别器差错制造技术

技术编号：2935910 阅读：258 留言：0更新日期：2012-04-11 18:40

一种用于识别输入到计算机系统中的手迹的方法与机构。提供了一级识别器（４４）用于将手迹转换成编码点，开发与训练诸如二叉ＣＡＲＴ树等二级识别器（５２）来区分在一级识别器上生成某些编码点的手迹。各二级识别器与各选择的编码点关联。在接收到手迹时，将该手迹提供给一级识别器（４４），一个对应的编码点。如果该编码点对应于二级识别器之一，便将该手迹传递给该二级识别器，并从该二级识别器返回一个编码点。如果为否，便返回一级识别器所提供的编码点。本发明专利技术设置一个自动化进程用于训练ＣＡＲＴ树及通过丢弃并不改进一级识别器的识别精度的ＣＡＲＴ树（７０）来优化识别机构。（*该技术在2018年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术一般涉及输入用户信息到计算机系统中，更具体地涉及识别用户输入的手写字符。手写体识别技术中的最大问题之一为减小差错率。一种频发的差错类型来自当用户电子地输入紧密地与在计算机试图将手迹(即一组编码点)与之匹配的集合中的两个或更多可能字符的手写字符(称作手迹)匹配时。导致最多差错的字符通常是除了人能辨别但现代识别器不能辨别的单个差别之外互相相同的字符。例如，某些日文符号除了单个的细微差别之外基本上互相相同。问题出现在大多数手写体识别系统采用基于神经网络、隐式马尔科夫(Markov)模型(HMM)或K个最近邻点(KNN)方法的识别器。这些系统在根据它们的总体外观区别字符的任务上完成得合理地好，但当两个字符除了单个差别以外相同时，它们经常失败。虽然已试图手工编码识别器来辨别特别麻烦的识别对，但存在着许多容易互相混淆的字符组。这使得编码过程非常费力及烦琐。此外，编码的结果取决于一或多人关于为了区别字符要测试什么的最佳猜测。这不一定是最好的，因为对于用什么来区分两个(或更多)接近的字符最好存在着许多可能性。其实，最好的这种系统并不实质性降低差错率。最后，每一次改变识别器时，该识别器混淆的字符集也改变，要求重复大部分费力的编码过程。已试图将基于判定树，尤其是分类与回归树(Classificationand Regression Trees-CART)，的另一类识别系统用于手写体识别。这些类型的系统已遭到拒绝，因为它们不能从大量字符中作出可靠的判定。作为示例，对于采用日文字符集的系统，支持6650个不同的字符。如能理解的，研制出能接收6550个字符中任何一个...

【技术保护点】
一种识别输入到计算机系统中的手迹的方法，包括下述步骤：提供用于将手迹转换成编码点的一级识别器；训练多个二级识别器来辨别在提供给一级识别器时生成选择的编码点的手迹，并将一个二级识别器与各选择的编码点关联；接收手迹；将该手迹提供给一级识别器并接收与之对应的编码点；判定该编码点是否对应于具有与之关联的二级识别器的选择的编码点，如果是，将该手迹传递给该二级识别器并从该二级识别器返回一个编码点。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：GN胡尔伦德尔，JR本内特，PM哈鲁普特佐克，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人