当前位置: 首页 > 专利查询>微软公司专利>正文

用于手写字符识别的基于书写变体的书写者自适应制造技术

技术编号:2821556 阅读:254 留言:0更新日期:2012-04-11 18:40
所要求保护的主题提供了帮助分析和/或识别手写字符的系统和/或方法。一接口组件接收至少一个手写字符。一个性化组件可基于与手写风格相关的书写变体来训练分类器以提供对该至少一个手写字符的手写识别。另外,该个性化组件可采用任何适当的组合器来提供经优化的识别。

【技术实现步骤摘要】
【国外来华专利技术】用于手写字符识别的基于书写变体的书写者自适应扭旦 冃足计算机硬件、软件和联网的技术进步已经产生了能够从基本上世界上任何地方彼此通信的高效的、成本有效的计算系统(例如,台式计算机、膝上型计 算机、手持式计算机、蜂窝电话、服务器……)。这些系统持续进展成更可靠 的、稳健的且用户友好的系统。结果,越来越多的企业和消费者正在购买计算 机并将其用作对传统的纸件和口头媒体的可行电子替换来交换信息。许多企业 和消费者正在充分利用计算技术以提高效率并降低成本。例如,消费者可扫描 并储存文档、创建带有文本覆盖的数字图像相册、搜索并检索特定信息(例如, 具有各种类型的数据的网页)、上传来自数码相机的图片、查看财务报表、发 送和/或接收数字传真、交换通讯(例如,电子邮件、聊天室、IP语音……) 等等。结果,这些计算系统和/或设备结合了各种用于输入信息的技术和/或方法。 计算系统和/或设备利用诸如但不限于键盘、键区、触摸垫、触屏、扬声器、指 示笔(例如,扫描笔)、书写垫……来便于输入信息。然而,利用用户手写的 输入设备会带来每一用户不能相似地利用数据输入技术(例如,书写)的用户 个性化缺陷。用户的手写可以像用户那样独特,其中这一独特性可用于识别目的。在各 种计算系统和/或设备中实现的商业手写识别系统试图通过利用包括来自多个 完全不同的用户的数据在内的大型训练数据集来减少书写者变化的影响。即使在有来自多达1500个用户的手写样本可用的情况下,在手写中也有足够的变 化来唯一地识别每一用户。从机器学习的观点来看,这种变化使得手写识别对于计算机而言是困难 的。尽管用户内字符(例如,来自同一用户)具有较小的变化,但是用户间字 符(例如,来自不同用户)具有很大的变化,并且造成了识别错误。结果,从 得自一组用户(即使有数百个用户)的训练数据中学习并不必然会产生很好地推广到未看到过的手写风格的模型。使用通用(例如,书写者无关)识别器的 计算机识别体验对于具有罕见的书写风格的用户而言尤其拙劣。对于该不良性能的一种解释是经训练的通用识别器是不完善的,因为它未学习去识别未看到 过的用户的书写风格。改善识别器对于未看见过的书写风格的性能的一种实用方法是书写者自 适应(或个性化)。个性化使得识别器能够通过收集来自用户的附加数据样本 并从中进行学习来自适应到特定用户的手写。很清楚,这是对用户所需的训练 样本的数量、所实现的差错率的降低、以及对用户而言察觉到的不便之间的折 衷。训练数据的量越大,个性化识别器也就越好,但是对基于样本输入和/或利 用这些样本的训练的用户也就越不便。概述以下提出了本专利技术的简化概述以便提供对此处所描述的某些方面的基本 理解。本概述并不是所要求保护的主题的广泛综述。它并不旨在确定所要求保 护的主题的关键或重要要素,也不旨在勾画本专利技术的范围。其唯一的目的是以 简化的形式提出所要求保护的本专利技术的某些概念,作为以后提出的更详细描述 的序言。本专利技术涉及利用书写变体(例如,字符形状和/或风格)训练的分类器来 帮助识别与手写相关联的字符的系统和/或方法。一个性化组件可经由一接口来 接收与手写字符相关的数据,其中该个性化组件可通过采用用书写变体数据训 练的分类器来提供对手写字符的优化的识别。该书写变体数据可以是,例如, 与一手写风格相关的自动生成和/或手动生成的数据。该个性化组件可提供书写 者自适应,其中书写者自适应可以是将通用(例如,书写者无关)手写识别器 转换成具有对任何特定用户的改进的准确度的个性化(例如,书写者相关)识 别器的过程。此外,该个性化组件通过采用用书写变体数据训练的第一分类器以及用非 书写变体数据训练的第二训练器来提供优化的手写识别,其中该第一分类器和 该第二分类器的输出可被组合。输出组合可以由例如线性组合器、组合分类器、支持矢量机、线性分类器、 一系列规则等来实现。输出组合提供了对手写的增强的识别和/或分析。此外,输出组合的采用可通过利用用户手写样本来优化。 根据所要求保护的主题的一方面,该个性化组件还可利用生成书写变体数 据的书写变体组件来训练至少一个分类器以提供经优化的手写识别。该书写变 体组件可以自动、手动或以其任意组合来生成书写变体数据。例如,可以实现 群集来自动从手写字符中标识书写变体(例如,字符形状和/或风格)和/或书 写变体数据。在另一示例中,书写变体数据可利用手写专家来手动提供,以提 供与手写相关联的类型和/或风格。此外,该书写变体组件可以使用例如使用动态时间扭曲(DRW)作为距离度量的分层附聚群集方法来标识字符书写风格(例如,书写变体和/或书写变体数据)。根据所要求保护的主题的另一方面,该个性化组件还可利用一分类器组件 来利用根据本专利技术的至少一个分类器。该分类器组件可以利用可用书写变体数 据训练的第一分类器。例如,该第一分类器可以是神经网络。该分类器组件还 可利用可用非书写变体数据训练的第二分类器。通过同时采用第一和第二分类 器两者,可利用一组合组件来将完全不同的输出相组合。该组合组件可利用诸 如线性组合器、组合分类器、线性分类器、支持矢量机等各种组合技术。在所 要求保护的主题的其它方面,提供了帮助分析与一特定用户相关联的手写字符 的方法。以下描述和附图详细阐明了所要求保护的主题的某些说明性方面。然而, 这些方面仅指示了可采用本专利技术的原理的各种方式中的几种,并且所要求保护 的主题旨在包括所有这些方面及其等效方面。当结合附图考虑时,从以下本发 明的详细描述中,所要求保护的主题的其它优点和新颖特征将变得显而易见。附图简述附图说明图1示出了利用经书写变体训练的分类器来帮助识别与手写相关联的字 符的示例性系统的框图。图2示出了帮助利用书写变体数据来采用手写字符识别的示例性系统的 框图。图3示出了帮助可视化与对一字符的群集相关联的结果的二叉树的框图。 图4示出了可根据所要求保护的主题来利用的与各种手写风格相关联的表的框图。图5示出了帮助利用书写变体分类器和基础分类器的示例性系统的框图。图6示出了根据本专利技术的帮助采用个性化器支持矢量机的示例性系统的框图。图7示出了帮助采用线性组合器来实现未个性化识别器的示例性系统的 框图。图8示出了帮助采用个性化器支持矢量机来识别手写字符的示例性系统 的框图。图9示出了根据本专利技术的图表结果。图10示出了帮助利用经书写变体训练的分类器来识别与手写相关联的字 符的示例性系统的框图。图11示出了用于用书写变体数据来训练至少一个分类器以提供手写识别 的示例性方法。图12示出了帮助提供经优化的手写识别的示例性方法。图13示出了其中可采用所要求保护的主题的新颖方面的一示例性联网环境°图14示出了可根据所要求保护的主题来采用的示例性操作环境。 详细描述参考附图来描述所要求保护的主题,在全部附图中,相同的参考标号用于 表示相同的元素。在以下描述中,出于解释的目的,陈述了众多具体细节以提 供对本专利技术的全面理解。然而,很明显,所要求保护的主题可以在没有这些具 体细节的情况下实施。在其它情况中,以框图形式示出了公知的结构和设备以 便于描述本专利技术。如此处所使用的,术语"组件"、"系统"、"接口"等指的是计算机相 关的实体,其或者是硬件、软件(例如,在执行中)和/或固件。例如,组件可 以是运行本文档来自技高网...

【技术保护点】
一种帮助分析手写的系统,包括: 接收至少一个手写字符的接口组件;以及 基于与手写风格相关的书写变体数据来训练一分类器以提供对所述至少一个手写字符的手写识别的个性化组件。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:AA阿布杜勒卡德KH切拉皮拉PY西玛德
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1