键盘上速记接口中改进的文本输入制造技术

技术编号:2823749 阅读:263 留言:0更新日期:2012-04-11 18:40
一种单词图案识别系统改进了经键盘上速记接口输入的文本输入。核心词典包括一种语言中的常用单词;扩充词典包括没有包括在核心词典中的单词。系统仅直接输出来自核心词典的单词。来自扩充词典的候选单词可在用户选择后被输出并同时被录入核心词典中。拼接模块使得用户能够分开地输入长单词的各部分。复合词模块组合两个普通的短单词,这两个短单词的组合形式一个长单词。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及基于词典的文本输入和文本预测系统。更特别地,本专利技术涉及使用键盘上速记(shorthand-on-keyboard)的文本输入,通过在屏上图形键盘上绘制几何图案而输入单词的有效方法。
技术介绍
图形键盘上的速记(以下称为“键盘上速记”)或作为图形的键盘上速记(sokgraph:Shorthand on a Keyboard as Graph)表示在没有物理键盘的情况下高效地输入文本的输入方法和系统,其通常使用指示笔(stylus)。键盘上速记使得用户能够在图形键盘上描绘字母或功能键而将单词和命令输入计算机中。富有经验的用户部分地或完全地记住键盘布局上经常使用的单词和命令的几何图案,并可例如使用数字笔,基于记忆回想绘制这些图案。基于单词级识别的文本输入系统-诸如键盘上速记和手写/语音识别-以及文本预测系统都依靠于用于定义这些系统识别的单词集合的某些形式的词典。将用户的输入与词典中的选项相匹配。没有被包括在词典中的单词通常不被自动识别。在这样的情形中,必须提供特殊模式。例如,在键盘上速记中,用户可以最初检查候选项列表(N最佳列表:N-best list)。如果候选项列表中没有选项是想要的单词,则用户判断所绘制的图案是否不正确。如果所绘制的图案是正确的,则用户认识到想要的单词不在词典中。然后,用户通过敲击各个字母而向词典中输入新单词。理想地,词典包括特定用户需要写的所有单词,不多也不少。词典太大或太小都可能对用户产生麻烦。较大的词典可能产生某些挑战,因为这会由于对于每个用户输入可能存在大量干扰项(distracter)而降低识别精确性。在任何语言中,-->往往存在核心的一组词汇对于所有个体是公共的。在这个核心集合之外,单词往往是专用于特定个体的。例如,工程师可能撰写包括高度技术性的术语和特定领域或商业领域的缩写的电子邮件。对于其他用户,这些专用术语可能是不相干的,并可能在识别过程中引入干扰,从而使得识别过程健壮性(robust)较差。较小的词典通常是健壮性更好的词典,因为如果想要的单词在词典中,则用户输入更可能被正确识别。较小的词典为用户输入提供更大的灵活性和容错(tolerance),从而允许输入与期望的输入选项的理想形式相比是不精确和不准确的。小词典的另一优势在于搜索空间较小。因此,小词典允许减小搜索的等待时间(latency)。这在处理能力严重受限的移动设备中尤为重要。然而,当小词典不包含用户所需的单词时,用户经验可能无效。用户在输入之前不知道单词是否在词典中,从而对于用户导致不确定性。在单词被不正确地输入或单词不在词典中时都可能发生传统系统不能识别该单词。因此,用户可能很难判断单词为何没有被识别。一般地,用户不可能知道单词是否在词典中,除非反复尝试该单词。当用户确定该单词不在词典中时,用户经识别系统所提供的接口,通过前面所述的敲击而将该单词添加到词典。较小的词典要求用户更频繁地向词典添加单词。对于词典大小问题有多个传统解决方案。通常使用的方法是使用大词典,然后利用更高级的语言规则-诸如单词级三元组模型(word-level trigram-model)-来滤除非常不可能的候选项。语言模型的不利方面通常是产生和有效使用大语言模型的额外开销。而且,语言模型可能引入误差,并错误地滤除想要的单词。如果语言模型是一般性的而非为特定用户定制的,则这个问题尤为突出。实践中,语言模型的有效定制很难。而且,语言模型很难与已经具有高精度的识别技术-诸如键盘上速记-结合。另一传统方法通过挖掘用户所产生的书面文本-例如所写的电子邮件和其他文献-而为用户创建定制的词典。虽然该方法确实得到-->对于特定用户更精确设计的词典,但用户所产生的先前书写文集可能太少而不足以涵盖所有期望的单词。而且,在实践中,很难编写能够打开并阅读用户可能正在使用的所有各种电子邮件和文件格式的计算机程序代码。该方法经常要求用户定位并选择先前撰写的文件,这对用户是不方便的。定制的词典也可能难以在不同设备间转移(carryover)。虽然这些传统解决方案对于它们想要达到的目的是足够的,但期望找到一种解决方案,其使得词典能够对于用户期望的输入具有数量相对少的无关干扰项,但允许很容易访问用户可能需要的几乎所有单词,包括多数用户很少使用的更专业的单词。总之,期望将用户可能需要的所有单词包括在非常大的词典中。然而,非常大的词典意味着对于相同的匹配阈值,更多单词与在键盘上绘制的图案匹配,从而降低了输入系统中的信噪比。因此,较大的词典对于用户对应于更小的灵活性和健壮性。因此,需要一种用于键盘上速记系统的词典配置来平衡使用的容易性与灵活性和健壮性。对于传统键盘上速记输入方法的另一挑战是要求在单词级准确地输入文本,一次一个单词。一些单词很长。对于相对新的用户而言,可能在认知方面很难以一个笔划(stroke)通过键盘上速记绘出长单词。该困难在其中与英语相比长的复合词更常见的某些欧洲语言中特别突出。而且,如果普通词缀可以被绘制为相对于单词的词干单独的笔划,则用户可能发现输入更方便。例如,为了以键盘上速记书写单词“working”,用户可能希望在图形键盘上绘制w-o-r-k图案,然后绘制i-n-g并将这二者组合为一个单词。因此,需要高效的系统和方法来如用户所期望的那样自动地将键盘上的局部单词(“skographs”)组合为一个单词。因此需要一种改进的键盘上速记接口中的文本输入。
技术实现思路
本专利技术公开了一种系统、计算机程序产品、和相关方法(在此被-->总称为“系统”或“本系统”),用于改进键盘上速记接口上的文本输入。本系统包括核心词典和扩充词典。核心词典包括一种语言中的常用词汇。根据本系统的应用,核心词典通常包括大约5000到15000个单词。扩充词典包括没有被包括在核心词典中的单词。扩充词典包括大约30000到100000个单词。核心词典允许本系统在识别比划(gesture)中将常用单词作为排序最高的候选单词,从而提供与较小词典相关的更健壮的识别性能。只有来自核心词典的单词在本系统中可被直接输出。附加的候选单词可从扩充词典中获取,从而允许用户在候选项列表中找到较不熟悉的单词,但仅通过菜单选择。本系统增强了单词识别精确度,而不牺牲从大词典中选择单词。核心词典为用户输入提供了更大的灵活性和容错,以相对于想要的输入选项的理想形式是不精确和不准确的。本系统还包括识别模块、预排序模块和排序模块。识别模块产生对应于输入图案的候选单词的N最佳列表。预排序模块按照预定标准对这些N最佳候选单词排序。排序模块调整对候选单词的N最佳列表的排序,以将从核心词典得到的单词设定为比从扩充词典中得到的单词更高,从而生成排序后的单词候选项列表。仅核心词典中的单词作为本系统的输出被呈现。本系统仅在N最佳列表中列出在扩充词典中找到的候选单词;这些单词需要用户选择以成为输出。一旦用户从N最佳列表中选择,来自扩充词典的单词就被收录到核心词典中。更特别地,在一个优选实施例中,仅核心词典中的单词被识别系统输出。扩充词典中的单词仅可在N最佳列表中被列出,并需要明确的用户选择才被输出。一旦被选择,扩充词典中的单词就也被收录到核心词典中。在用户所比划的单词不在核心词典的词汇中的情形下,本系统减小了本文档来自技高网
...

【技术保护点】
一种用于识别经键盘上速记接口所输入的输入信号的单词识别系统,所述系统包括:包括常用单词的核心词典;扩充词典,包括没有被包含在核心词典中的单词;识别模块,用于识别与输入信号相关的单词;选择器模块,用于输出来自核心词典的与输入信号相关的输出单词;以及录入模块,用于在用户选择与输入信号相关的候选单词后,将该候选单词录入核心词典。

【技术特征摘要】
【国外来华专利技术】US 2005-10-22 11/256,7131.一种用于识别经键盘上速记接口所输入的输入信号的单词识别系统,所述系统包括:包括常用单词的核心词典;扩充词典,包括没有被包含在核心词典中的单词;识别模块,用于识别与输入信号相关的单词;选择器模块,用于输出来自核心词典的与输入信号相关的输出单词;以及录入模块,用于在用户选择与输入信号相关的候选单词后,将该候选单词录入核心词典。2.如权利要求1所述的系统,还包括用户选择接口,用于呈现来自核心词典和扩充词典中至少一个的与输入信号相关的候选单词,以供用户选择。3.如权利要求2所述的系统,其中用户选择接口以不同的感知特征列出来自核心词典的候选单词和来自扩充词典的候选单词,以便于区分。4.如权利要求1所述的系统,其中识别模块生成来自核心词典和扩充词典的候选单词的N最佳列表。5.如权利要求4所述的系统,还包括预排序模块,用于根据至少一个标准对候选单词的N最佳列表排序。6.如权利要求5所述的系统,其中排序模块输出来自核心词典的最高排序的单词作为候选单词的N最佳列表中最高排序的单词。7.一种识别经键盘上速记接口输入的输入文本的单词识别方法,包括:在核心词典中存储常用单词;在扩充词典中存储没有被包含在核心词典中的单词;识别与输入信号相关的单词;输出来自核心词典的与输入文本相关的输出单词;以及在用户选择与输入文本相关的候选单词后,将该候选单词录入到核心词典中。8.如权利要求7所述的方法,还包括呈现来自核心词典和扩充词典中至少一个的与输入信号相关的候选单词,以供用户选择。9.如权利要求8所述的方法,还包括以不同的感知特征列出来自核心词典的候选单词和来自扩充词典的候选单词,以便于区分。10.一种具有存储在计算机可用介质上的程序代码的计算机程序产品,用于识别经用户输入接口输入的输入信号,包括:包括常用单词的核心词典;扩充词典,包括没有被包含在核心词典中的单词;用于识别与输入信号相关的单词的程序代码;用于输出来自核心词典的与输入信号相关的输出单词的程序代码;以及用于在用户选择与输入信号相关的候选单词后将该候选单词录入核心词典的程序代码。11.如权利要求1所述的系统,用于允许组合输入文本的词干和词缀,所述系统还包括:拼接模块,用于将输入信号识别为输入词缀;拼接模块还识别候选单词作为相邻候选单词;复合输出模块,用于在词典中检索包含所述输入词缀的单词集合;排序模块,用于根据相似性函数对包含所述输入词缀的单...

【专利技术属性】
技术研发人员:翟树民PO克里斯藤森
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1