用于将文本输入到电子设备中的系统和方法技术方案

技术编号:13635601 阅读:60 留言:0更新日期:2016-09-02 22:28
提供了用于将文本输入到电子设备中的系统。所述系统被配置为接收输入到设备中的字符序列。该系统包括被配置为根据字符序列生成词段序列的单元。该系统还包括文本预测引擎,该文本预测引擎包括存储有词段序列的语言模型。文本预测引擎被配置为接收词段序列。在第一实施例中,文本预测引擎被配置为判定词段序列中的每个词段是否对应于语言模型的存储的词段,以及当词段序列中的每个词段对应于语言模型的存储的词段时将词段序列输出作为候选预测,而不管词段序列是否对应于存储的词段序列。提供了其它各种系统和对应的方法。提供了一种系统,该系统包括词段语言模型,词段语言模型包括存储的词段序列和候选过滤器。候选过滤器用于对由词段语言模型生成的词语预测进行过滤。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及用于将文本输入到电子设备中的系统和方法。特别地,本专利技术涉及包括具有用于生成文本预测的语言模型的文本预测引擎的系统和利用这样的系统生成文本预测的方法。
技术介绍
存在已知的基于用户输入的字符序列来预测词语的系统。该系统的一个示例是题为“用于将文本输入到电子设备中的系统和方法(System and method for inputting text into electronic devices)”的公开号为WO2010/112841的国际专利申请,该申请全文通过引用方式合并于此。WO2010/112841描述了一种包括文本预测引擎的系统,文本预测引擎被配置为接收用户输入文本且利用多个语言模型生成一个或多个文本预测。如该申请所描述的,为了输入不存在于语言模型的词汇表中的术语,用户可通过将该术语逐字符地输入到系统的用户界面中来插入该术语。然后将该术语存储在动态语言模型中,使得该术语能够在以后被预测。虽然逐字的文本能够由用户输入,但如果逐字的文本不对应于语言模型的已知词语,则其将不会作为具有对应的关联概率的候选词而被预测。许多已知系统存在的问题在于,当逐字的输入不对应于系统的语言模型的已知的词语时,系统自动校正逐字的输入。通过用系统已知的替选词语建议取代逐字输入来对逐字的输入进行自动校正,会导致令人沮丧的用户文本输入体验。自动校正功能输入最可能的候选,例如当用户输入空格时,除非用户专门地指示预测词语(其是逐字文本的替选)不是他们想要输入的。已知的系统仅限于预测已知的词语(即,存在于系统的语言模型中的词语)。该方法存在的问题在于,系统受训练数据中所见的词汇表限制,并且因此如果逐字输入不对应于语言模型中的词语则永远不能将该逐字输入
作为预测候选来提供。本专利技术的目的是解决上文指出的问题中的一个或多个。
技术实现思路
本专利技术提供了根据独立权利要求1、2、3和44的系统,根据独立权利27、28、29、30、43和50的方法以及根据独立权利要求54的计算机程序。本专利技术的可选特征是从属权利要求的主题。参考权利要求1和28,术语‘候选预测’用于指代被提供给用户以便输入到系统中的文本预测。文本预测可对应于语言模型未知的词语或词段组合。附图说明图1a和1b是根据本专利技术的高级预测体系结构的示意图;图2a是根据本专利技术的预测体系结构的通用词段语言模型的示意图;图2a’是进一步包括候选过滤器的图2a的词段语言模型的示意图;图2b是根据本专利技术的实施例的词段语言模型的示意图;图2c是根据本专利技术的实施例的词段语言模型的示意图;图2d是根据本专利技术的实施例的词段语言模型的示意图;图2e是根据本专利技术的预测体系结构的通用的基于词语的语言模型的示意图;图3是根据本专利技术的词段n元语法图的示意图;图4是根据本专利技术的‘混合’词段n元语法图的示意图;图5是根据本专利技术生成词段语言模型的方法的流程图;图6是根据本专利技术来处理电子字符序列的第一方法的流程图;图7是根据本专利技术来处理电子字符序列的第二方法的流程图;图8是根据本专利技术来处理电子字符序列的第三方法的流程图;图9是根据本专利技术来处理电子字符序列的第四方法的流程图;图10是根据本专利技术来处理电子字符序列的第四方法的流程图。具体实施方式一般地,而不是排他项,本专利技术的系统能够实现如图1a和1b所示。图1a是根据本专利技术的第一系统的框图。该系统包括文本预测引擎100,该文本预测引擎100包括词段语言模型10,该词段语言模型被配置为根据用户输入的文本生成一个或多个词段预测40。如下文更详细说明的,词段语言模型10能够被配置为迭代地预测词段,使得来自文本预测引擎的输出是可以显示在电子设备的用户界面上以供用户选择的一个或多个词语预测50。图1b是根据本专利技术的第二系统的框图。除了词段语言模型10之外,该实施例的文本预测引擎100’还具有词语语言模型20。文本预测引擎进一步包括多语言模型(多LM)30,以根据由词段语言模型10和词语语言模型20输出的词语预测50,50”生成最终的词语预测集合55。在通过引用并入本文的WO 2010/112841的第11页第1行至第12页第2行中描述了使用多LM 30来对源自多个语言模型的词语预测进行组合。图1a和1b的高级预测体系结构可以包括任意数量的如WO2010/112841中所描述的附加语言模型。例如,预测体系结构可以包括通用语言模型、特定于应用的语言模型、特定于用户的(动态的)语言模型、用于不同语言(例如,韩语、芬兰语、英语等)以及任何附加的语言模型中的一个或多个,其中任意一个或多个可对应于根据本专利技术的词段语言模型10。词段(word segment)是词语中的可以与一种语言中的其它词语共用的任意部分,例如词语‘vest’、‘vesicle’、‘vehicle’、‘vegetable’、have、positive、live、lively、lovely等的词段‘ve’。词段可以包括词素(morpheme),因为很多词语共用词缀和后缀等。然而,词段比词素涵盖更多的字符组合,因为它们不必具有与它们相关联的含义。词段可以如同词素一样是一个字符的长度,例如用于使词语复数化的‘s’,并且当词语没有与其它词语共用的任何部分时可以包括词语。术语“词段”还涵盖了词语连接符,诸如所有格撇号、连字符,无论是单独地还是与其它字符组合。‘词段语言模型’10是表示在自然语言内出现的词段序列的统计概率的概率分布。因此,词段语言模型包括存储的词段序列。存储的任何给定的序列可以表示词语、词语的序列或词语的部分。在本专利技术中,术语‘词
段语言模型’还涵盖了‘混合’语言模型,其除了存储的词段序列之外还包括存储的词语或词语序列,即使那些词语可以分解成与其它词语共用的词段。词语可嵌入到词段序列中,可以自身设在语言模型中,或者可以存储在词语序列中。词语和词段优选地通过词段语言模型不做区分地对待(即,词语被作为词段而对待)。‘词语语言模型’20是表示在自然语言内出现的词语序列的统计概率的概率分布。在本申请的背景下,词语语言模型仅存储完整词语的序列,即不存在对词语的分段。使用仅包括词段的语言模型存在一些缺点,因为来自这样的语言模型的词语预测会具有比词语语言模型更低的对于预测常见词语的精度。“混合”语言模型方法受益于把词段用来预测罕见词语(例如,已知词段的未知组合)同时保持对于常见词语的预测的质量。存在对最好保留不分段(best left un-segmented)的词语(例如一种语言的n个最频繁词语可以保留不分段)进行识别的多种方式。可替选地,对哪些词语应当保留不分段的选择可以基于词语的大小来做出,因为较长的词语具有更高的受益于分段的可能性,而较短的词语将趋于不可分段。词语可通过两种方法的组合来识别,保持较短且经常使用的词语不分段。任何其它适合的判定哪些词语应当保留不分段的方式也能够单独地使用或者与所描述的方法相结合使用,取决于预测引擎的应用。就哪些词语保持为单个单位而哪些词语分段成词段(例如,词素)而进行的选择,可取决于语言的形态拓扑结构。对于一些语言(例如,英语)保持主要存储词语和词语序列同时有一些词段序列的语言模型是有益的;而对于其它语言,具有主要包括词段和词段序列同时具有较少的词语本文档来自技高网
...

【技术保护点】
一种用于将文本输入到电子设备中的系统,所述系统被配置为接收由用户输入到所述设备中的字符序列,所述系统包括:被配置为根据所述字符序列生成词段序列的单元;文本预测引擎,包括存储有词段序列的语言模型,所述文本预测引擎被配置为接收所述词段序列并且判定所述词段序列中的每个词段是否对应于所述语言模型的存储的词段;其中,所述文本预测引擎被配置为:当所述词段序列中的每个词段对应于所述语言模型的存储的词段时,输出所述词段序列作为候选预测,而不管所述词段序列是否对应于存储的词段序列。

【技术特征摘要】
【国外来华专利技术】2013.12.11 GB 1321927.4;2014.10.31 GB 1419489.81.一种用于将文本输入到电子设备中的系统,所述系统被配置为接收由用户输入到所述设备中的字符序列,所述系统包括:被配置为根据所述字符序列生成词段序列的单元;文本预测引擎,包括存储有词段序列的语言模型,所述文本预测引擎被配置为接收所述词段序列并且判定所述词段序列中的每个词段是否对应于所述语言模型的存储的词段;其中,所述文本预测引擎被配置为:当所述词段序列中的每个词段对应于所述语言模型的存储的词段时,输出所述词段序列作为候选预测,而不管所述词段序列是否对应于存储的词段序列。2.一种用于将文本输入到电子设备中的系统,所述系统被配置为接收由用户输入到所述设备中的字符序列,所述系统包括:被配置为根据所述字符序列生成由一个或多个词段组成的序列的单元;文本预测引擎,包括存储有词段序列的语言模型,所述文本预测引擎被配置为:接收所述由一个或多个词段组成的序列;将所述由一个或多个词段组成的序列与存储的词段序列进行比较;以及基于存储的词段序列来预测所述序列中的下一词段。3.一种用于将文本输入到电子设备中的系统,所述系统被配置为接收由用户输入到所述设备中的字符序列,所述系统包括:被配置为根据所述字符序列生成由一个或多个词段组成的序列的单元;文本预测引擎,包括存储有词段序列的语言模型,所述文本预测引擎被配置为:接收所述由一个或多个词段组成的序列;将所述由一个或多个词段组成的序列与存储的词段序列进行比较;以及基于存储的词段序列来修改所述由一个或多个词段组成的序列的至少一个所述词段,使得经修改的由一个或多个词段组成的序列匹配所述存储的词段序列。4.如任一前述权利要求所述的系统,其中所述语言模型包括指示词语的开始/结束的多个词语边界标记。5.如任一前述权利要求所述的系统,其中所述语言模型包括存储有词段序列的上下文模型以及存储有由形成词段的字符组成的序列的输入模型。6.如权利要求5所述的系统,其中所述上下文模型包括存储有词段序列的n元语法图。7.如权利要求6所述的系统,其中所述n元语法图包括指示词语的开始/结束的所述多个词语边界标记。8.如权利要求5、6或7所述的系统,其中所述输入模型包括被配置为根据字符序列生成一个或多个词段的字典树。9.如权利要求8所述的系统,其中所述字典树包括多个词段边界标记。10.如当从属于权利要求1时权利要求8或9所述的系统,其中所述文本预测引擎被配置为判定所述词段序列中的每个词段是否对应于所述字典树的存储的词段。11.如任一前述权利要求所述的系统,其中所述字符序列包括与用户正在输入的当前词语有关的字符以及与该当前词语的上下文有关的字符。12.如权利要求11所述的系统,其中分词器被配置为根据与所述上下文有关的字符生成由一个或多个词段组成的序列。13.如权利要求11或12所述的系统,其中所述语言模型被配置为根据与所述当前词语有关的字符生成由一个或多个词段组成的序列。14.如权利要求2所述的或者如当从属于权利要求2时权利要求4-13中任一项所述的系统,其中所述文本预测引擎被配置为迭代地预测所述序列中的下一词段。15.如当从属于权利要求4或7时权利要求14所述的系统,其中所述文本预测引擎被配置为迭代地预测所述序列中的下一词段直到达到术语边界为止,此时所述文本预测引擎将所述词段序列作为词语输出。16.如权利要求15所述的系统,其中所述文本预测引擎进一步包括候选过滤器,并且其中所述文本预测引擎被配置为使所述词语通过所述候选过滤器以判定所述词语是否为有效词语。17.如权利要求16所述的系统,其中所述候选过滤器被配置为丢弃无效词语除非该无效词语对应于逐字输入,并且其中,有效词语和与逐字输入对应的无效词语从所述文本预测引擎输出。18.如权利要求16或17所述的系统,其中所述语言模型包括所述候选过滤器。19.如权利要求16、17或18所述的系统,其中所述候选过滤器是由有效词语构造的布隆过滤器。20.如权利要求19所述的系统,其中所述布隆过滤器是由与所述有效
\t词语对应的字符串来构造的,或者是由构成所述有效词语的词段组合的标识符组合来构造的。21.如任一前述权利要求所述的系统,其中所述文本预测引擎进一步包括存储有词语序列的基于词语的语言模型。22.如权利要求21所述的系统,其中所述文本预测引擎被配置为接收输入到所述设备的字符序列以及基于存储的词语序列预测一个或多个词语。23.如权利要求1所述的系统,其被配置为接收第一字符序列,其中所述系统进一步包括被配置为在所述第一字符序列中识别由一个或多个词语组成的序列以及第二字符序列的单元;其中所述文本预测引擎进一步包括存储有词语序列的基于词语的语言模型,并且所述文本预测引擎被配置为判定所述第二字符串是否对应于所述基于词语的语言模型中的词语;以及其中,在判定出所述第二字符串不对应于所述基于词语的语言模型中的词语时,所述预测引擎被配置为将所述第二字符序列传递给所述被配置为根据所述字符序列生成词段序列的单元。24.如权利要求8-10中任一项所述的系统,其中所述字典树是概率字典树,并且所述语言模型进一步包括按键向量,其中所述词段的字符对应于用户输入序列的字符的经修改的版本。25.一种电子设备,包括:任一前述权利要求所述的系统;以及用户界面,其被配置为接收用户输入,使得用户能够将字符序列输入到所述设备中。26.如权利要求25所述的设备,包括如权利要求17至20中任一项所
\t述的系统,其中所述用户界面进一步被配置为对由所述文本预测引擎输出的词语进行显示以便用户回顾和选择,其中所述文本预测引擎被配置为,如果选定词语是与逐字输入对应的无效词语,则用所述选定词语更新所述候选/布隆过滤器。27.一种生成词段语言模型的方法,包括:接收文本;在所述文本中识别词语边界;将所述文本拆分成由所述词语边界分开的词语;将所述词语拆分成词段;以及生成具有词语边界的n元语法词段序列。28.一种处理由用户输入到电子设备中的字符序列的方法,所述方法包括:根据所述字符序列生成由一个或多个词段组成的序列;利用包括存储有词段序列的语言模型的文本预测引擎,来判定所述由一个或多个词段组成的序列中的每个词段是否对应于所述语言模型的词段;当所述由一个或多个词段组成的序列...

【专利技术属性】
技术研发人员:J·伊索西皮莱H·李J·巴利J·奥斯本
申请(专利权)人:触摸式有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1