【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及用于将文本输入到电子设备中的系统和方法。特别地,本专利技术涉及包括具有用于生成文本预测的语言模型的文本预测引擎的系统和利用这样的系统生成文本预测的方法。
技术介绍
存在已知的基于用户输入的字符序列来预测词语的系统。该系统的一个示例是题为“用于将文本输入到电子设备中的系统和方法(System and method for inputting text into electronic devices)”的公开号为WO2010/112841的国际专利申请,该申请全文通过引用方式合并于此。WO2010/112841描述了一种包括文本预测引擎的系统,文本预测引擎被配置为接收用户输入文本且利用多个语言模型生成一个或多个文本预测。如该申请所描述的,为了输入不存在于语言模型的词汇表中的术语,用户可通过将该术语逐字符地输入到系统的用户界面中来插入该术语。然后将该术语存储在动态语言模型中,使得该术语能够在以后被预测。虽然逐字的文本能够由用户输入,但如果逐字的文本不对应于语言模型的已知词语,则其将不会作为具有对应的关联概率的候选词而被预测。许多已知系统存在的问题在于,当逐字的输入不对应于系统的语言模型的已知的词语时,系统自动校正逐字的输入。通过用系统已知的替选词语建议取代逐字输入来对逐字的输入进行自动校正,会导致令人沮丧的用户文本输入体验。自动校正功能输入最可能的候选,例如当用户输入空格时,除非用户专门地指示预测词语(其是逐字文本的替选)不是他们想要输入的。已知的系统仅限于预测已知的词语(即,存在于系统的语言模型中的词语)。该方法存在的问题在于,系统受训练 ...
【技术保护点】
一种用于将文本输入到电子设备中的系统,所述系统被配置为接收由用户输入到所述设备中的字符序列,所述系统包括:被配置为根据所述字符序列生成词段序列的单元;文本预测引擎,包括存储有词段序列的语言模型,所述文本预测引擎被配置为接收所述词段序列并且判定所述词段序列中的每个词段是否对应于所述语言模型的存储的词段;其中,所述文本预测引擎被配置为:当所述词段序列中的每个词段对应于所述语言模型的存储的词段时,输出所述词段序列作为候选预测,而不管所述词段序列是否对应于存储的词段序列。
【技术特征摘要】
【国外来华专利技术】2013.12.11 GB 1321927.4;2014.10.31 GB 1419489.81.一种用于将文本输入到电子设备中的系统,所述系统被配置为接收由用户输入到所述设备中的字符序列,所述系统包括:被配置为根据所述字符序列生成词段序列的单元;文本预测引擎,包括存储有词段序列的语言模型,所述文本预测引擎被配置为接收所述词段序列并且判定所述词段序列中的每个词段是否对应于所述语言模型的存储的词段;其中,所述文本预测引擎被配置为:当所述词段序列中的每个词段对应于所述语言模型的存储的词段时,输出所述词段序列作为候选预测,而不管所述词段序列是否对应于存储的词段序列。2.一种用于将文本输入到电子设备中的系统,所述系统被配置为接收由用户输入到所述设备中的字符序列,所述系统包括:被配置为根据所述字符序列生成由一个或多个词段组成的序列的单元;文本预测引擎,包括存储有词段序列的语言模型,所述文本预测引擎被配置为:接收所述由一个或多个词段组成的序列;将所述由一个或多个词段组成的序列与存储的词段序列进行比较;以及基于存储的词段序列来预测所述序列中的下一词段。3.一种用于将文本输入到电子设备中的系统,所述系统被配置为接收由用户输入到所述设备中的字符序列,所述系统包括:被配置为根据所述字符序列生成由一个或多个词段组成的序列的单元;文本预测引擎,包括存储有词段序列的语言模型,所述文本预测引擎被配置为:接收所述由一个或多个词段组成的序列;将所述由一个或多个词段组成的序列与存储的词段序列进行比较;以及基于存储的词段序列来修改所述由一个或多个词段组成的序列的至少一个所述词段,使得经修改的由一个或多个词段组成的序列匹配所述存储的词段序列。4.如任一前述权利要求所述的系统,其中所述语言模型包括指示词语的开始/结束的多个词语边界标记。5.如任一前述权利要求所述的系统,其中所述语言模型包括存储有词段序列的上下文模型以及存储有由形成词段的字符组成的序列的输入模型。6.如权利要求5所述的系统,其中所述上下文模型包括存储有词段序列的n元语法图。7.如权利要求6所述的系统,其中所述n元语法图包括指示词语的开始/结束的所述多个词语边界标记。8.如权利要求5、6或7所述的系统,其中所述输入模型包括被配置为根据字符序列生成一个或多个词段的字典树。9.如权利要求8所述的系统,其中所述字典树包括多个词段边界标记。10.如当从属于权利要求1时权利要求8或9所述的系统,其中所述文本预测引擎被配置为判定所述词段序列中的每个词段是否对应于所述字典树的存储的词段。11.如任一前述权利要求所述的系统,其中所述字符序列包括与用户正在输入的当前词语有关的字符以及与该当前词语的上下文有关的字符。12.如权利要求11所述的系统,其中分词器被配置为根据与所述上下文有关的字符生成由一个或多个词段组成的序列。13.如权利要求11或12所述的系统,其中所述语言模型被配置为根据与所述当前词语有关的字符生成由一个或多个词段组成的序列。14.如权利要求2所述的或者如当从属于权利要求2时权利要求4-13中任一项所述的系统,其中所述文本预测引擎被配置为迭代地预测所述序列中的下一词段。15.如当从属于权利要求4或7时权利要求14所述的系统,其中所述文本预测引擎被配置为迭代地预测所述序列中的下一词段直到达到术语边界为止,此时所述文本预测引擎将所述词段序列作为词语输出。16.如权利要求15所述的系统,其中所述文本预测引擎进一步包括候选过滤器,并且其中所述文本预测引擎被配置为使所述词语通过所述候选过滤器以判定所述词语是否为有效词语。17.如权利要求16所述的系统,其中所述候选过滤器被配置为丢弃无效词语除非该无效词语对应于逐字输入,并且其中,有效词语和与逐字输入对应的无效词语从所述文本预测引擎输出。18.如权利要求16或17所述的系统,其中所述语言模型包括所述候选过滤器。19.如权利要求16、17或18所述的系统,其中所述候选过滤器是由有效词语构造的布隆过滤器。20.如权利要求19所述的系统,其中所述布隆过滤器是由与所述有效
\t词语对应的字符串来构造的,或者是由构成所述有效词语的词段组合的标识符组合来构造的。21.如任一前述权利要求所述的系统,其中所述文本预测引擎进一步包括存储有词语序列的基于词语的语言模型。22.如权利要求21所述的系统,其中所述文本预测引擎被配置为接收输入到所述设备的字符序列以及基于存储的词语序列预测一个或多个词语。23.如权利要求1所述的系统,其被配置为接收第一字符序列,其中所述系统进一步包括被配置为在所述第一字符序列中识别由一个或多个词语组成的序列以及第二字符序列的单元;其中所述文本预测引擎进一步包括存储有词语序列的基于词语的语言模型,并且所述文本预测引擎被配置为判定所述第二字符串是否对应于所述基于词语的语言模型中的词语;以及其中,在判定出所述第二字符串不对应于所述基于词语的语言模型中的词语时,所述预测引擎被配置为将所述第二字符序列传递给所述被配置为根据所述字符序列生成词段序列的单元。24.如权利要求8-10中任一项所述的系统,其中所述字典树是概率字典树,并且所述语言模型进一步包括按键向量,其中所述词段的字符对应于用户输入序列的字符的经修改的版本。25.一种电子设备,包括:任一前述权利要求所述的系统;以及用户界面,其被配置为接收用户输入,使得用户能够将字符序列输入到所述设备中。26.如权利要求25所述的设备,包括如权利要求17至20中任一项所
\t述的系统,其中所述用户界面进一步被配置为对由所述文本预测引擎输出的词语进行显示以便用户回顾和选择,其中所述文本预测引擎被配置为,如果选定词语是与逐字输入对应的无效词语,则用所述选定词语更新所述候选/布隆过滤器。27.一种生成词段语言模型的方法,包括:接收文本;在所述文本中识别词语边界;将所述文本拆分成由所述词语边界分开的词语;将所述词语拆分成词段;以及生成具有词语边界的n元语法词段序列。28.一种处理由用户输入到电子设备中的字符序列的方法,所述方法包括:根据所述字符序列生成由一个或多个词段组成的序列;利用包括存储有词段序列的语言模型的文本预测引擎,来判定所述由一个或多个词段组成的序列中的每个词段是否对应于所述语言模型的词段;当所述由一个或多个词段组成的序列...
【专利技术属性】
技术研发人员:J·伊索西皮莱,H·李,J·巴利,J·奥斯本,
申请(专利权)人:触摸式有限公司,
类型:发明
国别省市:英国;GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。