电子设备的文本输入系统及文本输入方法技术方案

技术编号:8244090 阅读:202 留言:0更新日期:2013-01-25 03:02
本发明专利技术涉及一种文本预测重新排序的系统及方法。具体而言,涉及一种基于修正过的概率值为文本预测重新排序的系统及方法。其中,根据给定文本预测将要出现在用户输入文本中的可能性修正概率值。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及,特别是一种对供显示和用户选择的文本预测进行自适应重排序的系统和方法。重新排序文本预测,以便将更接近当前文本语境的文本预测置于列表顶部显示并供用户选择,由此辅助用户进行文本输入。
技术介绍
目前,存在着许多电子设备使用的文本输入技术,例如,台式电脑或笔记本电脑使用的标准键盘(QWERTY-style)文本输入,个人数字助理(PDA)使用的手写识别,移动电话设备使用9位数字键盘的字母符号输入,标准电脑设备及移动电脑设备使用的语音识别文本输入系统,以及触屏装置。在移动电话
中,已有多种文本输入技术。其中比较有名的文本输入技 术包括特捷通讯公司(Tegic Communications)的“T9”,摩托罗拉(Motorola)的“iTap”,Nuance 通讯公司的 “XT9”、“eZiType” 和 “eZiText”,黑莓的 “SureType”,KeyPoint 科技公司(KeyPoint Technology)的“AdapTxt”和上海汉翔信息技术有限公司(CooTek)的“TouchPal”。这些技术大多是基于字符的文本输入技术,并利用了一些文本预测(或歧义消除)技术。在不同的已知模型中,支持一本具有合法词条的词典(或多本词典),并且赋予词典特定的输入序列。文本输入系统从该词典中选择一条(或一组)合法的词条,并将该词条作为潜在填充的候选词条呈现给用户。可由用户输入新的词条来扩充上述基础词典,这一扩充受限于设备的可用内存容量。在这些文本输入系统中,除了某些系统(诸如“eZiText”、“AdapTxt”、“TouchPal,,)中根据即时的词汇语境,对潜在填充的候选词条进行排序,其余系统根据使用频率的统计,对潜在填充的候选词条进行排序。
技术实现思路
本专利技术对这种仅以使用时间或频率为依据进行文本预测排序的文本输入系统进行了显著的改进,并允许对会受到预测词条或短语属于当前文本语境(例如,由用户输入的当前文本序列)可能性影响的文本预测进行排序。本专利技术提供的文本输入系统允许使用“非本地”语境(Nonlocal context)。由此,本专利技术提供了一种能够对其自身生产的文本预测进行更为准确排序的系统,用以减少用户的文本输入强度(因为,用户很少不得不靠翻动预测词条列表或输入额外字符来找出他们需要的词条)。本专利技术提供了一种利用矢量空间技术和随机索引来评估给定词条或短语属于当前文本语境的可能性的文本输入系统及方法。由此,该系统可基于词条/短语属于当前文本语境的可能性,为给定的预测词条/短语生成一修正过的概率值。该系统使用这一修正过的概率值重新排序和/或选择由文本预测引擎生成的文本预测。之后,显示生成的文本预测,以供用户选择并输入电子设备。利用文本预测输入当前文本的可能性重新排序文本预测,可带来如下有益效果将与当前文本语境更为相关的文本预测置于列表顶部显示以供用户选择,由此辅助用户输入文本。这样非常有益的是可将呈献给用户的预测文本空间限制在该文本预测的子集上。由此,本专利技术所提供的系统能够根据用户输入的文本准确地预测出与用户意图最为接近的文本预测。参照下列附图,详细介绍本专利技术。附图说明图I为本专利技术系统的结构示意图;图2为图I示出的本专利技术系统结构中矢量空间相似度模块的细节示意图;图3为本专利技术方法的流程图。 具体实施例方式本专利技术提供了一种基于语言模型的文本预测系统,用于文本预测成分的自适应重排序。该系统利用矢量空间技术,优选为随机索引,基于文本预测属于用户输入的文本片段的可能性修正分配给文本预测的概率值。随机索引是一种用于生成表示矢量空间词条的语境矢量的矢量空间技术。为给定信息段中的每个语境(例如,在这种情况下为每个文档)分配一个唯一且随机生成的所谓索引矢量。随机索引是一种增量法,这意味着可使用语境矢量来进行相似度计算,即使是文本预测系统仅仅在体验若干语境之后。在本系统中,为每个文档分配一个唯一的索引矢量,而且每个词条具有一个与索引矢量相关的语境矢量。语境矢量包含出现该词条的所有文档的索引矢量。由于潜在的随机索引模型逐渐递增,故在用户创建新“文档”时本系统允许即时更新。尽管用于生成语境矢量以及将一组文档中的词条映射入矢量空间的技术优选为随机索弓丨,但本专利技术并不仅限于使用随机索引。作为非限制性实例,对于矢量空间/分布相似模型而言,可使用潜在语义分析(Latent Semantic Analysis)、概率语义分析(Probabilistic Semantic Analysis)、或潜在狄利克雷分配模型(Latent DirichletAllocation model)。在随机索引中,词条被映射入矢量空间。在该空间内,各点间距离(以距离度量或逆相似性度量估算)表示为这些点所代表的词条间的某种关系。本系统根据一组训练该系统所基于的已存在的文档,使用随机索引评估两条任意词条出现在同一文档中的可能性。文档包括明显的、具有清楚定义的首尾端点的文本段。作为非限制性实例,所述文档可以是电子邮件消息、新闻报道、博客条目(blog entry)、短信息(SMS message)、杂志文章或学术论文。可以预见,如果两个词条恰好出现在一组训练数据中的同一组文档中,则在矢量空间中这两个词条势必距离很近。相反,如果这两个词条出现在互不相交组别的文档中,则在矢量空间中这两个词条势必距离很远。在本专利技术中,所述系统使用随机索引将一组文档中的词条映射入矢量空间。该系统用于确定矢量空间中表示预测词条的矢量与表示用户输入电子设备的当前词条的矢量之间的接近程度。该系统基于矢量空间中所述矢量之间的接近程度,生成对应于各个预测词条的修正过的概率值。由此,本系统生成预测词条与用户输入至设备的词条出现在同一用户输入文本段的可能性的评估。如上所述,本系统使用文本预测成分的修正过的概率对其根据用户输入文本生成的文本预测成分进行重新排序。因此,本系统可以(基于可能存在的本地语境、非本地语境以及当前词条信息)将可能性最高的文本预测置于供显示和用户选择的文本预测列表的顶部,由此辅助用户选择及文本输入。本系统可应用于多种电子设备中。作为非限制性实例,本系统可以用于移动电话的文本输入、个人数字助理的文本输入、或电脑的文本输入(例如,在可使用击键和滚轮机构选择相关文本预测的设备中使用,或者在使用触屏技术的设备中使用)。图I示出了本专利技术系统。下面,参照图I详细介绍本系统的组成部分。首先,本系统包括用于生成文本(或类似元素)预测的预测器I。预测器是一种根据某类文本语境(例如,当前文档2)生成一组文本预测3的装置。每个文本预测3由诸如·词条或短语(表示为s_i)的文本字符串和表示为p_i的概率值构成。由此,文本预测3的集合的表示形式可以为{(s_l,p_l), (s_2, p_2)…(s_n, p_n),},其中,在该集合中存在η个文本预测。如同本领域技术人员理解的那样,在文本预测系统中可以使用任意类型预测器和任意个预测器来生成文本预测3。优选地,预测器基于用户输入文本的语境生成文本预测,即预测器基于之前η-l个词条的语境生成第η个词条。此处的“语境”表示之前出现在文本序列中的词条,以及该系统对于当前词条的所有认识(即,以特定字符或字符串开头,或者已表明为某一类主本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:本杰明·德洛克乔纳森·雷诺兹
申请(专利权)人:触摸式有限公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1