用于自适应拼写检查的系统和方法技术方案

技术编号:2828702 阅读:205 留言:1更新日期:2012-04-11 18:40
一种用于自适应拼写检查和纠正的系统和方法。所述方法包括跟踪历史替代字符串的频率,以及响应于之前被改变或未被识别的字符串提供数量“n”个历史替代字符串的列表。

【技术实现步骤摘要】

本专利技术 一般涉及一种用于拼写检查和纠正的系统和方法,并且特别涉 及一种用于基于单独用户或用户团体的历史拼写模式的映射的自适应拼写 检查器的系统和方法。
技术介绍
例如在常用字处理应用找到的针对电子文档的常规拼写纠正系统(例 如拼写检查器)在逐字基础上进行操作,并且检查文档中的每个字词是否 在字典中被找到。所述字典例如可以包括被拼写检查器存储和/或访问的有 效字符串的预定列表。当字词被发现在字典中有匹配时,该字词被认为是 正确拼写的。然而,当字词未在字典中被找到时,该字词被指示为不正确 拼写的。不正确拼写的字词可以例如经由加下划线和/或加亮来为用户标识 出来。许多常规拼写检查程序不仅检测错误拼写的字词,而且还提供可选字 词的选择作为该错误拼写的字词的建议替代。所述可选字词的选择可以根 据其与用户试图键入的字词的相似性按等级顺序呈现。填充建议替代列表的可选字词从替代字词的选择的静态集合(例如字典)中选出,其中或许 应用了几个有效可选后缀^J'J 。例如,如果用户打算键入recede这个字词但输入了 resead, 则典型的拼写检查器可以检测到该错误拼写的字词,并且按下面的等级顺 序呈现下面的可选字词作为建i5C替代reseatrescnd reread所述可选字词仅是来自接近匹配被错误拼写的字词的字符序列的有效 字词的静态列表(例如字典)的正确拼写的字词。所述可选字词列表通常 在拼写错误是笔误的结果(例如,字词的字符的遗漏、字词中额外字 符的添加、对于字词的字符的字符替换或字词中字符的顺序的调换)时有 用。然而,如果所述错误不是笔误而是实际拼写错误,则用户必须在例如 在字典中查找该字词或询问某人怎样拼写该字词之后手动输入正确的字词 (在所述情况下是recede)。由此,当使用常规拼写检查器时,当被 错误拼写的字词是除仅笔误之外的某种方式的结果时,用户可能是不方便 的。相应地,本领域中存在对克服上文中描述的不足和限制的需求。
技术实现思路
在本专利技术的第一方面中, 一种方法包括跟踪历史替代字符串的频率。 所述方法进一步包括响应于之前被改变或未被识别的字符串提供数量n 个历史替代串字符串的列表。在本专利技术的第二方面中, 一种为多个用户提供拼写检查的方法包括从 所述多个用户中的至少一个用户检索或接收数据。所述方法进一步包括基 于所述数据更新数据结构、标识字符串、和基于所述数据结构为所标识的 字符串提供至少 一个替代字符串。在本专利技术的第三方面中, 一种包括计算机可用介质的计算机程序产品 包括计算机可读程序。所述计算机可读程序当在计算机上执行时使得该计 算机标识未被识别或之前被改变的字符串。所述计算机可读程序当在计算 机上执行时进一步使得该计算机基于关联于未被识别或之前被改变的字符 串的历史替代的数据为该未被识别或之前被改变的字符串提供至少 一个替代字符串。所述计算机可读程序当在计算机上执行时进一步使得该计算机 替代所述字符串,并且基于所述替代更新所述数据。在本专利技术的第四方面中, 一种部署用于检查拼写的应用的方法包括提 供可操作为跟踪历史替代字符串的频率的计算机基础设施。所述计算机基 础设施进一步可操作为响应于之前被改变或未被识别的字符串提供数量n个历史替代字符串的列表。在本专利技术的第五方面中, 一种系统包括服务器,该服务器拥有包含关 联于字符串的历史替代的数据的数据库。所述系统进一步包括用于检查拼 写的硬件和软件部件中的至少一个。所述系统操作用于在电子文本中标识 未被识别或之前被替代的字符串。所述系统进一步操作用于基于关联于 字符串的历史替代的数据,为所述未被识别或之前被替代的字符串提供至 少一个替代字符串。附图说明图1示出了根据本专利技术的各方面的环境;图2示出了用于为建议替代分级的示例性公式;图3示出了根据图2的公式的分级;以及图4和5示出了说明根据本专利技术的各方面的方法的流程图。具体实施例方式本专利技术涉及一种用于拼写纠正的系统和方法。本专利技术提供一种拼写检查 器,该拼写检查器从由同一团体中的即时用户和/或其它用户选择的之前替代 字词和输入的新替代字词中进行学习。这样,所述拼写检查器经由适应用户 的历史替代模式而在其字词替代选择列表中变得更准确。此外,实现可以被 使用为从多个用户的一个或多个组的历史替代中进行学习和适应。这样,所 述拼写检查器使新字词能够iiX组的词汇表。相应地,本专利技术可以用于(特 别在电子文档中)提供对字词的拼写的改进的检查和/或纠正。图1示出了用于管理根据本专利技术的过程的示例性环境IO。为此,环境10包括可以实施这里描述的过程的计算机基础设施12。特别地,计算机基 础设施12被示为包括计算设备14,该计算设备14包括应用30,该应用 30使计算设备14可操作为实施这里描述的过程。计算设备14被示为包括 处理器20、存储器22A、输入/输出(I/O)接口 24和总线26。进一步地, 计算设备14被示为与外部I/O设备/资源28和存储系统22B通信。 一般地, 处理器20执行存储在存储器22A和/或存储系统22B中的计算机程序代码。 当执行计算机程序代码时,处理器20可以向/从存储器22A、存储系统22B 和/或I/O接口 24读和/或写数据。总线26提供计算设备14中的每个部件 之间的通信链路。I/O设备28可以包括使个人能够与计算设备14交互的 任意设备,或使计算设备14能够使用任意类型的通信链路与一个或更多其 它计算设备通信的任意设备。无论如何,计算设备14可以包括能够执行安装在其上的计算机程序代 码的任意通用计算产品(例如个人计算机、服务器、手持设备等)。然而, 应当理解,计算设备14仅代表可以实施这里描述的过程的各种可能的等价 计算设备。为此,在其它实施例中,由计算设备14提供的所述功能可以由 包括通用和/或专用硬件和/或计算机程序代码的任意组合的计算产品来实 现。在每个实施例中,所述程序代码和硬件可以分别使用标准编程和工程 技术来创建。类似地,计算机基础设施12仅代表用于实现本专利技术的各种类型计算机 基础设施。例如,在一个实施例中,计算机基础设施12包括在例如网络、 共享存储器等的任意类型的通信链路上通信以实施这里描述的过程的两个 或更多计算设备(例如服务器集群)。进一步地,当实施这里描述的过程 时,计算机基础设施12中的一个或更多计算设备可以使用任意类型的通信 链路与计算机基础设施12外部的一个或更多其它计算设备通信。在任一情 况下,所述通信链路可以包括各种类型的有线和/或无线链路的任意组合; 包括一个或更多类型的网络(例如因特网、广域网、局域网、虚拟专用网 等)的任意组合;和/或利用各种类型的传输技术和协议的任意组合。如这 里所讨论的,应用30使计算机基础设施12能够实施这里描述的过程,例如提供从一个或多个用户的历史字词替代中进行学习的自适应拼写检查 器。在实施例中,本专利技术以包括但不限于固件、常驻软件、微代码等的软 件来实现。另外,本专利技术可以采取计算机程序产品的形式,所述计算机程 序产品可从提供用于由计算机或任意指令执行系统使用或结合计算机或任 意指令执行系统使用的程序代码的计算机可用或计算机可读介质访问。由 于本说明书的目的,计算机可用或计算机可读介质可以是可以包含、存储、 传送、本文档来自技高网
...

【技术保护点】
一种用于自适应拼写检查的方法,包括:    跟踪历史替代字符串的频率;以及    响应于之前被改变或未被识别的字符串提供数量“n”个所述历史替代字符串的列表。

【技术特征摘要】
US 2006-12-21 11/614,7401.一种用于自适应拼写检查的方法,包括跟踪历史替代字符串的频率;以及响应于之前被改变或未被识别的字符串提供数量“n”个所述历史替代字符串的列表。2. 根据权利要求1所述的方法,进一步包括基于预订、广告和/或收 费而实施所述跟踪和所述提供的至少一个。3. 根据权利要求l所述的方法,其中,所述跟踪和提供由服务提供商来实施。4. 根据权利要求l所述的方法,其中,所述跟踪包括作为数据存储所 述频率和所述历史替代字符串。5. 根据权利要求4所述的方法,其中,所述存储包括将所述数据存储 在数据库中。6. 根据权利要求l所述的方法,进一步包括用所述历史替代字符串中 选出的一个字符串来替代所述字符串。7. 根据权利要求6所述的方法,进一步包括更新所述历史替代字符串 中所述选出的一个字符串的频率。8. 根据权利要求7所述的方法,其中,所述更新包括递增所述历史替 代字符串中所述选出的一个字符串的频率的值。9. 根据权利要求l所述的方法,其中,所述提供是基于所述历史替代 字符串的频率。10. 根据权利要求l所述的方法,其中,所述提供包括 根据所述频率为所述列表分级;以及 根据所述分级显示所述列表。11. 根据权利要求1所述的方法,其中,所述跟踪包括跟踪多个用户 的组的历史替代字符串的频率。12. 根据权利要求ll所述的方法,进一步包括对所述历史替代字符串中的每个的频率进行加权。13. 根据权利要求12所述的方法,其中,所述加权包括 基于关联于单个用户的频率的第一加权因子和不同于该第一加权因子并且关联于所述组的频率的第二加权因子创建所述历史替代字符串中的每 个的已加权频率。14. 根据权利要求13所述的方法,其中,所述提供包括 根据所述已加权频率为所述列表分级;以及 根据所述分级显示所述列表。15. —种为多个用户提供拼写检查的方法,包括 从所述多个用户中的至少一个用户检索或接收数据; 基于所述数据更新数据结构;标识字符串;以及基于所述数据结构为所标识的字符串提供至少一个替代字符串。16. 根据权利要求15所述的方法,其中,所述检索或接收包括从所述 多个用户中的多于一个用户检索或接收数据。17. 根据权利要求15所述的方法,其中,所述数据结构包括第一替代 字符串和关联的第一频率。18. 根据权利要求17所述的方法,...

【专利技术属性】
技术研发人员:RA哈密尔顿二世JS兰福德GJ博斯WK博丁
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有1条评论
  • 来自[北京市联通互联网数据中心] 2014年12月06日 00:58
    查斯特菲尔德勋爵英国著名政治家外交家及文学家曾就读于剑桥大学并游学欧洲大陆有写给儿子菲利普·斯坦霍普的50篇家书结集为一生的忠告传世在世界范围内具有广泛影响
    0
1