【技术实现步骤摘要】
本专利技术涉及在线应用,尤其涉及在线拼写纠正。
技术介绍
随着数据存储设备变得越来越便宜,保留了越来越大量的数据,其中这样的数据可通过利用搜索引擎来访问。由此,搜索引擎技术被频繁地更新以满足用户的信息检索请求。此外,随着用户持续地与搜索引擎交互,这些用户变得越来越擅长于制作可能导致返回满足用户的信息请求的捜索结果的查询。 然而,常规上,当一部分查询包括错误拼写的词时,搜索引擎难以检索到相关的结果。对搜索引擎查询日志进行分析发现,查询中的词常常被错误拼写并且存在各种类型的错误拼写。例如,某些错误拼写可由当用户意外地按压了键盘上与用户打算按压的键相邻的键时的“粗手指症状(fat finger syndrome) ”引起。在另ー示例中,查询的发起者可能不熟悉某些拼写规则,诸如当将字母“i”放在字母“e”之前以及当将字母“e”放在字母“i”之前吋。其他的错误拼写可由用户打字太快引起,诸如例如用户意外地按压了同一字母两次、意外地颠倒了一个词中的两个字母等。此外,许多用户难以拼写源自不同语种的词。某些搜索引擎已经被适应于在接收到整个查询之后(例如,在查询的发起者按压“搜索” ...
【技术保护点】
【技术特征摘要】
2011.03.23 US 13/069,5261.一种便于执行在线拼写纠正的计算机可执行的方法,所述方法包括 从用户接收第一字符序列,其中所述第一字符序列是短语的可能错误拼写的部分;响应于接收到所述第一字符序列,从计算机可读数据储存库中的第一数据结构检索变换概率数据,其中所述变换概率数据指示第二字符序列被变换成所述第一字符序列的概率,其中所述第二字符序列是所述短语的正确拼写的部分; 在检索到所述变换概率数据之后,在所述计算机可读数据储存库中的第二数据结构上捜索以至少部分地基于所述变换概率数据来寻找所述短语的完成;以及 在接收到所述第一字符序列之后但在从用户接收附加的字符之前将所述短语的至少ー个完成提供给用户。2.如权利要求I所述的方法,其特征在于,所述第二数据结构包括η元语言模型。3.如权利要求I所述的方法,其特征在于,所述第二数据结构包括将短语映射到概率的特里结构。4.如权利要求3所述的方法,其特征在于,所述特里结构包括多个节点和多条路径,其中每ー个节点表示字符序列而两个节点之间的路径延伸所述字符序列,且其中所述特里结构中的每ー个节点具有包括与其相关地存储的相应字符序列的可能的词或短语之中的最大概率。5.如权利要求4所述的方法,其特征在于,所述搜索是跨所述特里结构中的多条路...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。