当前位置: 首页 > 专利查询>微软公司专利>正文

改进的拼写检查系统和方法技术方案

技术编号:2859616 阅读:198 留言:0更新日期:2012-04-11 18:40
本发明专利技术利用搜索查询字符串的迭代变换以及从搜索查询日志和/或web数据提取出来的统计量,给搜索查询字符串提供可能的备选拼写。这提供一种能用来给每个用户提供个性化建议的拼写检查方法。通过利用搜索查询日志,本发明专利技术能考虑到辞典里没有但仍可接受为所关心的搜索查询的子串。这允许一种提供在辞典内容之外的质量更高的备选拼写建议的方法。本发明专利技术的一个实例通过利用从查询日志中提取出来的词一元模型和/或二元模型的统计量并结合迭代搜索,在子串级别上工作。这为给定查询提供了实质上比只利用子串匹配的方法更好的拼写备选方案。本发明专利技术的其他实例能接收来自除了搜索查询输入之外的来源的输入数据。

【技术实现步骤摘要】

本专利技术一般地涉及拼写检查,尤其涉及通过利用查询日志来改良拼写检查的系统和方法。(2)
技术介绍
与自动化程序、系统和服务的交互,已经成为大多数人生活中日常事务的一部分——尤其随着因特网的出现。例如,对于某些人来说,网络冲浪或浏览可能是“新的”全国性的娱乐。依照这样的系统,像文字处理那样的应用程序已经帮助许多人在他们各自的工作中或者在他们的个人生活中变得更加有效率,例如给朋友键入一封信或电子邮件。这些应用程序已经增加了许多自动化的功能组件,例如用于实质上以具有任何所需要的字体、色彩、形状或表格的格式化文档的工具。已经被许多用户所了解并普遍接受的一种工具是拼写检查应用程序,用户从文字处理软件中调用拼写检查应用程序来检查各个文档的全部或部分,和/或当用户打字时调用拼写检查应用程序,使其在后台运行,检查拼写。通常,为了执行正确的拼写检查,拼写检查应用程序可以使用一个“有效字符串”的字典。如果拼写检查程序遇到一个不在字典之内的字符串,就假定该字符串是拼写错误,并试图在字典中为该错拼的字符串找到“最接近”的字符串。大多数拼写检查程序给用户提供一个可能匹配的列表,由此,如果匹配在该列表中,用户可以从列表中选择具有改正过的拼写的词。拼写检查的其他功能组件可以执行自动改正——如果用户这样配置的话。然而,文字处理的拼写检查只展现了潜在领域的部分情景,该潜在领域可以用于协助用户把信息输入到文件或文档内。例如,对所有可用的潜在网络站点和服务,用户经常通过明确地键入站点名称的全部或部分,或通过执行对出现在网页标题或主体上的字或短语的搜索,在站点之间导航。正如许多人已经认识到的那样,如果站点信息或搜索查询输入不正确,再次导航的时间代价就会变得相当高。搜索引擎或其他应用程序中使用的语言处理程序经常处理用户的查询,并尝试区分真实的用户命令和不正确输入的信息。然而应该明白,被输入到搜索引擎中用于查询的信息类型可能在结构或形式上与文字处理应用程序中通常使用的信息类型有很大不同。因此,文字处理程序中用来在有些单独和孤立的基础之上检查词的工具在用于从一般的查询数据中生成信息时,可能很少甚至没有效用。浏览器或其他信息搜索查询给拼写检查应用程序提出了一个独特的问题,因为查询常常包含在标准的拼写检查字典中找不到的词,如艺术家、产品或公司名称等。另外一个问题是查询中的词可能已经被不正确地输入,但是没有错误拼写(例如,“and processors”而不是“amd processors”)。因此,人们在像搜索引擎的输入框那样的键入行中输入文本的方式,常常与文字处理中的键入有很大不同。查询输入中所输入的内容和人们所犯的错误类型也自然有很大不同。此外,网络数据和搜索查询在性质上是非常动态的,包含大量的固有名词;新的产品、人、机构、地点和事件每天都变得流行。同样地,标准字典尽管适用于文字处理中上下文的拼写检查,却可能并不适用于键入行和搜索—查询中的拼写检查。字典(即辞典)是任何拼写检查程序的重要组件,因为其中包含的信息提供了确定不正确拼写的基础。然而,对于许多需要进行拼写检查的应用程序(如提供给输入框的文本输入)来说,标准字典对这个问题不是最佳的。例如,为了对输入到搜索引擎的输入框中的文本进行拼写检查,字典应该包括诸如“hanging chad(悬空票)”和“Apolo Anton Ohno(阿波罗·安东·奥诺)”之类的字符串,以便检查近来的事件或可能所关注的信息。可以知道,这些字符串和大量其他类型的字符串不会在标准字典中出现。一种可能的途径是在用户输入到诸如搜索引擎或语言处理程序之类的特定位置的内容的日志上使用子串匹配技术。不幸的是,这种途径的一个问题是查询日志通常也将会包含大量的输入错误,并返回与用户所需搜索无关的子串匹配。另外,拼写检查所用的字典和搜索的上下文总是在改变。这些动态的行为不能通过利用传统字典和搜索查询处理来解决。例如,如果现在有一个名为Limp Bizkit的流行乐队,对“bizkit pictures(bizkit照片)”的查询很可能是指的是这个乐队,而不是“biscuit(饼干)”的错误拼写。如果这个乐队突然变得不流行,而且有一本关于饼干照片的畅销书,那么“bizkit pictures”就更可能是“biscuit pictures”的错误拼写。同样,在当前的政治状态下,如果arnold现在是受欢迎的加利福尼亚州州长,“governor anld”可能指的是“govenorarnold(州长Arnold)”。因此,搜索查询的上下文显著地影响着拼写检查。(3)
技术实现思路
下面给出本专利技术简化了的内容,以便提供对本专利技术一些方面的基本理解。该内容不是本专利技术的广泛纵览。该内容并不是要鉴别本专利技术的关键/重要的元素或描绘本专利技术的范围。其唯一目的是以简化的形式给出本专利技术的一些概念,作为后面给出的更加详细的描述的前奏。本专利技术一般地涉及拼写检查器,尤其涉及通过利用查询日志来改进拼写检查的系统和方法。搜索查询字符串的迭代变换连同从搜索记录和/或web数据提取出来的统计量一起,被用来给搜索查询字符串提供可能的备选拼写。这提供一种能用来给每个用户提供个性化建议的优异的拼写检查方法。通过利用搜索查询日志,本专利技术能解释辞典里没有但仍可接受为所关心的搜索查询的子串。这允许一种提供在辞典内容之外的质量更高的备选拼写建议的方法。本专利技术的一个实例通过利用从查询日志中提取出来的词一元模型和/或二元模型的统计量以及迭代搜索,在子串水平上工作。这为给定查询提供了实质上比只利用准确子串匹配的方法更好的拼写备选方案。因此本专利技术,例如,能基于流行的概念/查询的最近历史,调整它所建议的备选方案。本专利技术也能基于相关的先前查询日志,为给定用户调整其改正,提供更加恰当的拼写备选方案。本专利技术的其他实例能接收来自除搜索查询输入之外的来源的输入数据。这提供了一种利用查询日志促进在普通文字处理器等等的上下文中进行拼写检查的方法。为实现上述相关成果,结合下列说明和附图,在此描述本专利技术的某些示例性方面。然而,这些方面只指示可能应用本专利技术原理的各种方法中的一些,本专利技术规定为包括所有这些方面及其等效。结合附图一起考虑,从下面的本专利技术具体实施方式可以明显看出本专利技术的其他优点和新颖特征。(4)附图说明图1是一个依照本专利技术一个方面的搜索查询评估系统的方框图。图2是另一个依照本专利技术一个方面的搜索查询评估系统的方框图。图3是一个依照本专利技术一个方面的搜索过程的示例。图4是另一个依照本专利技术一个方面的搜索过程的示例。图5是一个依照本专利技术一个方面的信息流结构的示例。图6是一个依照本专利技术一个方面的促进搜索查询的一种方法的流程图。图7是另一个依照本专利技术一个方面的促进搜索查询的一种方法的流程图。图8是又一个依照本专利技术一个方面的促进搜索查询的一种方法的流程图。图9例示了一个本专利技术可以在其中运行的操作环境的实例。图10例示了另一个本专利技术可以在其中运行的操作环境的实例。(5)具体实施方式现在参考附图描述本专利技术,其中始终用相同的参考数字来指示相同的元素。在下列描述中,出于解释的目的,阐明了很多特定的细节,以提供对本专利技术的彻底理解。然而,显然本专利技术可能不需要这些特定的细节就能实现。在其他实例中,以方框图的形式把众所周知的结本文档来自技高网
...

【技术保护点】
一种促进拼写检查的系统,包括:一接收包含文本的输入数据的组件;以及一拼写检查组件,其识别文本中一组潜在地被错拼的子串,并基于至少一个查询日志,给所述子串组建议至少一个备选拼写;所述查询日志包括在一个时间范围内被诸用户用于查询数据集的数据。

【技术特征摘要】
US 2004-3-16 10/801,9681.一种促进拼写检查的系统,包括一接收包含文本的输入数据的组件;以及一拼写检查组件,其识别文本中一组潜在地被错拼的子串,并基于至少一个查询日志,给所述子串组建议至少一个备选拼写;所述查询日志包括在一个时间范围内被诸用户用于查询数据集的数据。2.如权利要求1所述的系统,其特征在于,所述拼写检查组件在建议至少一个备选拼写时进一步利用依赖于用户的信息。3.如权利要求1所述的系统,其特征在于,所述子串组的备选拼写进一步基于至少一个可信辞典;所述可信辞典包括从由一个有内容的可信辞典和一个没有内容的可信辞典组成的组中选择的至少一个。4.如权利要求3所述的系统,其特征在于,所述拼写检查组件进一步使用一个停用词列表;所述停用词列表包括从由一个有内容的停用词列表和一个没有内容的停用词列表组成的组中选择的至少一个。5.如权利要求4所述的系统,其特征在于,所述有内容的停用词列表包括一个包含高频词和功能词及其常见拼写错误的停用词列表。6.如权利要求4所述的系统,其特征在于,所述拼写检查组件使用迭代过程来搜索备选拼写空间。7.如权利要求6所述的系统,其特征在于,所述拼写检查组件至少部分地使用试探法来将限制强加于用来确定建议的备选拼写的搜索空间。8.如权利要求7所述的系统,其特征在于,所述试探法至少部分地利用至少一个边缘来限制所述搜索空间。9.如权利要求4所述的系统,其特征在于,所述查询日志包括在一个时间范围内被要求的查询的一个直方图。10.如权利要求9所述的系统,其特征在于,所述被要求的查询的直方图涉及诸用户的一个子集;所述子集包括至少一个用户。11.如权利要求9所述的系统,其特征在于,所述查询日志驻留在服务器计算机上。12.如权利要求9所述的系统,其特征在于,所述查询日志驻留在客户计算机上。13.如权利要求9所述的系统,其特征在于,所述拼写检查组件利用来自至少一个查询日志的子串出现和共现统计数据。14.如权利要求13所述的系统,其中子串包括从由在至少一个可信辞典之内的条目、在一停用词列表中的条目以及没有一组预定义的定界符的字符序列组成的组中选择的至少一个。15.如权利要求13所述的系统,其特征在于,所述子串共现统计数据包括子串二元模型计数;子串二元模型包括文本中的一对子串。16.如权利要求15所述的系统,其特征在于,所述子串二元模型包括文本中的一对毗邻子串。17.如权利要求16所述的系统,其特征在于,所述有内容的停用词列表的子串共现统计数据进一步包括一个带停用词序列忽略计数的子串二元模型。18.如权利要求13所述的系统,其特征在于,所述来自查询日志的子串出现和共现统计数据被存储于一相同的可搜索数据结构中。19.如权利要求18所述的系统,其特征在于,所述数据结构包括一个特里结构。20.如权利要求18所述的系统,其特征在于,所述系统以与其处理个别子串时所用的相同方式处理串接的和/或拆分的子串。21.如权利要求20所述的系统,其特征在于,所述拼写检查组件产生一组备选拼写,所述一组备选拼写是从由至少一个查询日志和至少一个辞典所组成的组中选择的至少一个的子串。22.如权利要求21所述的系统,其特征在于,所述备选拼写组包括通过迭代改正过程确定的一组备选拼写。23.如权利要求22所述的系统,其特征在于,所述迭代改正过程包括多个将至少一个子串转变成另一个子串作为备选拼写的迭代;当所有可能的备选拼写都不如当前的备选拼写组恰当时,所述迭代改正过程停止。24.如权利要求23所述的系统,所述备选拼写及其适合程度基于一概率串距离和一统计上下文模型计算。25.如权利要求24所述的系统,其特征在于,所述概率串距离包括一个修正的上下文依赖的加权Damerau-Levenshtein编辑函数,当指点改变时,所述编辑函数允许字符的插入、删除、替换、毗邻调换和远距离移动。26.如权利要求24所述的系统,在每个迭代中,用于一子串的所述备选拼写组通过利用从至少一个查询日志和至少一个可信辞典提取出来的可搜索子串数据结构来产生。27.如权利要求26所述的系统,在每个迭代中,用于每个子串...

【专利技术属性】
技术研发人员:ED布里尔SP库塞赞
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1