改进的拼写检查系统和方法技术方案

技术编号：2859616 阅读：198 留言：0更新日期：2012-04-11 18:40

本发明专利技术利用搜索查询字符串的迭代变换以及从搜索查询日志和／或ｗｅｂ数据提取出来的统计量，给搜索查询字符串提供可能的备选拼写。这提供一种能用来给每个用户提供个性化建议的拼写检查方法。通过利用搜索查询日志，本发明专利技术能考虑到辞典里没有但仍可接受为所关心的搜索查询的子串。这允许一种提供在辞典内容之外的质量更高的备选拼写建议的方法。本发明专利技术的一个实例通过利用从查询日志中提取出来的词一元模型和／或二元模型的统计量并结合迭代搜索，在子串级别上工作。这为给定查询提供了实质上比只利用子串匹配的方法更好的拼写备选方案。本发明专利技术的其他实例能接收来自除了搜索查询输入之外的来源的输入数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术一般地涉及拼写检查，尤其涉及通过利用查询日志来改良拼写检查的系统和方法。(2)
技术介绍
与自动化程序、系统和服务的交互，已经成为大多数人生活中日常事务的一部分——尤其随着因特网的出现。例如，对于某些人来说，网络冲浪或浏览可能是“新的”全国性的娱乐。依照这样的系统，像文字处理那样的应用程序已经帮助许多人在他们各自的工作中或者在他们的个人生活中变得更加有效率，例如给朋友键入一封信或电子邮件。这些应用程序已经增加了许多自动化的功能组件，例如用于实质上以具有任何所需要的字体、色彩、形状或表格的格式化文档的工具。已经被许多用户所了解并普遍接受的一种工具是拼写检查应用程序，用户从文字处理软件中调用拼写检查应用程序来检查各个文档的全部或部分，和/或当用户打字时调用拼写检查应用程序，使其在后台运行，检查拼写。通常，为了执行正确的拼写检查，拼写检查应用程序可以使用一个“有效字符串”的字典。如果拼写检查程序遇到一个不在字典之内的字符串，就假定该字符串是拼写错误，并试图在字典中为该错拼的字符串找到“最接近”的字符串。大多数拼写检查程序给用户提供一个可能匹配的列表，由此，如果匹配在该列表中，用户可以从列表中选择具有改正过的拼写的词。拼写检查的其他功能组件可以执行自动改正——如果用户这样配置的话。然而，文字处理的拼写检查只展现了潜在领域的部分情景，该潜在领域可以用于协助用户把信息输入到文件或文档内。例如，对所有可用的潜在网络站点和服务，用户经常通过明确地键入站点名称的全部或部分，或通过执行对出现在网页标题或主体上的字或短语的搜索，在站点之间导航。正如许多人已经认识到的...

【技术保护点】
一种促进拼写检查的系统，包括：一接收包含文本的输入数据的组件；以及一拼写检查组件，其识别文本中一组潜在地被错拼的子串，并基于至少一个查询日志，给所述子串组建议至少一个备选拼写；所述查询日志包括在一个时间范围内被诸用户用于查询数据集的数据。

【技术特征摘要】
US 2004-3-16 10/801,9681.一种促进拼写检查的系统，包括一接收包含文本的输入数据的组件；以及一拼写检查组件，其识别文本中一组潜在地被错拼的子串，并基于至少一个查询日志，给所述子串组建议至少一个备选拼写；所述查询日志包括在一个时间范围内被诸用户用于查询数据集的数据。2.如权利要求1所述的系统，其特征在于，所述拼写检查组件在建议至少一个备选拼写时进一步利用依赖于用户的信息。3.如权利要求1所述的系统，其特征在于，所述子串组的备选拼写进一步基于至少一个可信辞典；所述可信辞典包括从由一个有内容的可信辞典和一个没有内容的可信辞典组成的组中选择的至少一个。4.如权利要求3所述的系统，其特征在于，所述拼写检查组件进一步使用一个停用词列表；所述停用词列表包括从由一个有内容的停用词列表和一个没有内容的停用词列表组成的组中选择的至少一个。5.如权利要求4所述的系统，其特征在于，所述有内容的停用词列表包括一个包含高频词和功能词及其常见拼写错误的停用词列表。6.如权利要求4所述的系统，其特征在于，所述拼写检查组件使用迭代过程来搜索备选拼写空间。7.如权利要求6所述的系统，其特征在于，所述拼写检查组件至少部分地使用试探法来将限制强加于用来确定建议的备选拼写的搜索空间。8.如权利要求7所述的系统，其特征在于，所述试探法至少部分地利用至少一个边缘来限制所述搜索空间。9.如权利要求4所述的系统，其特征在于，所述查询日志包括在一个时间范围内被要求的查询的一个直方图。10.如权利要求9所述的系统，其特征在于，所述被要求的查询的直方图涉及诸用户的一个子集；所述子集包括至少一个用户。11.如权利要求9所述的系统，其特征在于，所述查询日志驻留在服务器计算机上。12.如权利要求9所述的系统，其特征在于，所述查询日志驻留在客户计算机上。13.如权利要求9所述的系统，其特征在于，所述拼写检查组件利用来自至少一个查询日志的子串出现和共现统计数据。14.如权利要求13所述的系统，其中子串包括从由在至少一个可信辞典之内的条目、在一停用词列表中的条目以及没有一组预定义的定界符的字符序列组成的组中选择的至少一个。15.如权利要求13所述的系统，其特征在于，所述子串共现统计数据包括子串二元模型计数；子串二元模型包括文本中的一对子串。16.如权利要求15所述的系统，其特征在于，所述子串二元模型包括文本中的一对毗邻子串。17.如权利要求16所述的系统，其特征在于，所述有内容的停用词列表的子串共现统计数据进一步包括一个带停用词序列忽略计数的子串二元模型。18.如权利要求13所述的系统，其特征在于，所述来自查询日志的子串出现和共现统计数据被存储于一相同的可搜索数据结构中。19.如权利要求18所述的系统，其特征在于，所述数据结构包括一个特里结构。20.如权利要求18所述的系统，其特征在于，所述系统以与其处理个别子串时所用的相同方式处理串接的和/或拆分的子串。21.如权利要求20所述的系统，其特征在于，所述拼写检查组件产生一组备选拼写，所述一组备选拼写是从由至少一个查询日志和至少一个辞典所组成的组中选择的至少一个的子串。22.如权利要求21所述的系统，其特征在于，所述备选拼写组包括通过迭代改正过程确定的一组备选拼写。23.如权利要求22所述的系统，其特征在于，所述迭代改正过程包括多个将至少一个子串转变成另一个子串作为备选拼写的迭代；当所有可能的备选拼写都不如当前的备选拼写组恰当时，所述迭代改正过程停止。24.如权利要求23所述的系统，所述备选拼写及其适合程度基于一概率串距离和一统计上下文模型计算。25.如权利要求24所述的系统，其特征在于，所述概率串距离包括一个修正的上下文依赖的加权Damerau-Levenshtein编辑函数，当指点改变时，所述编辑函数允许字符的插入、删除、替换、毗邻调换和远距离移动。26.如权利要求24所述的系统，在每个迭代中，用于一子串的所述备选拼写组通过利用从至少一个查询日志和至少一个可信辞典提取出来的可搜索子串数据结构来产生。27.如权利要求26所述的系统，在每个迭代中，用于每个子串...

【专利技术属性】
技术研发人员：ED布里尔，SP库塞赞，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人