当前位置: 首页 > 专利查询>微软公司专利>正文

检索确认句的方法和系统技术方案

技术编号:2872556 阅读:173 留言:0更新日期:2012-04-11 18:40
提供一种从句子数据库中检索确认句以响应查询的方法、计算机可读媒体及系统。搜索引擎从句子数据库中检索确认句以响应查询。在检索确认句时,搜索引擎基于该查询定义索引单元,索引单元包括来自该查询的词条及和与该查询关联的扩展索引单元。然后搜索引擎使用已定义的索引单元作为搜索参数从句子数据库中检索到多个句子。多个检索到的句子中的每一个句子之间的相似性由搜索引擎确定,所述每个相似性作为查询中的一项的语言学权重的函数来确定。然后搜索引擎基于已确定的相似性排列多个检索到的句子。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
相关申请的交叉引用在此引用下面一起待审批和共同待批的在相同日期提交的专利申请标题为“在检索提示句时检测用户意图的方法和系统”的美国专利序列号No.___及标题为“使用扩展查询检索提示句的方法和系统”美国申请序列号No.______,专利技术人均为周明(Ming Zhou)。
技术介绍
本专利技术涉及机器辅助的写作系统和方法。更特别地,本专利技术涉及辅助用户以非母语写作的系统和方法。随着全球通讯的快速发展,用英语和其他非母语写作的能力越来越重要。然而,说非母语的人(例如,说中文、日文、韩文或其他非英语语言的人)常觉得用英语写作很困难。难度往往不在拼写上,也不在语法上,而是在习惯用法上。因此,对这些说非母语的的人来说用英语写作的最大的问题是确定如何润色句子。虽然这对以任何非母语语言写作的过程都是一样的,在此主要通过引用英语写作来说明该问题。拼写检查和语法检查仅在用户拼错单词或者犯明显的语法错误时有用。不能依靠这些检查程序来帮助润色句子。字典也很有用,但多数情况下仅用于解决阅读和翻译的问题。通常,在字典里查一个单词向作者提供该单词用法的多个解释,但没有语境信息。因此,用户得到解决的办法是容易混淆并且耗时的。通常,作者觉得在写作中润色句子时有好的例句作为参考是很有帮助的。问题在于往往没有这样的例句在手上。另外,迄今为止,还没有软件有效支持英语的润色,并且只有很少的学者在这一领域进行研究。实现一个能够辅助用户润色英语句子的系统面临无数的挑战。首选,给出一个用户的句子,必须确定如何检索出确认句。确认句被用来确认用户的句子。确认句应在句子结构或形式上接近用户输入的查询或预期的输入查询。基于有限的例子,很难检索出完全相似的句子,因此通常只可能检索出包含与正被写出的句子(查询句子)相似的某些部分的句子。然后,出现两个互相关联的问题。第一个问题是如果用户的句子太长太复杂,应该取哪一部分作为用户的焦点呢?第二个问题是如果有很多句子匹配,它们应该如何准确并有效地排序来最大化它们对作者的有用性呢?第二个挑战是确定如何检索提示句。提示句被用来提供扩展的表达。换句话说,提示句应在意思上与用户的输入查询句子相似,并被用来向用户提供表达一个特定思想的其他方法。更复杂的一种情况是当用户的句子包含混淆的表达,或即使用户的句子是用英文写出但却使用了其他语言的句子结构或语法(例如,“中文式的英语句子”)时确定如何检测用户的真实意图来检索适当的提示句。第三个挑战涉及用户可能用他或她的母语写出的查询进行搜索这一事实。为了实现准确的翻译,查询理解和翻译选择是两个大的技术障碍。虽然上述问题是引用不以英语为母语的人们(例如,以中文、日文或韩文为母语的人)进行英语写作来说明的,这些问题对以第一种语言(非母语)写作,但却是说第二种语言(母语)的人是相同的。根据这些问题,或其他未讨论的问题,通过提供相关的确认和/或提示句将辅助非母语的人以英语或其他非母语的语言写作的系统或方法是技术的一大进步。专利技术概要提供一种从句子数据库中检索确认句以响应查询的方法、计算机可读媒体及系统。搜索引擎从句子数据库中检索确认句以响应查询。确认句被用来在写作的时候确认或指导用户的句子结构。因此,确认句应在句子结构或形式上接近用户输入的查询或预期的输入查询以作为语法上的例子使用。搜索引擎从句子数据库中检索确认句以响应查询。查询被接收并且基于该查询定义索引单元,索引单元包括来自该查询的词条及和该查询关联的扩展索引单元。搜索引擎使用已定义的索引单元作为查询参数检索来自句子数据库的句子。搜索引擎的排列组件确定检索到的确认句的每一个句子之间的相似性。相似性作为查询中的一项的语言学权重的函数来确定。查询中的该项的语言学权重是作为它的词性的一个函数赋给查询中的该项的权重。然后排列组件基于已确定的相似性排列检索到的确认句。在一些实例中,每个相似性进一步作为对应于确认句长度的句子长度因子的一个函数来确定。 附图说明图1为在其中可以实现本专利技术的计算环境的方框图。图2为在其中可以实现本专利技术的替换计算环境的方框图。图3方框图,展示本专利技术辅助用户构建和润色英语句子的系统和方法。图4-1和4-2分别为英语查询和中文查询的相关性三元组的例子。图5-1为方框图,展示创建相关性三元组数据库的方法。图5-2为方框图,展示提供用于搜索句子数据库的替换表达的查询扩展方法。图6-1为方框图,展示检测用户输入查询意图的翻译方法。图6-2为方框图,展示构建混淆集合数据库的方法。图6-3为方框图,展示检测用户输入查询意图的混淆集合方法。图7为方框图,展示改进句子检索的查询翻译方法。图8为方框图,展示在图3中所示的搜索引擎的一个实例。示范性实例详细说明本专利技术提供帮助用户以非母语写作并通过参考建议性的句子润色他们的句子的有效系统。建议性的句子,可以为确认句和提示句,是将用户的句子作为查询自动地从句子数据库中检索出的。为了实现这个系统,提议采纳几种技术。例如,第一种技术涉及改进的例句推荐方法。第二种技术涉及改进的帮助在用户的母语中搜索的跨语言信息检索方法和技术。还提议采纳其他技术。图1展示在其中可以实现本专利技术的适合的计算系统环境100的例子。计算系统环境100仅是适合的计算环境的一个例子并不意味着对本专利技术的使用范围或功能的任何限制。也不应将计算环境100解释为与在示范性操作环境100中展示的组件中的任何一个或其组合有任何相关性或需求。本专利技术可以工作在大量其他通用或或专用计算系统环境或配置中。适合于使用本专利技术的众所周知的计算系统、环境及/或配置的例子包括,但不仅限于,个人计算机、服务器计算机、手持设备或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型计算机、大型计算机、电话系统、包含任何上述系统或设备及类似系统的分布式计算环境。本专利技术可以在计算机可执行指令的通用环境中说明,如由计算机执行的程序模块。通常,程序模块包括执行特殊的任务或实现特殊的抽象数据类型的例行程序、程序、对象、组件、数据结构等等。本专利技术也可以实现在分布式计算环境中,其中任务是由通过通讯网络链接的远程处理设备执行的。在分布式计算环境中,程序模块可以位于本地和远程的包括存储器存储设备的计算机存储媒体。参考图1,实现本专利技术的示范性系统包括形式为计算机110的通用计算设备。计算机110的组件包括,但不仅限于,处理单元120、系统存储器130和耦合包括系统存储器的不同系统组件到处理单元120的系统总线121。系统总线121可以为几种总线结构的任何一种,包括存储器总线或存储器控制器、外围设备总线,和使用多种总线结构的任何一种的本地总线。作为例子,而非限制,这样的结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、扩展ISA(EISA)总线、视频电子标准协会(VESA)本地总线,和也称为Mezzanine总线的外围元件互连接口(PCI)总线。计算机110通常包括多个计算机可读媒体。计算机可读媒体可以为任何可以被计算机110访问的可用媒体并且包括易失的和非易失的媒体,可移动的和不可移动的媒体。作为例子,而非限制,计算机可读媒体可以包括计算机存储媒体和通讯媒体。计算机存储媒体包括用来存储信息如计算机可读指令、数据结构、程序模块或其他数据的以本文档来自技高网...

【技术保护点】
一种向用户提供来自句子数据库的句子以响应查询的方法,其特征在于,该方法包括:接收查询;基于查询定义索引单元,该索引单元包括来自查询的词条和与查询关联的扩展索引单元;及使用已定义的索引单元作为搜索参数检索来自句子数据库 的多个句子;确定多个检索到的句子的每一个和查询之间的相似性,所述每一个相似性作为查询中的项的语言学权重的函数来确定;及基于已确定的相似性排列多个检索到的句子。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:周明吴华张跃高剑峰黄昌宁
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1