利用用户反馈处理查询的系统和方法技术方案

技术编号:5474746 阅读:246 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了处理指向数据库的查询的系统和方法。本发明专利技术包括以下实现步骤:获得来自用户的查询;使用知识库对查询进行消歧,以获得与查询中的字相关联的一个可识别的字义集;获得查询的一个解释集;将该解释集呈现给用户;从用户获得从该集中选择的解释;获得用于所选择的查询解释的提供结果。本发明专利技术还允许对与用于查询的最佳识别的结果有关的用户、会话和公共数据的数据库进行更新,以改善并个性化用户随后查询的消歧。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及因特网搜索,更具体地,涉及使用语义消歧和扩展 的因特网搜索。更具体地,本专利技术提供了使用户能够选择期望的查 询解释的查询处J里方法和系统。
技术介绍
当使用诸如因特网上的网页或文档的数据库的大的数据集进行 工作时,大量的可用数据使得难以找到相关信息。在这样的信息库 中找到相关信息的尝试中,使用了各种搜索方法。 一些众所周知的 系统为因特网搜索引擎,诸如允许用户执行基于关键字的搜索的 Yahoo (商标)和Google (商标)。这些搜索典型地包括将用户输入 的关4建字与网页索引中的关4建字进行匹配。然而,现有的因特网搜索方法常常产生一些不是特别有用的结 果。该搜索可以返回许多结果,^f旦是4又有4艮少或没有与用户的查询相关的结果。另一方面,该搜索可能仅返回少量结果,但其中没有 用户明确查找的,同时也没有返回潜在的相关结果。在执行这种搜索中遇到 一些困难的 一个原因是在自然语言中使 用的字的歧义。具体地,因为一个字可具有多个含义而经常遇到困 难。通过使用一种称为字义消歧的技术,已经在过去解决了该困难,该:汰术包括将字改变为具有特定语义含义的字义。例如,字"bank" 可以具有"金融才几构(financial institution )"或属于它的另一定义的 字义。美国专利6,453,315教导了基于含义的信息组织和4企索。该专 利教导了通过概念词典以及概念之间的关系来创建语义空间。多个 查询^皮映射到表示语义空间和查询定位的多个含义区分器 (differentiator )上。通过确定这些区分器之间的语义差别以确定接 近性和含义来完成搜索。该系统依赖用户来基于由该系统确定的含 义来精炼搜索,或可选地通过在搜索结果中找到的节点进行导航。如在本领域中已知的,通过"精确度"和"查全率(recall)" 来量化信息检索效率的评价。精确度通过将在搜索中找到的正确结 果数除以总的结果数来量化。查全率是通过将在搜索中找到的正确 结果lt除以总的可能的正确结果凄t来量^:。理想的(例如100%) 查全率可以通过返回所有可能结果而简单地获得,当然这将给出非常寸氐的精确度。大多数现有系统力求查全率和精确度标准的平衡。 例如通过使用同义字提供更多的可能结果来增加查全率,会必然降 低精确度。另一方面,通过限制搜索结果来提高精确度,例如通过 选4奪与查询中的字的精确顺序相匹配的结果,会降低查全率。这需要一种解决现有4支术中不足的查询处理系统和方法。
技术实现思路
根据本专利技术的一个方面,提供了一种搜索信息的方法,包括以下步骤对查询进行消歧;根据关键字含义对信息进行消歧和索引; 搜索索引的信息以使用查询中的关键字含义和与查询中的关键字含 义i吾义相关的其它字含义来查找与查询相关的4言息;以及返回包括「 包含关键字含义和其他语义相关字含义的信息的搜索结果。该方法可以被应用到使用关键字索引的任意数据库。优选地, 该方法应用到因特网的^臾索。语义关系可以是两个字之间的任意逻辑上或句法上定义的关联 类型。这种关联的实例为同义、下义关系等。对查询进行消歧的步骤可以包括为字含义分配可能性。相似地, 对信息进行消歧的步骤可以包括将可能性附给字含义。在本方法中〗吏用的关4建字含义可以是更^r确字含义的粗略分组。另一个方面,^是供了一种处理指向凄t才居库的查询的方法。该方 法包括以下步骤获4寻来自用户的查询;以及4吏用知识库对该查询 进行消歧以获得查询中字的一个可识别的含义集,称为查询的"解 释"。另夕卜,如果该集包括多于一个的可识别解释,则可以执行下面 的附加步骤从该集中选择一个解释作为最佳的解释;利用该查询 的最佳解释来识别与最佳解释有关的来自数据库的相关结果;通过 排除与最佳解释相关联的结果来对该集的其余解释进行重新消歧; 从其余解释中选4奪下一个最佳解释;以及利用该查询的下一个最佳 解释来识别与下一个最佳解释有关的来自数据库的相关结果。又一个方面,本专利技术提供了处理指向凄t据库的查询的方法,该方法包纟舌以下步骤——获得来自用户的查询;——4吏用知识库^"该查询进4亍消歧以获4寻用于一个或多个字的 一个含义集;——基于该含义集获得该查询的一个解释集;——向用户呈J见该解释集;——从用户获得从该解释集中选择的解释;以及——识别与所选4奪的解释有关的来自数据库的相关结果。又一个方面,本专利技术提供了用于处理指向信息库的查询的系统, 该系统包括一一用于获得来自用户的查询的装置;--包4舌知识库的凄t据库;——消歧模块,用于使用知识库对查询进行消歧以提供用于一 个或多个字的一个含义集并纟是供该查询的 一个解释集;——用于向用户呈现一个解释集的装置;——用于从用户获得从该解释集中选择的解释的装置;——用于利用选择的解释来/人#:据库识别相关结果的处理器;——用于向用户呈现结果的装置。附图说明从下面对仅以实例方式示出本专利技术原理的附图和本专利技术具体实 施例的说明,本专利技术的前述和其他方面将变得显而易见。在附图中, 相同的参考标号表示相同的元件(并且其中单独的元件具有唯一的字母顺序下标)图1是提供与本专利技术的一个实施例相关联的字义消歧的信息检 索系统的示意性表示;图2是与图1中的系统相关联的字和字义的示意性表示;图3A是用于图1中的系统的典型语义关系或字的示意性表示;图3B是对于图1的系统用来表示图3A的语义关系的数据结构 的示图4是如由图1的系统^使用图2的字义和图3A的i吾义关系执 4亍的方法的流禾呈图5是将如由图1的系统提供的字义消歧应用到查询处理的方 法的流程图6是将如由图1的系统^是供的字义消歧应用到查询处理的另 一个方法的;危禾呈图7是将如由图1的系统^是供的个性化应用到查询处理的方法 的流程图8是包含个性化信息的数据库的示意性表示;图9是^1夺如由图1的系统才是供的个性4匕应用到查询处理的方法 的流程图。具体实施例方式以本专利技术原理的具体实施例的一个或多个实例的方式,提供了 本文中描述的实施例和以下说明。提供的这些实例用于对本专利技术的 这些原理进行解释而不是限制的目的。在下面的说明中,在说明书 全文和附图中用相同的相应参考标号标记相同的部件。将在下面的"i兌明中〗吏用下面的术语,并且具有下面所示的含义计算才几可读存储^h质用于存储用于计算机的指令或数据的硬 件。例如,,兹盘、;兹带、i者如CD ROM的光可读介质、以及诸如 PCMCIA卡的半导体存储器。在每一种情况下,介质可以釆用诸如 小磁盘、软磁盘、盒式磁带的便携式部件的形式,或可以采用诸如 硬盘驱动器、固态存储器卡或RAM的相对较大或不能移动的部件 的形式。信息包含用户感兴趣的可搜索内容的文档、网页、电子邮件、 图像说明、抄本、存储的文本等,例如,与新闻文章、新闻组信息、 网页日志等有关的内容。模块执行特定步骤和/或处理的软件或硬件组件,可以在通用 处理器上运行的软件中实现。自然语言旨在被人理解而不是被机器或计算机理解的字的表述。网络设备的交互系统,配置为使用特定协议在通信信道上进 行通信。其可以是在通信线路上或通过无线传输操作的局域网、广 i或网、因4争网等。查询表示期望搜索结果的关键字的列表,可以利用布尔运算 符(例如"和"、"或,,),可以以自然语言表示。查询可以包才舌一个 或多个本文档来自技高网
...

【技术保护点】
一种处理指向数据库的查询的方法,所述查询包括一个或多个字,所述方法包括以下步骤: 获得来自用户的所述查询; 使用知识库对所述查询进行消歧,以获得用于所述一个或多个字的一个含义集; 基于所述含义集获得所述查询的一个解释集;   向所述用户呈现所述解释集; 从所述用户获得来自所述解释集的所选择的解释; 识别来自所述数据库的与所述选择的解释有关的相关结果;以及 将所述相关结果呈现给所述用户。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:马修科来奇马克卡里尔
申请(专利权)人:阿迪利亚公司
类型:发明
国别省市:CA[加拿大]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1