当前位置: 首页 > 专利查询>微软公司专利>正文

利用文本的语义表示进行信息检索制造技术

技术编号:2886959 阅读:194 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及利用文本的语义表达进行信息检索。在一种优选实施例中,记号化器从输入字符串生成表征该输入字符串中所表达的语义关系的信息检索记号。记号化器首先从输入字符串建立表征输入字符串中的选定词之间的语义关系的原逻辑形式。接着记号化器确定和输入字符串中选定词之一具有“isa(是)”关系的超属词。然后记号化器从原逻辑形式构造一个或多个替代逻辑形式。通过为输入字符串中的一个或多个选定词中的每个选定词用为该选定词确定的某超属词代替原逻辑形式中的该选词,记号化器构造各替代逻辑形式。最后,记号化器生成代表原逻辑形式和替代逻辑形式的记号。最好使用记号化器生成记号,以便既用于构造代表目标文档的索引又用于对照索引处理查询。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及信息检索领域,并且更具体地涉及信息检索记号化领域。信息检索指的是确定目标文档中出现查询或查询文档中的词的过程。信息检索可以被有益地应用于几种情况中,包括处理用户的明确搜索查询,确定和某特定文档相关的文档,判断两份文档的类似性,提取某文档的特征以及概述某文档。信息检索典型地包括两阶段过程(1)在编索引阶段,最初通过(a)把文档中的每个词转化成信息检索引擎可理解、可区分的一串字符,称之为“记号”(即 文档的记号化)以及(b)建立各记号到该记号在该文档中出现位置的索引,对文档编索引。(2)在查询阶段中,相似地对查询(或查询文档)进行记号化,并和索引进行比较以确定文档中出现记号化后的查询中的记号的位置。附图说明图1是描述信息检索过程的概述数据流图。在编索引阶段,把目标文档111提供给记号化器112。目标文档是由一些字符串,例如一些句子,组成的,每个字符串出现在目标文档的某特定位置上。将目标文档中的各字符串以及词的位置传送到记号化器120,记号化器120把各字符串中的词转换成一系列可由信息检索引擎130理解及区分的记号。信息检索引擎130的索引建立部分131把这些记号以及它们的位置添加到索引140中。该索引把每个唯一的记号映射到该目标文档中出现该记号的位置。若需要,可以重复该过程,以便把一些不同的目标文档添加到该索引中。若索引140表示一些目标文档中的文本,则位置信息最好包含各位置对应的文档的标记。在查询阶段,把文本查询112提供给记号化器120。查询可能是单个字符串或一个句子,或者可能是由一些字符串组成的完整文档。记号化器120按它把目标文档中的词转换成记号的相同方式把查询112的文本中的词转换成记号。记号化器120把这些记号传送到信息检索引擎130的索引检索部分132。信息检索引擎的索引检索部分在索引140中搜索这些记号在目标文档中的出现。对于每个记号,信息检索引擎的索引检索部分确定目标文档中出现该记号的各个位置。作为查询结果113返回位置表。常规记号化器典型地包括输入文本的外表变换,例如把每个大写字符变成小写、确定输入文本中的每个词并且去掉词的后缀。例如,常规记号化器可能把输入的文本字符串The father is holding the baby。(该 父亲 正抱着 该 婴儿。)转换成下述记号the(该)father (父亲)is (是)hold (抱)the(该)baby (婴儿)这种记号化方法趋向于使依据它的搜索过分地包含出现这样的词,即其含意是和查询文本中的预定含意不同的。例如,该示例输入文本字符串使用“to support or grasp(支持或抓住)”含意下的动词“hold”。但是,记号“hold”可能会和其含意是“the cargo area of a ship(船的装货区”)的词“hold”匹配。这种记号化方法还趋向于过分包含这样的情况,即其中词之间的关系和查询文本中各词之间的关系不同。例如,在上述示例输入文本字符串中,“father”是词“hold”的主语而“baby”是宾语,该示例的字符串可能和句子“The father and the baby held the toy”匹配,在该句中,“baby”是主语而不是宾语。该方法还会过少地包括出现这样的情况,即采用不同的但在语义上相关的词来代替查询文本中的某个词。例如,上述的输入文本字符串可能不和文本字符串“The parent isholding the baby”匹配。出于常规记号化方法的这些缺点,一种编有记号化文本中隐含的语义关系的记号化器应该是非常实用的。本专利技术目的是利用一种改进的记号化器进行信息检索,该改进的记号化器分析输入文本以确定逻辑形式,接着利用超属词扩展逻辑形式。当和常规信息检索索引结构以及查询一起使用时,本专利技术减少标识出现不同的含意以及标识出现词之间带有不同的关系的次数,并且增加标识出现使用不同的但在语义上相关的用语的次数。通过对已编索引的文本和查询文本进行语法分析以对该输入文本进行词法、语法和语义分析,本专利技术克服了和常规记号化过程相关的问题。该分析过程产生一个或多个逻辑形式,它们标识查询文本中起主要作用的词以及它们预定的含意,并且还进而确定这些词之间的关系。该语法分析程序最好产生和输入文本的深主语、动词和深宾语相关的逻辑形式。例如,对于输入文本“The father is holding the baby”,语法分析程序可能生成下述逻辑形式深主语动词深宾语fatherhold baby语法分析程序还将该输入文本中采用的特定含意归入这些词。利用数字词典或辞典(也称为语言知识库)为某词的某特定含义确定和该词的该含义为通用术语的其它词的含义(“超属词”),本专利技术把语法分析程序生成的逻辑形式中的词改变成它们的超属词以创造附加的逻辑形式,这些附加的逻辑形式所具有的总含义和原始逻辑形式的含义相接近。例如,根据词库中的指示,“parent”的一种含意是“father”的所属含意的超属词,“touch”的一种含意是“hold”的所属含意的超属词,“child”的一种含意以及“person”的一种含意是“baby”的所属含意的超属词,本专利技术可建立如下的附加逻辑形式深主语动词深宾语parenthold babyfathertouchbabyparenttouchbabyfatherhold childparenthold childfathertouchchildparent touchchildfather hold personparent hold personfather touchpersonparent touchperson然后,本专利技术把所有生成的逻辑形式变换成可由信息检索系统理解的记号,该系统把记号化后的查询和索引进行比较,并且提供给该信息检索系统。图1是信息检索过程的概述数据流图。图2是最好在其上运行本工具的通用计算机系统的高级框图。图3是一个概述流程图,表示最好由本工具执行的各步骤以便构造和访问语义上代表目标文档的索引。图4是一个流程图,表示由本工具使用的用以生成输入句子的各记号的记号化例程。图5是一个逻辑形式图,表示示例的逻辑形式。图6是一个输入文本图,表示输入文本片断,本工具为这些片断构造图5中示出的逻辑形式。图7A是一个语言知识库图,表示由语言知识库确定的示例性超属词关系。图7B是一个语言知识库图,表示为原逻辑形式的深主语man(含意2)选择超属词。图8是一个语言知识库图,表示为原逻辑形式的动词kiss(含意1)选择超属词。图9和10是语言知识库图,表示为原逻辑形式的深宾语pig(含意2)选择超属词。图11表示扩展逻辑形式的逻辑形式。图12表示通过置换扩展的原逻辑形式建立派生的逻辑形式。图13是一个索引图,表示索引内容的例子。图14是一个逻辑形式图,表示本工具为查询“man kissing horse”优选构造的逻辑形式。图15表示利用超属词扩充原逻辑形式。图16是一个语言知识库图,表示选择查询逻辑形式的深宾词horse(含意1)的超属词。图17是部分逻辑形式图,表示和一个只包含深主语和动词的部分查询对应的部分逻辑形式。图18是部分逻辑形式图,表示和本文档来自技高网...

【技术保护点】
计算机系统中一种用于从输入字符串生成信息检索记号的方法,该方法包括步骤:从输入字符串建立表征该输入字符串中选定的词之间的语义关系的原逻辑形式;确定该输入字符串中各选定词的超属词;从该原逻辑形式构造一个或多个替代的逻辑形式,通过为 该输入字符串中的一个或多个选定词中的每个词用对该选定词确定的超属词代替原逻辑形式中的该选定词,构造每个替代的逻辑形式;以及生成代表原逻辑形式以及替代逻辑形式的记号,所生成的记号可由信息检索引擎区分。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:约翰J麦瑟利乔治E海德恩斯蒂芬D理查德森威廉B杜兰卡轮杰森
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1