一种基于语义索引的检索方法技术

技术编号:6994851 阅读:317 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于语义索引的检索方法,包括下列步骤:10)提取用户请求的候选动宾结构并进行筛选,获得合法动宾结构;20)匹配所述合法动宾结构和文档的动宾结构,其中所述文档的动宾结构是对文档进行提取并筛选所获得。上述检索方法,更精确地理解了用户的目的,有效提高了检索的查准率。

【技术实现步骤摘要】

本专利技术涉及数据检索领域,更具体地,涉及一种基于语义索引的数据检索方法。
技术介绍
基于计算机系统的文档搜索处理器(即搜索引擎)已广泛地用于对互联网上的文 档执行关键词搜索。用关键词在网络上进行搜索,固然会给用户提供很大帮助,具备较高的价值,但该 方法本身也存在着一个先天的不足,以至于在很大程度上影响着这种价值的发挥。具体地 说,由于网络上的可用信息是海量的,而关键词搜索仅仅依据关键词匹配就将所得到的结 果提交给了用户,以至于产生了大量的下载信息,这其中的绝大多数是与用户所想要的信 息无关的或不重要的。基于关键词检索方法所存在的问题在科学
也广泛地存在。随着越来越多 的研究机构、大学、图书馆、专利部门以及其他可供网络访问的技术和科学信息的增加,该 问题显得尤为严峻。科研人员被太多的报章、专利以及关于他们所感兴趣的主题的一般性 信息所淹没。与之形成巨大的反差的是,在实际查询中,用户所需要的仅仅是和某一特定请求 相关的若干篇文章。面对上述查准率较低的情况,用户在检查检索结果以确定其与用户查 询的相关性时目前只有两个选择——一种选择是读取摘要,另一种是浏览全文以确定是否 保存或打印出该检索到的文章。而实际上,由于很多摘要并不全面,所以其常常不能反映出 用户真正感兴趣的特定主题或以不全面的方式论述该主题。因此,浏览摘要可能几乎没有 价值。而浏览全文则需要用户花费过多的时间。目前已有多种尝试,试图提高搜索的查准率,但这些方法仅仅依赖于基于关键词 的变化或所谓短语理解的各种技术进行的关键词或短语搜索,其仍然需要用户耗费太多的 精力和时间来确定真正需要的文档
技术实现思路
本专利技术的目的在于提供一种查准率较高的基于语义索引的检索方法。为实现上述目的,根据本专利技术的一个方面,提供了, 包括下列步骤10)提取用户请求的候选动宾结构并进行筛选,获得合法动宾结构;20)匹配所述合法动宾结构和文档的动宾结构,其中所述文档的动宾结构是对文 档进行提取并筛选所获得。在上述方法中,所述筛选进一步包括下列步骤100)采用动宾结构实例匹配进行所述候选动宾结构的筛选。在上述方法中,所述筛选进一步包括下列步骤101)采用动宾结构语义匹配进行所述候选动宾结构的筛选。在上述方法中,所述步骤101)中所说动宾结构语义匹配进一步包括下列步骤将待筛选的动宾结构表示为具体动词Wl和具体名词W2 ;利用搭配知识词典的动宾搭配实例,选取能够和所述具体名词W2搭配的动词概 念 VC2 ;利用语义限制词典的动词概念关系,获得所述具体动词Wl的动词概念VCl ;将所述动词概念VCl和所述动词概念VC2相匹配。在上述方法中,所述提取进一步包括下列步骤分词和词性标注;进行动词短语、名词短语的句法分析。在上述方法中,所述步骤10)后还包括11)将所述合法动宾结构进行同义扩展,生成查询表达式;所述步骤20)还包括201)匹配所述查询表达式和所述文档的动宾结构。在上述方法中,所述步骤201)后还包括步骤202)对于所述文档的动宾结构与所述合法动宾结构相同的情况,则所述文档在检 索结果中居前,对于所述文档的动宾结构与所述查询表达式相同的情况,则所述文档在所 述检索结果中居后。在上述方法中,对于所述合法动宾结构为多个的情况,所述步骤202)中居后的文 档根据下述规则排序对于所述合法动宾结构的查询表达式的个数最少的,将所述居后的文档居于所述 检索结果中的最后。本专利技术的技术效果在于根据本专利技术的检索方法,对用户输入的问句进行预处理后 执行问题识别,更精确地理解问句,提高了检索的查准率;进一步地,还可以对识别的问题 进行查询扩展,从而提高检索的查全率。附图说明图1是根据本专利技术优选实施例的基于语义索引的检索方法的流程图;图2是根据本专利技术优选实施例的提取候选动宾结构并进行筛选的流程图;图3是根据本专利技术优选实施例的动宾结构语义匹配的流程图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发 明实施例的基于语义索引的检索方法进一步详细说明。应当理解,此处所描述的具体实施 例仅仅用以解释本专利技术,并不用于限定本专利技术。根据本专利技术的优选实施例,该方法开始于与用户希望获取的文档概念相关的自然 语言文本的用户请求,例如一个自然语言问句。解析该用户请求,以识别和存储用户请求中 的动词及其宾语所构成的候选动宾结构对用户请求进行中文分词、词性标记;一旦该请 求中的所有词都被标记,则执行语义分析,在一个示例中,该语义分析包括识别用户请求中 的动词短语,然后识别用户请求中的名词短语。对此候选动宾结构进行筛选,获得合法动宾结构。采用该合法动宾结构及其同义扩展作为查询表达式来搜索。对文档集合也提取动宾 结构并据此建立文档语义索引,通过将查询表达式与文档语义索引进行匹配,并对匹配成 功的文档加以排序,使得只有满足查询表达式的少量文档返回给用户。图1示出了根据本专利技术的优选实施例的检索方法的流程图,如其所示,本专利技术的 检索方法包括下列步骤步骤10,首先提取用户请求的候选动宾结构并进行筛选,获得合法动宾结构,也即 问题识别,该合法动宾结构有效表示了用户请求的意图。图2示出了该步骤10的详细流程, 该过程将在后面详细描述。步骤11,将上述步骤10所提取的用户请求的合法动宾结构进行同义扩展,生成查 询表达式。同义扩展可以利用同义动宾结构数据库,该数据库集中了同义的动宾结构的实 例,例如“加热(动词)一水(宾语)”的同义组合可以是“提高(动词)一水温(宾语)”等, 该数据库中的每一条记录均按照动作-宾语格式存储,具有相同含义的动宾结构被赋以相 同的标识符(ID)。将所提取的动宾结构与该数据库中记录进行匹配,若数据库中存在与之 相同的记录,则依据该记录的ID执行同义扩展。由此,生成代表用户请求的查询表达式。步骤12,与对用户请求提取动宾结构类似,对文档集合中的文档进行动宾结构提 取和筛选。步骤13,存储步骤12所提取的动宾结构作为文档语义索引。步骤14,匹配用户请求的合法动宾结构和步骤11所生成的查询表达式二者与文 档语义索引,获取匹配成功的文档构成匹配文档集合。步骤15,对步骤14获得的匹配文档集合中的匹配文档执行结果排序。更具体地, 若匹配文档的语义索引与用户请求的动宾结构完全相同,则该匹配文档排序居前,若匹配 文档的语义索引与步骤11所生成的查询表达式相同,则该匹配文档排序靠后。更优选地, 对于可能出现的用户请求的合法动宾结构不唯一的情况,按照其查询表达式的个数对靠后 的文档加以排序,即设若用户请求为S,经提取得到动宾结构A和B,动宾结构A经过同义 扩展,得到Na篇文档,而动宾结构B经过同义扩展,得到Nb篇文档,若Nb > Na,则排序时将 Nb篇文档置于Na篇文档前。图2示出了根据本专利技术优选实施例的提取候选动宾结构并进行筛选的流程图。下 面将根据图2详细描述该过程步骤20,对用户请求执行分词和词性标注,即词法分析,将用户请求切分成若干词 语构成的词串,并对各个词语标示词性。分词和词性标注属于常用技术,例如可以采用正向 最大匹配分词算法进行分词,采用863词性标注集进行词性标注,此处不详细说明。例如, 用户请求为“如何去除食用油中的游离脂肪酸? ”,经过词法分析得到如本文档来自技高网
...

【技术保护点】
1.一种基于语义索引的检索方法,包括下列步骤:10)提取用户请求的候选动宾结构并进行筛选,获得合法动宾结构;20)匹配所述合法动宾结构和文档的动宾结构,其中所述文档的动宾结构是对文档进行提取并筛选所获得。

【技术特征摘要】

【专利技术属性】
技术研发人员:高建忠赵琦王永刚范祝满
申请(专利权)人:安世亚太科技北京有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1