全文检索系统及方法技术方案

技术编号:2854379 阅读:235 留言:0更新日期:2012-04-11 18:40
第1检索单元(13)利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索执行基于N-gram索引(14)的检索。词素分析单元(15)对上述检索条件语句进行词素分析。第2检索单元(16)按照词素分析单元(15)的词素分析结果执行基于词素索引(17)的词素检索。近似度判定单元(183)判定上述基于N-gram索引的一次检索的命中数的第1命中数和上述基于词素索引的词素检索的命中数的第2命中数的近似度。全文检索执行控制单元(18),在上述第1命中数和上述第2命中数近似时,省略上述基于N-gram索引的二次检索地控制第1检索单元(13),采用上述一次检索的结果或上述词素检索的结果作为检索结果。

【技术实现步骤摘要】

本专利技术涉及适合从电子化的庞大的文档信息之中,利用全文检索技术快速检索符合指定的检索条件的文档的。
技术介绍
从电子化的庞大的文档信息之中,检索符合指定的检索条件的文档的检索系统,以前已经开发很多种。作为在这种检索系统中应用的文档检索的代表性的检索方法,公知的有基于N-gram(N连字串)索引的检索方法、或者基于词素(morpheme)索引的检索方法。基于N-gram索引的检索方法,用于全文检索中。另一方面,基于词素索引的检索方法用于自然语言检索(概念检索)中。这些检索方法的概要如下。<基于N-gram索引的检索方法> 构成文档的字符串,在将字符位置每1个字符错开的同时分割(划分)为长度N的字符串(字串(gram))。结果,在文档中出现的全部字符,作为长度N的连续字符串(字串)登记到索引。N的值可预先确定。在检索时也一样,作为检索条件的检索字符串(检索词),分割为长度N的字符串(字串)的群。于是,可以利用下述的步骤,通过从索引得到相同字符串出现的信息而进行检索。在基于N-gram索引的检索(N-gram检索)中,首先进行一次检索。在此一次检索中,只以有无与由检索词所分割的长度N的字符串符合的字符串(即有无命中(hit))来选出候选文档。之后进行二次检索。在此二次检索中,通过检查各词的相邻关系,从选出的候选文档中选中包括检索词的文档。这样,在基于N-gram索引的检索中,通过一次检索和二次检索两个阶段的检索,可以实现无漏检的全文检索。已知,为了提高一次检索的检索精度,可以加大N-gram的N的值。然而,由于加大N的值时,索引的规模会变得极大,检索有可能需要大量时间。另一方面,在减小N的值时,检索干扰增加,检索精度下降。由于二次检索是以命中的全部文档作为对象,所以命中数越多(与实际干扰的多少无关),效率越低。<基于词素索引的检索方法> 通过对文档的分析,从该文档中,在具有意义的最小语言单位(词素)的范围内,提取应该加索引的词素(单词)。对提取的每个词素分配文档信息。分配了此文档信息的词素,登记到索引。在检索时也一样,将检索词分割为词素。于是,可以利用下述的步骤,通过从索引得到与相同词素符合的文档信息而进行检索。在基于词素索引的检索(词素检索)中,索引的容量很小就足够,并且可进行快速检索。其理由是与N-gram不同,在各个词素之间没有重复的部分。但是,在作为检索对象的文档和检索词之间词素不一致时,会发生漏检。这样,在基于N-gram索引的检索中,无漏检,并且一次检索速度快。然而,在基于N-gram索引的检索中,用来去除干扰的二次检索的速度慢。另一方面,在基于词素索引的检索中,可以进行快速检索,但有可能发生漏检。就是说,在全文检索中使用的基于N-gram索引的检索方法和在自然语言检索中使用的基于词素索引的检索方法各有长短。于是,比如,在日本特开2001-092831号公报(Jpn.Pat.Appln.KOKAIPublication No.2001-092831)中记述有发挥全文检索和自然语言检索的长处,用来实现漏检少的文档检索的文档检索技术(以下称其为第1先行技术)。此第1先行技术的特征在于,执行全文检索和自然语言检索两种检索并将两种检索的结果汇总(结合)这一点。在此第1先行技术中,从全文检索的检索结果中,利用自然语言检索选中检索结果。另外,在第1先行技术中,与此相反,也可以从利用自然语言检索(粗略的自然语言检索)得到的检索结果中,利用全文检索选中检索结果。在此场合,可从利用自然语言检索得到的检索结果中检索包括指定文本的文档。这样,第1先行技术的特征在于,将全文检索和自然语言检索作为各自独立的检索处理并将两种检索的结果汇总这一点。就是说,在第1先行技术中,从利用全文检索及自然语言检索的任一方所得到的检索结果中,通过该全文检索及自然语言检索的另一方,选中检索结果。因此,在第1先行技术中,必须执行全文检索和自然语言检索。不过,全文检索与自然语言检索相比,其速度慢。因此,在将基于N-gram索引的检索方法应用于全文检索时,该全文检索需要基于N-gram索引的总计的检索执行时间(一次检索时间+二次检索时间)。就是说,第1先行技术,不具有用来消除全文检索的缺点使该全文检索本身快速化的结构。因此,第1先行技术在检索命中数多的场合就出现问题。另一方面,在日本特开2003-308335号公报(Jpn.Pat.Appln.KOKAIPublication No.2003-308335)中记述有,相应于作为检索条件的检索式,使用基于N-gram索引的全文检索或基于词素索引的检索中的一个的文档检索技术(以下称其为第2先行技术)。在此第2先行技术中,预先评定(判定)检索式是关键词型还是“自然语言型(概念检索)”。如果检索式是关键词型,就进行全文检索,如果是自然语言型,就进行基于词素索引的检索。在此第2先行技术中,在判定检索式是关键词型的场合,检索处理需要基于N-gram索引的总计的检索执行时间(一次检索的执行时间+二次检索的执行时间)。所以,在第2先行技术中也与第1先行技术一样,不能有助于全文检索本身快速化。如上所述,在第1先行技术中,必定执行全文检索。并且,在第2先行技术中,在检索式是关键词型时也执行基于N-gram索引的全文检索。这一基于N-gram索引的全文检索需要大量的时间。可是,第1及第2先行技术中的任何一个都不具有用来使全文检索本身快速化的结构。
技术实现思路
本专利技术的目的在于在一定程度上确保检索精度,并可以快速执行全文检索。根据本专利技术的一种实施方式,可以提供一种全文检索系统,其构成包括利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索,执行基于N-gram索引的检索的第1检索单元;对上述检索条件语句进行词素分析的词素分析单元;以及按照利用上述词素分析单元所得到的词素分析结果,执行基于词素索引的词素检索的第2检索单元。此全文检索系统具有判定作为上述基于N-gram索引的一次检索的命中数的第1命中数和作为上述基于词素索引的词素检索的命中数的第2命中数的近似度的近似度判定单元;以及在利用上述近似度判定单元判定为上述第1命中数和上述第2命中数近似时,以省略上述基于N-gram索引的二次检索的方式控制上述第1检索单元,采用上述一次检索的结果或上述词素检索的结果作为检索结果的全文检索执行控制单元。附图说明图1为示出本专利技术的一实施方式的全文检索系统的构成的框图。图2为示出同一实施方式的快速检索处理的步骤的流程图。图3为示出检索界面画面的一例的示图。图4为示出检索结果画面的一例的示图。图5为示出上述实施方式的第1变形例的快速检索处理的步骤的流程图。图6为示出上述实施方式的第2变形例的快速检索处理的步骤的流程图。具体实施例方式下面参照附图对本专利技术的一实施方式进行说明。图1为示出本专利技术的一实施方式的全文检索系统的构成的框图。此全文检索系统,是根据来自用户的检索要求,进行基于N-gram索引的检索(即全文检索)及基于词素索引的检索(即自然语言检索)的系统。其中,在图1的全文检索系统中,在满足一定的条件的场合,全文检索的一部分(基于N-gram索引的二次检索本文档来自技高网
...

【技术保护点】
一种全文检索系统,其包括:    利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索,执行基于N-gram索引的检索的第1检索单元;对上述检索条件语句进行词素分析的词素分析单元;以及按照利用上述词素分析单元所得到的词素分析结果,执行基于词素索引的词素检索的第2检索单元;    上述全文检索系统的特征在于,具有:    判定作为上述基于N-gram索引的一次检索的命中数的第1命中数和作为上述基于词素索引的词素检索的命中数的第2命中数的近似度的近似度判定单元;以及    在利用上述近似度判定单元判定为上述第1命中数和上述第2命中数近似时,以省略上述基于N-gram索引的二次检索的方式,控制上述第1检索单元,采用上述一次检索的结果或上述词素检索的结果作为检索结果的全文检索执行控制单元。

【技术特征摘要】
JP 2004-9-29 284673/20041.一种全文检索系统,其包括利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索,执行基于N-gram索引的检索的第1检索单元;对上述检索条件语句进行词素分析的词素分析单元;以及按照利用上述词素分析单元所得到的词素分析结果,执行基于词素索引的词素检索的第2检索单元;上述全文检索系统的特征在于,具有判定作为上述基于N-gram索引的一次检索的命中数的第1命中数和作为上述基于词素索引的词素检索的命中数的第2命中数的近似度的近似度判定单元;以及在利用上述近似度判定单元判定为上述第1命中数和上述第2命中数近似时,以省略上述基于N-gram索引的二次检索的方式,控制上述第1检索单元,采用上述一次检索的结果或上述词素检索的结果作为检索结果的全文检索执行控制单元。2.如权利要求1所述的全文检索系统,其特征在于还具有,根据利用上述词素分析单元所得到的词素分析结果,判定是否可以将上述检索条件语句分割为可以进行词素检索的单词的词素分析结果判定单元;上述全文检索执行控制单元,在由上述词素分析结果判定单元判定为可以将上述检索条件语句分割为可以进行词素检索的单词时,以执行基于上述词素索引的词素检索的方式,控制上述第2检索单元。3.如权利要求1所述的全文检索系统,其特征在于上述全文检索执行控制单元,根据由上述词素分析单元的分析结果所示出的作为分割后的单词数的分割单词数,确定采用上述一次检索的结果或上述词素检索的结果中的哪一个作为检索结果。4.如权利要求3所述的全文检索系统,其特征在于上述全文检索执行控制单元,在上述分割单词数超过作为基准的最小单词数时,采用上述一次检索的结果作为检索结果;在上述分割单词数小于等于上述最小单词数时,采用上述词素检索的结果作为检索结果。5.如权利要求4所述的全文检索系统,其特征在于,还具备用于可由用户指定上述最小单词数的用户界面。6.如权利要求4所述的全文检索系统,其特征在于上述全文检索执行控制单元,在上述分割单词数超过比上述最小单词数多的基准单词数时,以执行上述基于N-gram索引的二次检索的方式,控制上述第1检索单元,采用上述二次检索的结果作为检索结果。7.如权利要求1所述的全文检索系统,其特征在于还具备,通过比较上述第1命中数与基准的命中数来判定上述一次检索的命中数是多或是少的一次检索结果数判定单元;上述全文检索执行控制单元,在利用上述一次检索结果数判定单元判定为上述第1命中数少时,以执行上述基于N-gram索引的二次检索的方式控制上述第1检索单元,采用上述二次检索的结果作为检索结果。8.如权利要求7所述的全文检索系统,其特征在于,还具备用于可由用户指定上述基准的命中数的用户界面。9.如权利要求1所述的全文检索系...

【专利技术属性】
技术研发人员:高知尾胜彦笹气光一加藤阳二
申请(专利权)人:株式会社东芝东芝解决方案株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1