【技术实现步骤摘要】
本专利技术涉及适合从电子化的庞大的文档信息之中,利用全文检索技术快速检索符合指定的检索条件的文档的。
技术介绍
从电子化的庞大的文档信息之中,检索符合指定的检索条件的文档的检索系统,以前已经开发很多种。作为在这种检索系统中应用的文档检索的代表性的检索方法,公知的有基于N-gram(N连字串)索引的检索方法、或者基于词素(morpheme)索引的检索方法。基于N-gram索引的检索方法,用于全文检索中。另一方面,基于词素索引的检索方法用于自然语言检索(概念检索)中。这些检索方法的概要如下。<基于N-gram索引的检索方法> 构成文档的字符串,在将字符位置每1个字符错开的同时分割(划分)为长度N的字符串(字串(gram))。结果,在文档中出现的全部字符,作为长度N的连续字符串(字串)登记到索引。N的值可预先确定。在检索时也一样,作为检索条件的检索字符串(检索词),分割为长度N的字符串(字串)的群。于是,可以利用下述的步骤,通过从索引得到相同字符串出现的信息而进行检索。在基于N-gram索引的检索(N-gram检索)中,首先进行一次检索。在此一次检索中,只以有无与由检索词所分割的长度N的字符串符合的字符串(即有无命中(hit))来选出候选文档。之后进行二次检索。在此二次检索中,通过检查各词的相邻关系,从选出的候选文档中选中包括检索词的文档。这样,在基于N-gram索引的检索中,通过一次检索和二次检索两个阶段的检索,可以实现无漏检的全文检索。已知,为了提高一次检索的检索精度,可以加大N-gram的N的值。然而,由于加大N的值时,索 ...
【技术保护点】
一种全文检索系统,其包括: 利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索,执行基于N-gram索引的检索的第1检索单元;对上述检索条件语句进行词素分析的词素分析单元;以及按照利用上述词素分析单元所得到的词素分析结果,执行基于词素索引的词素检索的第2检索单元; 上述全文检索系统的特征在于,具有: 判定作为上述基于N-gram索引的一次检索的命中数的第1命中数和作为上述基于词素索引的词素检索的命中数的第2命中数的近似度的近似度判定单元;以及 在利用上述近似度判定单元判定为上述第1命中数和上述第2命中数近似时,以省略上述基于N-gram索引的二次检索的方式,控制上述第1检索单元,采用上述一次检索的结果或上述词素检索的结果作为检索结果的全文检索执行控制单元。
【技术特征摘要】
JP 2004-9-29 284673/20041.一种全文检索系统,其包括利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索,执行基于N-gram索引的检索的第1检索单元;对上述检索条件语句进行词素分析的词素分析单元;以及按照利用上述词素分析单元所得到的词素分析结果,执行基于词素索引的词素检索的第2检索单元;上述全文检索系统的特征在于,具有判定作为上述基于N-gram索引的一次检索的命中数的第1命中数和作为上述基于词素索引的词素检索的命中数的第2命中数的近似度的近似度判定单元;以及在利用上述近似度判定单元判定为上述第1命中数和上述第2命中数近似时,以省略上述基于N-gram索引的二次检索的方式,控制上述第1检索单元,采用上述一次检索的结果或上述词素检索的结果作为检索结果的全文检索执行控制单元。2.如权利要求1所述的全文检索系统,其特征在于还具有,根据利用上述词素分析单元所得到的词素分析结果,判定是否可以将上述检索条件语句分割为可以进行词素检索的单词的词素分析结果判定单元;上述全文检索执行控制单元,在由上述词素分析结果判定单元判定为可以将上述检索条件语句分割为可以进行词素检索的单词时,以执行基于上述词素索引的词素检索的方式,控制上述第2检索单元。3.如权利要求1所述的全文检索系统,其特征在于上述全文检索执行控制单元,根据由上述词素分析单元的分析结果所示出的作为分割后的单词数的分割单词数,确定采用上述一次检索的结果或上述词素检索的结果中的哪一个作为检索结果。4.如权利要求3所述的全文检索系统,其特征在于上述全文检索执行控制单元,在上述分割单词数超过作为基准的最小单词数时,采用上述一次检索的结果作为检索结果;在上述分割单词数小于等于上述最小单词数时,采用上述词素检索的结果作为检索结果。5.如权利要求4所述的全文检索系统,其特征在于,还具备用于可由用户指定上述最小单词数的用户界面。6.如权利要求4所述的全文检索系统,其特征在于上述全文检索执行控制单元,在上述分割单词数超过比上述最小单词数多的基准单词数时,以执行上述基于N-gram索引的二次检索的方式,控制上述第1检索单元,采用上述二次检索的结果作为检索结果。7.如权利要求1所述的全文检索系统,其特征在于还具备,通过比较上述第1命中数与基准的命中数来判定上述一次检索的命中数是多或是少的一次检索结果数判定单元;上述全文检索执行控制单元,在利用上述一次检索结果数判定单元判定为上述第1命中数少时,以执行上述基于N-gram索引的二次检索的方式控制上述第1检索单元,采用上述二次检索的结果作为检索结果。8.如权利要求7所述的全文检索系统,其特征在于,还具备用于可由用户指定上述基准的命中数的用户界面。9.如权利要求1所述的全文检索系...
【专利技术属性】
技术研发人员:高知尾胜彦,笹气光一,加藤阳二,
申请(专利权)人:株式会社东芝,东芝解决方案株式会社,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。