本发明专利技术涉及信息生成程序、装置、方法以及信息检索程序、装置、方法,执行(A)从对象文件组(F)的合计,(B)以出现频率的降序的排序,(C)到目标出现率的次序为止的提取,(D)映射生成,这样的4个阶段。(A1)首先,信息生成装置读取对象文件组(F),对基础单词的出现频率进行计数。(B1)若在对象文件组F中基础单词的合计结束,则信息生成装置将基础单词出现频率表(101)以出现频率的降序排序。即,按出现频率从高到低的顺序排列,从出现频率最高的基础单词开始定序。(C1)接下来,信息生成装置参照(B1)排序后的基础单词出现频率表(101),提取到目标出现率Pw为止的次序的基础单词。(D1)最后,信息生成装置对于特定基础单词群生成特定基础单词出现映射(M1)。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及生成表示字符或基础单词的有无的索引信息,使用索引信息进行检索 的信息生成程序、信息检索程序、信息生成装置、信息检索装置、信息生成方法,以及信息检索方法。
技术介绍
已知ー种高速生成所谓字符成分表的全文检索索引的位图型的全文检索技术(例如,參照下述专利文献I 3。)。以往的位图型的全文检索技术中,由于不进行词素解析,所以能够高速生成,能够压缩位图。一般的国语词典中,有约24万项目的记录,以约6000 8000字符记述,单一字符的位图也有约6000 8000。专利文献I :日本特开平I 一 181329号公报专利文献2 日本特开平3 — 174652号公报专利文献3 日本特开平5 — 174064号公报
技术实现思路
然而,在上述的以往技术中,存在如下问题包含于各项目(记录)的假名、片假名和英文字符的出现频率高,在单一字符的位图中,锁定对象项目的效率低。另外,若追加2连接字符串的位图,则尺寸变大而使存储器不够用。若通过哈希(hash)处理进行尺寸縮小则产生检索噪声。因此,位图的锁定效率降低,检索速度变得缓慢。另ー方面,由英文字符、假名、片假名等的单词构成的字符串中产生因字符的连接所引起的检索噪声。例如,不能检索包含英文单词的be动词“is”或不定冠词“a”的例文“that is a pen”。特别是,字母a的出现频率非常高,以不定冠词“a”检索也检索出几乎全部的例文和单词作为候补。与此相对,也想到按每个“結婚”,“活动”这样的成为词典的词条的基础单词生成位图。然而,存在若以不是基础单词的字符串检索则无法检索到这样的问题。例如,若以“婚活”这样的字符串检索,则即使存在包含“結婚”、“活动”、“结婚活动”这样的字符串的文件,也由于没有以“結婚”或“活动”检索,所以不能确定该文件。像这样,在基础单词“結婚”的末尾字符“婚”和基础单词“活动”的前端字符“活”之间产生所谓的分离。此外,虽然能够检索以“婚”结束的基础单词和以“活”开始的基础单词,并且收罗其相互的位图的组合,与各位图的读取进行AND运算而确定出候补文件,但不仅关键字内的检索等的一系列的处理花费时间,还由于位图的哈希处理所产生的检索噪声,无法期待候补文件的锁定性能。本专利技术为了消除上述的以往技术中的问题点,其目的在于提供能够实现表示基础单词或字符的有无的索引信息的生成的高速化以及索引信息的大小的最佳化的信息生成CN 102918524 A说明书2/31 页程序、信息生成装置,以及信息生成方法。而且,目的在于提供能够使用这样的索引信息来实现检索噪声的減少化的信息检索程序、信息检索装置,以及信息检索方法。为了解决上述的课题,实现目的,本专利技术的信息生成程序、信息生成装置以及信息生成方法的特征在干,从记述有字符串的对象文件组中合计每个指定单词的出现频率,基于合计的每个指定单词的出现频率,确定到与上述指定单词有关的目标出现率为止的降序的次序,从在上述对象文件组中选择的对象文件中检测到确定的降序的次序为止的特定的指定单词,生成针对检测出的每个特定的指定单词,将该特定的指定单词的有无按每个上述对象文件表示的索引信息。另外,本专利技术的信息检索程序、信息检索装置以及信息检索方法的特征在于,接受检索字符串的输入;通过參照如下索引信息、即、将记述有字符串的对象文件组中存在的指定单词中对应于与该指定单词有关的目标出现率的降序的次序以内的特定的指定单词的 有无按每个上述对象文件表示的索引信息,确定上述检索字符串存在的对象文件,从确定的对象文件中检索与上述检索字符串有关的信息,输出检索到的检索結果。根据本信息生成程序、信息生成装置以及信息生成方法,起到能够实现表示基础单词、字符的有无的索引信息的生成的高速化以及索引信息的大小的最佳化的效果。另外,根据本信息检索程序、信息检索装置以及信息检索方法,起到能够实现检索噪声的減少化的效果。 附图说明 图I是表示信息生成装置的信息生成的一个例子(其I)的说明图。 图2是表示非特定单一字符的分割例的说明图。 图3是表示信息生成装置的信息生成的一个例子(其2)的说明图。 图4是表示实施方式的信息生成装置的硬件构成例的框图。 图5是表示信息生成装置的功能的构成例的框图。 图6是表示映射生成例(其I)的说明图。 图7是表示映射生成例(其2)的说明图。 图8 --- I是表示映射生成例(其3)的说明图(前一半)。 图8 --- 2是表示映射生成例(其3)的说明图(后一半)。 图9是表不映射生成例(其4)的说明图。 图10是表示信息生成装置500的信息生成处理顺序的流程图。 图11是表示图10所示的合计处理(步骤S1001)的详细的处理顺序的流程图。 图12是表示图11所示的对象文件Fi的合计处理(步骤S1103)的详细的处理顺 序的流程图。 图13是表示图12所示的基础单词合计处理(步骤S1202)的详细的处理顺序的流 程图。 图14是表示图13所示的最长一致检索处理(步骤S1301)的详细的处理顺序的流 程图。 图15是表示图10所示的映射分配数决定处理(步骤S1002)的详细的处理顺序的 流程图。 7图16是表示图10所示的映射生成处理(步骤S1003)的详细的处理顺序的流程图。图17是表示图理顺序的流程图。·图18是表示图处理顺序的流程图。图19是表示图处理顺序的流程图。图20是表示图理顺序的流程图。图21是表示图理顺序的流程图。是表图 图22 流程图。 图23 图24 图25 图26 图27 图28 图29 图30 图31 图32 程图(其 I)。 图32 程图(其2)。 图33 的流程图。 图34 16所示的对象文件Fi的映射生成处理(步骤S1603)的详细的处17所示的特定基础单词出现映射生成处理(步骤S1702)的详细的17所示的特定单一字符出现映射生成处理(步骤S1703)的详细的19所示的分割字符码出现映射生成处理(步骤S1903)的详细的处17所示的连接字符串出现映射生成处理(步骤S1704)的详细的处21所示的连接字符串确定处理(步骤S2101)的详细的处理顺序的是表示信息检索装置的功能的构成例的框图。是表示信息检索处理的具体例(其I)的说明图。是表示信息检索处理的具体例(其2)的说明图。是表示信息检索处理的具体例(其3)的说明图。是表示信息检索处理的具体例(其4)的说明图。是表示信息检索处理的具体例(其5)的说明图。是表示信息检索处理的具体例(其6)的说明图。是表示信息检索处理的具体例(其7)的说明图。是表示信息检索装置2300的信息检索处理顺序的流程图。一 I是表示图31所示的文件确定处理(步骤S3104)的详细的处理顺序的流一 2是表示图31所示的文件确定处理(步骤S3104)的详细的处理顺序的流是表示图32 — 2所示的最长一致检索处理(步骤S3202)的详细的处理顺序是表示图32 — 2所示的利用连接字符串出现映射M5进行的文件确定处理(步骤S3216)的详细的处理顺序的流程图。图35是表示映射引出的说明图。图36是表示使用通过对象文件的追加而被分段化为多个的出现映射组的情况的信息检索处理顺序的流程图。图37是表示图36所示的信息检索处理(步骤S3602)中的本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】
【专利技术属性】
技术研发人员:片冈正弘,
申请(专利权)人:富士通株式会社,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。