索引生成方法、索引生成装置及搜索方法制造方法及图纸

技术编号:16483030 阅读:37 留言:0更新日期:2017-10-31 15:36
本发明专利技术公开了索引生成方法、索引生成装置及搜索方法。在对多个输入文件进行词汇分析的过程中,索引生成装置生成关于存在或不存在多个关键字以及存在关键字时所述关键字针对相应文件的存在位置的各条信息。该索引生成装置基于所生成的各条信息,生成关于关键字以及关键字针对相应文件的位置的索引信息。

Index generation method, index generation device and search method

An index generation method, an index generation device and a search method are disclosed. In the multiple input files in the process of lexical analysis, the index generation device generates about the presence or absence of multiple keywords and keyword keyword for the existence of the position of the corresponding file information. Based on the generated information, the index generating device generates index information about the key words and the positions of the keywords for the corresponding files.

【技术实现步骤摘要】
索引生成方法、索引生成装置及搜索方法
本文中讨论的实施方式涉及索引生成程序等。
技术介绍
为了提高文本数据的检索速度,已知通过针对每个文件对存在或不存在文本数据中包含的每个字符建立索引而形成的位图索引(例如,参见国际公布小册子第WO2013/038527号)。此外,存在这样的技术:使用记录中包含的数据项的内容作为关键字,针对关键字生成用于指示记录的存储位置的索引,并且利用该索引来搜索数据库(例如,参见日本公开特许公报第63-189934号)。已知一种用于生成与单词对应的指针表索引的技术(例如,参见2008年4月25日Gijutsu-Hyohron有限公司的KeisukeNISHIDA的Googlewosasaerugijutsu(支持Google的技术))。将参照图1来说明该技术。图1是示出了指针表索引生成处理的参考示例的图。如图1所示,利用该技术,从各个文档文件中提取单词,并且生成和采集与文档ID、单词ID及其出现位置对应的索引,并且按照单词ID对所采集的索引进行排序。以这种方式来生成转置索引,转置索引是其中文档ID和出现位置与作为参考的单词ID对应的指针表索引。另一种常规技术例如在日本公开特许公报第No.63-271525号中被公开。此外,例如,在2006年6月25日Gijutsu-Hyohron有限公司的HiroshiSEKIGUCHI的ApacheLucenenyumon(ApacheLucene介绍)中参见另一种技术。然而,存在的问题在于,包含文件、关键字及其出现位置的索引不能容易地以压缩格式一遍生成。从另一个观点来看,存在难以针对关键字来搜索文件及其出现位置的组合的问题。例如,常规位图索引是当字符被用作关键字时包含关键字和文件的索引,但不是包含文件、关键字及其出现位置的索引。索引的生成和压缩彼此独立,并且以两遍来执行。因此,该技术不能容易地以压缩格式一遍生成包含文件、关键字及其出现位置的索引。由于位图索引不包含关于出现位置的信息,因此为了针对关键字来搜索文件及其出现位置的组合,用索引来指定目标文件,然后通过参考相应的文件来检查关键字在文件中的出现位置。因此,难以针对关键字来搜索文件及其出现位置的组合。另一方面,因为文档文件包含不同的单词,因此每次更新或添加文档文件时,使用用于生成指针表索引的技术在巨大的云环境中以三遍来重复索引生成处理、采集处理、排序处理和换位处理。此外,索引被一遍压缩。因此,尽管指针表索引包含文件、关键字及其出现位置,但是该技术不能容易地针对文档文件以压缩格式一遍生成指针表索引。尽管当数据项的内容被用作关键字时会出现上述问题,但是不仅在数据项的内容被用作关键字的情况下,而且在单词或字符以相同的方式被用作关键字的情况下,也会出现上述问题。因此,本专利技术的实施方式的一个方面的目的是容易地以压缩格式一遍生成包含文件、关键字及其出现位置的索引。本专利技术的实施方式的另一方面的目的是容易地针对关键字搜索文件及其出现位置的组合。
技术实现思路
根据实施方式的一个方面,一种索引生成方法由计算机执行。该方法包括:在对多个输入文件进行词汇分析时针对多个输入文件生成关键字存在信息,关键字存在信息包括关于在多个输入文件中是否存在多个关键字中的每一个以及当在多个输入文件中存在相应多个关键字时相应多个关键字的存在位置的信息。该处理包括:基于关键字存在信息生成关于关键字和关键字针对多个输入文件的位置的索引信息。附图说明图1是示出了指针表索引生成处理的参考示例的图;图2是示出了根据实施方式的位图索引生成处理的流程的示例的图;图3是示出了实施方式中的位图索引的示例的图;图4是示出了实施方式中的动态词典的示例的图;图5是示出了实施方式中的散列索引生成处理的示例的图;图6是示出了经编码的文件的配置的示例的图;图7是示出了实施方式中的检索处理的示例的图;图8是示出了实施方式中的散列位图恢复处理的示例的图;图9是示出了实施方式中的索引生成装置的配置的功能框图;图10是示出了实施方式中的索引生成处理的流程图的示例的图;图11是示出了实施方式中的编码处理的流程图的示例的图;图12是示出了实施方式中的检索装置的配置的功能框图;图13是示出了实施方式中的检索处理的流程图的示例的图;图14是示出了计算机的硬件配置的示例的图;图15是示出了在计算机中运行的程序的配置的示例的图;以及图16是示出了实施方式的系统中的装置的配置的示例的图。具体实施方式将参照附图来说明本专利技术的优选实施方式。注意,这些实施方式不对本专利技术进行限制。实施方式中的位图索引生成的示例图2是示出了实施方式中的位图索引生成处理的流程的示例的图。如图2所示,在对多个输入文件进行词汇分析的过程中,位图索引生成处理生成关于存在或不存在多个单词以及存在单词时单词针对相应文件的位置的各条信息。位图索引生成处理基于各条所生成的信息来生成单词和单词针对相应文件的位置的位图索引。在下文中,将位图索引生成处理称为“索引生成处理”。下面将描述索引生成处理的示例。例如,执行索引生成处理的索引生成装置将包含在文件F1中的一个文件3作为编码对象加载到存储区域中。注意,文件3的“3”指示文件ID为“3”。索引生成装置从存储区域读取出文件3,并且对所读取的文件3执行词汇分析。本文中所指的词汇分析是指对未被编码成单词的文件进行分割。索引生成装置将静态词典S0与单词的字符串进行比较,并且确定在静态词典S0中是否存在与单词的字符串对应的代码。可以替代地以下面的方式来执行确定处理。即,索引生成装置将指定可以使用静态词典S0编码的单词的字符串的位过滤器与单词的字符串进行比较,并且确定单词的字符串是否命中该位过滤器。本文中所指的位过滤器指示指定可以使用静态词典S0编码的单词的字符串的过滤器。当在静态词典S0中存在与单词的字符串对应的代码时,索引生成装置基于静态词典S0将单词的字符串编码成与单词的字符串对应的代码(静态码)。当在静态词典S0中不存在与单词的字符串对应的代码时,索引生成装置确定单词的字符串是否已被登记在动态词典D0中。当单词的字符串尚未被登记在动态词典D0中时,索引生成装置将单词的字符串登记在动态词典D0中,并且基于动态词典D0将所登记的单词的字符串编码成与所登记的单词的字符串对应的动态码。当单词的字符串已被登记在动态词典D0中时,索引生成装置基于动态词典D0将单词的字符串编码成与单词的字符串对应的动态码。静态词典S0指示通过下述方法提供的词典:基于通用的英语词典、日语词典、教科书等指定单词在文档中出现的出现频率,并且对具有较高出现频率的单词分配较短的代码。在静态词典S0中,预先登记了作为与各个单词对应的代码的静态码。另一方面,动态词典D0指示其中未被登记在静态词典中的单词与动态分配的动态码(代码)彼此对应的词典。未被登记在静态词典S0中的单词的示例包括具有低出现频率的单词(低频单词)、未知单词、数值、时间和标签。本文中所指的未知单词未被登记在静态词典S0中,并且具有在待编码的文档中反复出现的特性。在动态词典D0中,与动态码对应的单词按照未被登记在静态词典S0中的单词的出现顺序登记在缓冲区部分中。注意,后面将详细描述动态词典D0。索引生成装置将文件3的编码数据区域中的通过进行编码而分配本文档来自技高网
...
索引生成方法、索引生成装置及搜索方法

【技术保护点】
一种由计算机执行的索引生成方法,所述方法包括:第一,在对多个输入文件进行词汇分析时,针对所述多个输入文件生成关键字存在信息,所述关键字存在信息包括关于在所述多个输入文件中是否存在多个关键字中的每一个以及当在所述多个输入文件中存在相应所述多个关键字时相应所述多个关键字的存在位置的信息;以及第二,基于所述关键字存在信息生成关于所述关键字和所述关键字针对所述多个输入文件的位置的索引信息。

【技术特征摘要】
2016.04.18 JP 2016-0832431.一种由计算机执行的索引生成方法,所述方法包括:第一,在对多个输入文件进行词汇分析时,针对所述多个输入文件生成关键字存在信息,所述关键字存在信息包括关于在所述多个输入文件中是否存在多个关键字中的每一个以及当在所述多个输入文件中存在相应所述多个关键字时相应所述多个关键字的存在位置的信息;以及第二,基于所述关键字存在信息生成关于所述关键字和所述关键字针对所述多个输入文件的位置的索引信息。2.根据权利要求1所述的索引生成方法,其中,第二步生成包括:基于所述关键字存在信息使用多个散列轴生成散列索引信息,所述多个散列轴是通过对所述位置的轴应用多个散列函数而提供。3.一种索引生成装置,包括:第一生成器,在对多个输入文件进行词汇分析时,所述第一生成器针对所述多个输入文件生成关键字存在信息,所述关键字存在信息包括关于在所述多个输入文件中是...

【专利技术属性】
技术研发人员:片冈正弘出内将夫阿部叶月
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1