检索结构化文档的数据的设备制造技术

技术编号:2865574 阅读:186 留言:0更新日期:2012-04-11 18:40
根据检索条件生成标签登记信息、关键词登记信息、以及状态管理信息,并且根据该状态管理信息由从结构化文档的文档数据中检测该标签登记信息中登记的标签的标签检索切换到检测该关键词登记信息中登记的关键词的关键词检索,或者由该关键词检索切换到该标签检索。

【技术实现步骤摘要】

本专利技术涉及一种用于检索诸如XML(可扩展标记语言)文档等的结构化文档的数据的设备和方法。
技术介绍
XML文档是一种通过使用标签(tag)描述文档数据的各个元素来进行结构化的文档,并且XML文档具有层级结构。当通过树结构来表示XML文档时,将树的各个元素称为节点。存在如下两种检索XML文档的数据的传统方法。(a)通过由树结构的对象表示要检索的所有文档的所有节点来将文档展开。如果根据检索请求条件对多个节点进行检索,并且满足该条件,则检索并提取关于要返回的节点的信息。将该检索方法称为索引系统。(b)应检索-返回请求,将要检索的所有文档临时展开在一个二维表中。这时,按照需要为表达为给定节点的子节点的多个节点分配更多的表行。当根据检索请求条件对该表进行检索并且满足该条件时,提取关于要返回的单元(节点)的信息。例如,当要对如图1A所示的两个文档进行检索时,以上述方法(a)生成如图1B所示的树结构的文档数据。假设输入以下检索表达式作为检索请求。/doc/Grp{/A=′X′AND/B=′1000′}(1)该检索表达式表示如下条件在由路径/doc/Grp/A所指定的节点中包含有关键词′X′,并且在由路径/doc/Grp/B所指定的节点中包含有关键词′1000′。在这种情况下,通过跟踪如图1C所示的文档数据的节点,表明文档1满足该检索请求条件。在上述方法(b)中,生成如图1D所示的具有表结构的文档数据。在图1A所示的文档1中,由于存在两个不同的“Grp”节点作为节点“doc”的子节点,所以将文档1的数据存储在图1D所示的表的两行中。在这种情况下,如图1E所示,通过检索表达式(1)对该表进行检索,并且文档1满足该检索请求条件。在上述方法(a)和(b)中,为了预先对所有待检索文档进行展开,除各个XML文档之外,还存储诸如DTD(文档类型定义)、纲要(schema)等的XML定义信息、与该XML定义信息和XML文档之间的关系相关的信息、以及与XML文档中的各个标签和节点相关的信息。此外,当检索结构化文档时,利用检索条件作为输入生成分级自动机(automaton),并且可以利用所生成的分级自动机来进行检索(例如,参见专利文献1)。专利文献1日本专利申请特开2000-90091号公报。但是,利用上述的传统检索方法存在以下问题。在进行检索处理之前,要对待检索的文档进行临时分析。因此,当存储待检索的文档时,需要非常长的处理时间来进行诸如分析处理、展开处理等的处理。由于将待检索的文档分为多个标签和多个节点,以优化检索,因此,当存储待检索的文档时,需要原始文档的数倍存储空间。当检索并分析文档时,有必要在存储器内将所存储的文档数据的全部或者部分进行临时展开,以识别满足检索请求条件的节点。因此,根据所存储的文档数据量,极大地增加了用于检索和分析的存储器资源的消耗量。根据存储系统的逻辑(logic),将要检索的一组XML文档统一为根据所指定的XML定义信息规定的标准化格式。此外,当进行检索时,使用根据该标准化格式的检索表达式。因此,当对多个不同格式的XML文档进行检索时,需要在检索不同格式的XML文档后对所得到的检索结果进行合并。
技术实现思路
本专利技术旨在提供一种检索设备和检索方法,用于减少在存储和检索多个待检索的文档的过程中所需的处理时间、存储空间以及存储器消耗。根据本专利技术的检索设备包括生成装置、读取装置和检索装置,并且该检索设备根据检索条件检索使用标签而结构化的文档的数据。该生成装置分析检索条件并生成标签登记信息,包含标签的已登记字符串,该标签表示包含在由检索条件所指定的检索路径中的各个元素;关键词登记信息,包含由检索条件所指定的关键词的已登记字符串;以及状态管理信息,用于使用检索路径来管理当前检索状态。该读取装置以预定量顺序读取要检索的结构化文档的文档数据。该检索装置在利用状态管理信息在从所读取的数据串中检测在标签登记信息中登记的标签的标签检索以及从所读取的数据串中检测在关键词登记信息中登记的关键词的关键词检索之间进行切换的同时,检索结构化文档的文档数据,并且输出检索结果。附图说明图1A示出了待检索的文档;图1B示出了树结构的文档数据;图1C示出了第一检索方法;图1D示出了表结构的文档数据;图1E示出了第二检索方法;图2示出了根据本专利技术的检索设备的原理;图3示出了检索设备的构成;图4A示出了第一文档;图4B示出了第二文档;图5示出了标签自动机;图6示出了字符串;图7示出了标签表;图8示出了状态管理信息; 图9示出了关键词自动机;图10示出了逻辑表达式表;图11是检索处理的流程图;图12示出了检索表和更新表的初始状态;图13示出了添加处理的第一过程;图14示出了添加处理的第二过程;图15示出了添加处理的第三过程;图16示出了更新处理;图17示出了删除处理;图18示出了批量删除处理;图19示出了信息处理装置的构成;以及图20示出了记录介质。具体实施例方式下面将参照附图对本专利技术的优选实施例进行说明。图2表示根据本专利技术的检索设备的原理。图2所示的检索设备包括生成装置101、读取装置102、检索装置103,并且该检索设备根据检索条件对使用标签而结构化的文档的数据进行检索。生成装置101分析检索条件,并且生成标签登记信息104,包含标签的已登记字符串,该标签表示包含在由检索条件所指定的检索路径中的各个元素;关键词登记信息105,包含由检索条件所指定的关键词的已登记字符串;以及状态管理信息106,用于利用检索路径来管理当前检索状态。读取装置102以预定量顺序地读取要检索的结构化文档的文档数据。检索装置103在利用状态管理信息106在从所读取的数据串中检测标签登记信息104中登记的标签的标签检索以及从所读取的数据串中检测关键词登记信息105中登记的关键词的关键词检索之间进行切换的同时,检索结构化文档的文档数据,并输出检索结果。利用上述检索设备,在顺序读取预定量的文档数据的同时进行检索。因此,不必预先将要检索的所有文档的文档数据进行扩展。此外,由于在检索由检索条件所指定的元素的标签的标签检索和检索元素中的关键词的关键词检索之间进行适当切换的同时进行检索,所以即使不知道待检索文档的结构,也可以利用关键词对满足检索条件的元素的内容进行核对。因此,待检索的文档可以不是特定XML定义信息所指定的格式。生成装置101、读取装置102、检索装置103、标签登记信息104、关键词登记信息105、以及状态管理信息106例如分别与检索表达式分析单元213、数据读取单元215、XML检索单元214、标签自动机222、关键词自动机224以及状态管理信息223相对应。根据本专利技术,待检索的文档并不限于标准格式的文档,还可以存储为具有不同编排模式的XML文档。因此,可以减少待检索的文档的存储空间,并且不需要对待检索文档进行分析处理,从而提高了存储速度。此外,由于存储资源的消耗不是基于待检索文档的数据量,而是取决于检索条件的数据量,所以有限量的存储资源就可以足够用于检索。另外,即使利用不同格式的XML文档进行检索,也可以不考虑各种格式而进行检索,并且可以提高检索速度。图3示出了根据本专利技术实施例的检索设备的构成。图3所示的检索设备201包括操作分析单元211、数据检索本文档来自技高网
...

【技术保护点】
一种检索设备,该检索设备根据检索条件对使用标签结构化的文档的数据进行检索,该检索设备包括:生成装置,用于分析所述检索条件并生成:标签登记信息,包含标签的已登记字符串,该标签表示包含在由所述检索条件指定的检索路径中的各个元素;关键词登记信息,包含由所述检索条件指定的关键词的已登记字符串;以及状态管理信息,用于使用所述检索路径来管理当前检索状态;读取装置,用于以预定量顺序地读取待检索结构化文档的文档数据;以及检索装置,用于在使用所述状态管理信息在从所读取的数据串中检测所述标签登记信息中登记的标签的标签检索以及从所读取的数据串中检测所述关键词登记信息中登记的关键词的关键词检索之间进行切换的同时,检索所述结构化文档的文档数据,并且输出检索结果。

【技术特征摘要】
JP 2003-8-20 296766/20031.一种检索设备,该检索设备根据检索条件对使用标签结构化的文档的数据进行检索,该检索设备包括生成装置,用于分析所述检索条件并生成标签登记信息,包含标签的已登记字符串,该标签表示包含在由所述检索条件指定的检索路径中的各个元素;关键词登记信息,包含由所述检索条件指定的关键词的已登记字符串;以及状态管理信息,用于使用所述检索路径来管理当前检索状态;读取装置,用于以预定量顺序地读取待检索结构化文档的文档数据;以及检索装置,用于在使用所述状态管理信息在从所读取的数据串中检测所述标签登记信息中登记的标签的标签检索以及从所读取的数据串中检测所述关键词登记信息中登记的关键词的关键词检索之间进行切换的同时,检索所述结构化文档的文档数据,并且输出检索结果。2.一种计算机可读记录介质,在该计算机可读记录介质上记录有用于根据检索条件对使用标签结构化的文档的数据进行检索的计算机程序,该程序控制该计算机执行以下处理分析所述检索条件并生成标签登记信息,包含标签的已登记字符串,该标签表示包含在由所述检索条件指定的检索路径中的各个元素;关键词登记信息,包含由所述检索条件指定的关键词的已登记字符串;以及状态管理信息,用于使用所述检索路径来管理当前检索状态;以预定量顺序地读取待检索结构化文档的文档数据;以及在使用所述状态管理信息在从所读取的数据串中检测所述标签登记信息中登记的标签的标签检索以及从所读取的数据串中检测所述关键词登记信息中登记的关键词的关键词检索之间进行切换的同时,检索所述结构化文档的文档数据,并且输出检索结果。3.根据权利要求2所述的记录介质,其中所述程序控制计算机执行以下处理生成状态管理信息,该状态管理信息包含用于管理当前检索状态和所述检索路径中的元素之间的对应关系的信息;以及指定要将所述标签检索切换为所述关键词检索的状态的信息;当通过所述标签检索检测到已登记标签时,查询所述状态管理信息;以及在当前检索状态为要将所述标签检索切换为所述关键词检索的状态时,从所述标签检索切换到所述关键词检索。4.根据权利要求2所述的记录介质,其中所述程序控制计算机执行以下处理在所述标签检索中,从所述结构化文档的文档数据中逐个字符地读取字符串;将所读取的字符串逐个字符地与所述标签登记信息中登记的所述标签的已登记字符串进行比较;当所读取的字符串与所述标签的已登记字符串匹配时,通过查询所述状态管理信息而检查当前检索状态;在当前检索状态为要将所述标签检索切换为所述关键词检索的状态时,从所述标签检索切换到所述关键词检索;在所述关键词检索中,读取与所述标签的已登记字符串匹配的所述字符串后面的字符串;将所读取的字符串逐个字符地与所述关键词登记信息中登记的所述关键词的已登记字符串进行比较;以及如果所读取的字符串与所述关键词的已登记字符串匹配,则确定所述结构化文档是满足所述检索条件的文档的候选。5.根据权利要求2所述的记录介质,其中在对所述结构化文档的文档数据进行检索时,所述程序控制计算机执行对所述结构化文档的文档数据进行添加、更新、删除、以及批量删除中的至少一种操作。6.根据权利要求5所述的记录介质,其中所述程...

【专利技术属性】
技术研发人员:永田真彦松浦正卓矶村则一
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1