【技术实现步骤摘要】
本专利技术涉及一种用于检索诸如XML(可扩展标记语言)文档等的结构化文档的数据的设备和方法。
技术介绍
XML文档是一种通过使用标签(tag)描述文档数据的各个元素来进行结构化的文档,并且XML文档具有层级结构。当通过树结构来表示XML文档时,将树的各个元素称为节点。存在如下两种检索XML文档的数据的传统方法。(a)通过由树结构的对象表示要检索的所有文档的所有节点来将文档展开。如果根据检索请求条件对多个节点进行检索,并且满足该条件,则检索并提取关于要返回的节点的信息。将该检索方法称为索引系统。(b)应检索-返回请求,将要检索的所有文档临时展开在一个二维表中。这时,按照需要为表达为给定节点的子节点的多个节点分配更多的表行。当根据检索请求条件对该表进行检索并且满足该条件时,提取关于要返回的单元(节点)的信息。例如,当要对如图1A所示的两个文档进行检索时,以上述方法(a)生成如图1B所示的树结构的文档数据。假设输入以下检索表达式作为检索请求。/doc/Grp{/A=′X′AND/B=′1000′}(1)该检索表达式表示如下条件在由路径/doc/Grp/A所指定的节点中包含有关键词′X′,并且在由路径/doc/Grp/B所指定的节点中包含有关键词′1000′。在这种情况下,通过跟踪如图1C所示的文档数据的节点,表明文档1满足该检索请求条件。在上述方法(b)中,生成如图1D所示的具有表结构的文档数据。在图1A所示的文档1中,由于存在两个不同的“Grp”节点作为节点“doc”的子节点,所以将文档1的数据存储在图1D所示的表的两行中。在这种情况下,如图1E所示,通过 ...
【技术保护点】
一种检索设备,该检索设备根据检索条件对使用标签结构化的文档的数据进行检索,该检索设备包括:生成装置,用于分析所述检索条件并生成:标签登记信息,包含标签的已登记字符串,该标签表示包含在由所述检索条件指定的检索路径中的各个元素;关键词登记信息,包含由所述检索条件指定的关键词的已登记字符串;以及状态管理信息,用于使用所述检索路径来管理当前检索状态;读取装置,用于以预定量顺序地读取待检索结构化文档的文档数据;以及检索装置,用于在使用所述状态管理信息在从所读取的数据串中检测所述标签登记信息中登记的标签的标签检索以及从所读取的数据串中检测所述关键词登记信息中登记的关键词的关键词检索之间进行切换的同时,检索所述结构化文档的文档数据,并且输出检索结果。
【技术特征摘要】
JP 2003-8-20 296766/20031.一种检索设备,该检索设备根据检索条件对使用标签结构化的文档的数据进行检索,该检索设备包括生成装置,用于分析所述检索条件并生成标签登记信息,包含标签的已登记字符串,该标签表示包含在由所述检索条件指定的检索路径中的各个元素;关键词登记信息,包含由所述检索条件指定的关键词的已登记字符串;以及状态管理信息,用于使用所述检索路径来管理当前检索状态;读取装置,用于以预定量顺序地读取待检索结构化文档的文档数据;以及检索装置,用于在使用所述状态管理信息在从所读取的数据串中检测所述标签登记信息中登记的标签的标签检索以及从所读取的数据串中检测所述关键词登记信息中登记的关键词的关键词检索之间进行切换的同时,检索所述结构化文档的文档数据,并且输出检索结果。2.一种计算机可读记录介质,在该计算机可读记录介质上记录有用于根据检索条件对使用标签结构化的文档的数据进行检索的计算机程序,该程序控制该计算机执行以下处理分析所述检索条件并生成标签登记信息,包含标签的已登记字符串,该标签表示包含在由所述检索条件指定的检索路径中的各个元素;关键词登记信息,包含由所述检索条件指定的关键词的已登记字符串;以及状态管理信息,用于使用所述检索路径来管理当前检索状态;以预定量顺序地读取待检索结构化文档的文档数据;以及在使用所述状态管理信息在从所读取的数据串中检测所述标签登记信息中登记的标签的标签检索以及从所读取的数据串中检测所述关键词登记信息中登记的关键词的关键词检索之间进行切换的同时,检索所述结构化文档的文档数据,并且输出检索结果。3.根据权利要求2所述的记录介质,其中所述程序控制计算机执行以下处理生成状态管理信息,该状态管理信息包含用于管理当前检索状态和所述检索路径中的元素之间的对应关系的信息;以及指定要将所述标签检索切换为所述关键词检索的状态的信息;当通过所述标签检索检测到已登记标签时,查询所述状态管理信息;以及在当前检索状态为要将所述标签检索切换为所述关键词检索的状态时,从所述标签检索切换到所述关键词检索。4.根据权利要求2所述的记录介质,其中所述程序控制计算机执行以下处理在所述标签检索中,从所述结构化文档的文档数据中逐个字符地读取字符串;将所读取的字符串逐个字符地与所述标签登记信息中登记的所述标签的已登记字符串进行比较;当所读取的字符串与所述标签的已登记字符串匹配时,通过查询所述状态管理信息而检查当前检索状态;在当前检索状态为要将所述标签检索切换为所述关键词检索的状态时,从所述标签检索切换到所述关键词检索;在所述关键词检索中,读取与所述标签的已登记字符串匹配的所述字符串后面的字符串;将所读取的字符串逐个字符地与所述关键词登记信息中登记的所述关键词的已登记字符串进行比较;以及如果所读取的字符串与所述关键词的已登记字符串匹配,则确定所述结构化文档是满足所述检索条件的文档的候选。5.根据权利要求2所述的记录介质,其中在对所述结构化文档的文档数据进行检索时,所述程序控制计算机执行对所述结构化文档的文档数据进行添加、更新、删除、以及批量删除中的至少一种操作。6.根据权利要求5所述的记录介质,其中所述程...
【专利技术属性】
技术研发人员:永田真彦,松浦正卓,矶村则一,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。