The present invention provides a node with a keyword based on coverage index, including frequency table, node base, under the jurisdiction of a collection of frequency can be extended; each key and key markup language document appears in the frequency of record; node library record key and key corresponding to all the nodes to all nodes encoding, obtained under the jurisdiction of the keyword under the jurisdiction of a collection of records; and the corresponding node node encoding and encoding the keyword, used to determine the node encoding corresponding keywords whether jurisdiction. The invention also provides an index construction method and a query method based on the coverage relation of the node and the keyword. The present invention allows quick and efficient access to all meaningful minimum document fragments containing all keywords from an extensible markup language document.
【技术实现步骤摘要】
本专利技术涉及数据库
,尤其涉及一种基于节点与关键字覆盖关系的索引及 其查询方法。
技术介绍
可扩展标记语言(XML)是一种元语言,也是一种基于文本的标记语言。它是标准 通用标记语言的一个子集。XML包含一组基本规则,任何人都可以利用这种规则创建针对特 定应用领域的标记语言,这些标记并不描述信息的显示方式,而是信息本身。它允许标记元 素类型、元素嵌套、以及元素之间的引用等。XML标准的制定大大促进了 Web的发展,如今的 XML已经成为Web上代表性的数据类型,并且广泛应用到商业、医疗、生物科学等众多领域。搜索引擎的关键字检索模型已经在普通用户中十分流行,并且被视作相当有效 的信息检索手段。关键字检索对于XML文档也很适用,它能让普通用户在不需要了解像 XQuery这样复杂的查询语句,也不需要事先了解XML文档底层结构信息的情况下,就能快 速方便得到感兴趣的内容。如果采用传统的文本关键字检索技术,便忽视了 XML文档中存在着的某些结构信 息,这些信息往往包含了很多对用户很重要的语义信息。在XML数据库中,关键字检索的采用也可以作为查询语言中的限制条件,帮助 ...
【技术保护点】
一种基于节点与关键字覆盖关系的索引,其特征在于,包括频率表、节点库、管辖集合库;所述频率表中记录可扩展标记语言文档中的每个关键字及所述关键字出现的频率;所述节点库记录所述关键字以及与所述关键字对应的全部节点编码,用来获得管辖所述关键字的全部节点;所述管辖集合库记录节点编码以及与所述节点编码对应的关键字,用来判断所述节点编码对应的节点是否管辖所述关键字。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。