当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于区间编码的GML文档索引方法技术

技术编号:5997407 阅读:486 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于信息技术中的空间信息存储与查询技术领域,是一种基于区间编码的GML文档索引方法,将GML文档树中结点按前序遍历中第一次和最后一次被访问时的次序进行编码。对元素、属性、文本结点以B+-树方式来组织索引,以提高值查询和结构查询的查询速度;对几何体结点按R-树方式组织索引,以便提高空间查询和分析效率。查询语言采用基于XQuery的GML查询语言GQL,并对三种查询(非空间查询、空间查询及混合查询)进行了分析与比较。实验证明,所提出的GML文档编码方案和索引机制是可行的,能够有效地处理在GML文档上进行的值查询和空间分析操作。

【技术实现步骤摘要】

本专利技术属于信息技术中的空间信息存储与查询
,具体涉及地理标注数据(GML 数据)的索引与查询方法。
技术介绍
地理标记语言GML是开放地理信息系统组织OGC为了解决WebGIS环境下不同格式地 理数据共享而制定了一套基于XML的地理信息编码工具。目前GML作为一种可扩展的、标 准化的地理信息编码方式,为地理信息的建模、传输、存储和发布提供了一个公共的地理对 象描述标准,从而使得各个独立开发的应用之间的互操作成为可能。GML也由原来的三个基 模式(Base Schema)的2. χ版发展为由三十个基模式组成的3. χ版。GML描述地理信息的 能力越来越强,不仅解决了空间数据格式不一致的问题,而且提供包含结构和语义的数据 表达,符合当前语义Web的要求,使地理信息在不同系统间的交换、集成和共享变得更加容 易ο随着GML在诸多领域的广泛应用,越来越多的地理信息以GML格式来描述。由 于GML文档相当大,以文件方式来管理地理空间数据很难提供较好的空间信息查询、空间 数据分析、存取控制、并发控制等功能。如何有效地管理GML数据已成为亟待解决的问题。 Corcoles等分析比较了基于RDBMS的三个存储模型LegoDB,Monet,Xparent用于存储GML 数据时可扩展性及查询时间;Sripada等列举了 GML领域的研究问题,如GML存储、解析、查 询、可视化和GML在移动设备上的应用等。Zhu等利用支持空间数据操作的对象关系数据库 系统对GML文档进行管理。对于GML的查询处理,Corcoles等等提出了一种基于XML-QL 的GML查询语言规范,该规范基于的数据模型和代数支持空间特征。这套查询语言包含基 于结构化查询语言SQL的SELECT-FROM-WHERE语法,包括支持空间操作的算子(相离、相切 等),也包括传统非空间算子,但这种方法没有利用到现有的XML查询处理技术,其查询处理 要求从头实现。Vatsavai比较了几种XML查询语言,提出了基于XQuery的GML查询语言 GML-QL,描述了 GML-QL的结构,给出了具体的GML文档查询实例,但没有给出相应的数据模 型、语法结构和语义处理。Guan等在XQuery的基础上提出了 GML查询语言GQL,定义了空 间数据类型、增加了空间处理算子并给出了相应的形式语义。为了提高GML查询效率,必须为GML数据的基础上,建立相应的索引。半结构化数 据索引技术近年来也得到广泛深入的研究,按索引模式分为三类路径索引、编码一连接索 引和序列匹配索引。路径索引提取XML文档中的全部或部分路径信息建立索引,以便在查 询的时候减少查询数据空间,提高查询效率。路径索引最大的优点是简单易行,但是对于结 构复杂、规模大的文档,路径索引的规模也会变得很大。编码-连接索引将XML文档树中的 结点按照一定的方法进行编码,通过比较结点之间的编码,快速的确定结点之间的结构关 系(父/子关系,祖先/后代关系),使用起来简单灵活,容易应用到关系数据库系统中。序 列匹配索引采用编码方法将XML文档数据和XML查询表达式编码成序列,使用编码序列代 替路径作为查询的基本单元,将XML路径表达式查询等价成发现查询表达式编码序列在文 档数据编码序列中的子模式匹配过程。序列匹配索引可以避免昂贵的连接操作,提高查询效率,但基于序列匹配的索引方法不能绝对保证一个匹配序列总是对应正确的查询结果, 需要进一步处理匹配结果后才能得到正确结果,增加了索引的时间。与XML —样,GML文档也可以看作一个树形结构,区间编码方案为树中每一个结点 赋予一个区间编码的,G],通过结点的区间编码确定结点间的父子关系和子孙关系。目 前,半结构化数据的区间编码方案主要有三种,Dietz编码为树Γ中的每一个结点赋予一 个由先序遍历序号和后序遍历序号组成的二元组〈preOrder,postOrder〉,结点u和ν是 祖先 / 后裔关系,当且仅当 preOder (u) < preOrder (ν)且 post Order (ν) < postOrder 0/)。Li编码为树Γ中的每一个结点赋予一个由结点线序遍历号和结点后裔范围组成的二 元组<o fer,sii^〉,树Γ中的任意两个结点 和r是祖先/后裔关系,当且仅当order (ju) < order (κ)且 order (κ) + size (κ) < = order (ju) + size ( )。Zhang 编石马为树 T1 中的每一个结点赋予一个二元组<IirstOrder, lastOrder>, firstOrder是对树T的所有 结点进行先序遍历时,在遍历该结点的所有后裔结点之前访问该结点时的序号,IastOrder 是在遍历完该结点的所有后裔结点后再一次访问该结点时的序号。树r中的两个结点 和r是祖先/后裔关系,当且仅当firstOrder (u) < f irstOrder (…且f irstOrder (… < IastOrder (υ)。上述几种方法主要针对XML文档进行编码,没有考虑到GML文档中大量的空间数 据。为了提高GML的查询效率,需要一种适合GML文档特点的索引技术。
技术实现思路
本专利技术的目的在于提出一种查询效率高的GML文档索引方法。本专利技术提出的GML文档索引方法,是基于区间编码的GML文档索引方法,该方只需 对GML文档进行一次扫描,就可以对文档树中的每个结点进行编码。具有如下特点1、采用SAX解析器解析GML文档,创建文档树;2、采用前序遍历依次为文档树中的每个结点进行编码;3、文档树中的结点用一个五元组来表示;4、索引结构由元素索引、属性索引、文本索引及几何体索引组成。本专利技术方法支持非空间查询、空间查询及混合查询处理。本专利技术是一种基于区间编码的方法,用流式解析器对给定的GML文档进行解析, 为GML文档中的元素、属性、文本、几何体等要素进行编码,被编码的结点以一个五元组的 形式表示,五元组具体形式为(t/oc/j, firstOrder, IastOrder, parentOrder, kind), 其中,Ac/々是文档的编号firs tOrder是前序遍历文档树期间首次被访问时的序号 IastOrder是最后一次被访问时的序号。parentOrder是该结点父结点的firstOrder ,kind是该结点的类别(元素结点、属 性结点、值结点或几何体结点等)。根据上述编码方案,容易证明如下结论文档树中的任意结点",则,其祖先结点r 的集合为{v\ firstOrder (ν) < firstOrder(u) and IastOrder(ν) > firstOrder (")}其双亲结点r的满足{v\ firstOrder (ν) - parentOrder (u)}其子孙结点r的集合为{v\ firstOrder(ν) > firstOrder (u) and firstOrder(ν) < IastOrder (")}其孩子结点r的集合为{v\ parentOrder (ν) - firstOrder (u)}其兄弟结点r的集合为本文档来自技高网
...

【技术保护点】
一种基于区间编码的GML文档索引方法,其特征在于具体步骤为:1)采用SAX解析器解析GML文档,创建GML文档树;2)采用前序遍历依次为GML文档树中的每个结点进行编码;包括对GML文档中的元素、属性、文本、几何体要素进行编码;3)对文档树中被编码的结点用一个五元组来表示;五元组具体形式为:(docID, firstOrder, lastOrder, parentOrder, kind),其中:docID是文档的编号;firstOrder是前序遍历文档树期间首次被访问时的序号;lastOrder是最后一次被访问时的序号;parentOrder是该结点父结点的firstOrder;kind 是该结点的类别,类别包括元素结点、属性结点、值结点和几何体结点。

【技术特征摘要】

【专利技术属性】
技术研发人员:周水庚朱付保关佶红王炜立
申请(专利权)人:复旦大学同济大学
类型:发明
国别省市:31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1