当前位置: 首页 > 专利查询>复旦大学专利>正文

一种无线广播中的XML空中索引方法技术

技术编号:4299713 阅读:225 留言:0更新日期:2012-04-11 18:40
本发明专利技术是一种无线广播中的XML空中索引方法,主要包括:基于DataGuide的基本索引结构,索引合并技术和索引剪枝技术。整个流程是:首先为数据库中的每个XML文档建立对应的DataGuide索引,其次将这些DataGuide合并成一个基于整个数据库的完整索引,最后对完整索引进行剪枝,删除不会被请求队列中的任何请求访问的数据节点。本发明专利技术通过合并与剪枝技术,可以将索引的大小缩减到数据文档的0.1%~0.5%左右,大大减少了用户的调谐时间,提高了广播系统的性能。

【技术实现步骤摘要】

本专利技术属于无线数据广播与XML文档索引的交叉领域,具体涉及到一种无线网络 中的XML空中索引方法。
技术介绍
随着无线设备的普及和无线网络的发展,无线移动计算已经成为了一个十分活跃 的研究领域,无线数据广播由于其特有的可伸縮性及充分利用带宽的特性成为目前无线移 动网络中广泛采用的数据传递方法。 如何快速访问和节省能源是无线数据广播中研究的两个主要问题。相应的,有两 个评价广播性能的主要参数访问时间(Access Time)和调谐时间(TuningTime) 访问时间是从用户提出请求到请求得到满足之间经过的时间。 调谐时间是用户在提出请求到请求得到满足之间需要保持侦听状态的时间。 空中索引是无线数据广播中研究的热点问题之一。通过在广播信道中加入指示数 据的索引信息,用户可以推算出距离系统广播所需数据之前需要经过的时间。在这段等待 时间中,用户可以切换到省电模式,直到数据到达时再切换为活动模式下载数据。通过这种 方式可以有效减少用户的调谐时间,相应的降低用户的耗电量,因此空中索引是无线数据 广播系统中广泛采用的技术。目前对空中索引技术的研究主要集中在索引结构和索引分布 方面。另一方面,XML数据正逐渐成为信息系统中最为广泛的数据存储与交换方式。几乎所 有的大型IT公司(微软,Oracle, IBM)都在自己的产品中加入了对XML数据的支持。网络 中大量存在的XML文档(HTML等)正在成为人们日常生活的一部分。XML数据广播是无线 环境中XML文档传输的有效方法,本专利技术所涉及的正是一种无线数据广播中On-demand模 式下的XML空中索引技术。 无线数据广播的主要有两种模式,分别为周期广播模式和On-demand广播模式。 周期广播模式(Broadcast Mode/Push-based Mode):服务器端将存储的数据以一 种确定的调度方式在广播信道上循环广播,用户端只需要在广播信道上侦听, 一旦发现自 己需要的数据则下载到本地。 On-demand广播模式(On-demand Mode/Pull-based Mode):用户通过上行信道将 自己的请求发送给服务器端,服务器将用户的请求放入请求队列并根据队列中的请求状况 安排调度。 一旦请求的数据被广播,则将该请求从队列中删除。同时用户在广播信道上侦 听, 一旦发现自己需要的数据则下载到本地。在on-demand模式下,服务器收集用户的请 求存储在本地的请求队列中,并会根据请求队列中的请求访问情况(不同请求的访问频率 等)进行广播。 已有无线广播系统中的空中索引结构大多只针对传统的结构化数据(如数据库 中的一个条目)。对于这类数据的查询通常是基于数据的键值(key)。对于一个查询,通常 只对应一个结果。而XML文档不仅包含用户所需要的数据信息,还包括存储这些数据的结 构信息。对于XML文档的查询,通常要求匹配数据的结构信息,如XPath查询等。对于一个3查询,通常会对应多个结果,只有当所有的匹配的结果都获得的时候才认为是查询被满足 了。基于以上的区别,传统的索引结构无法适用于文档XML。 已有工作中针对XML文档的索引方法的主要思想是为每一个XML文档建立索弓I ( 一般为提取XML文档的结构信息),然后将这些索引以一定的方式插入到广播信道中与数 据一起广播。(如Yon Dohn Chung等人提出的方法,发表在Information Sciences杂志 2007年第177期第9巻1931-1953页)。然而这种方法具有一些明显的缺点。首先,这种方 式产生的索引不能让用户对数据库中的所有XML文档有一个完整的了解。在广播模式下, 用户需要等待一个完整的广播周期后才能判断是否已经下载了所有需要的结果,大大增加 了访问时间和调谐时间。在on-demand环境中,由于每个广播周期的内容并不相同,甚至会 导致用户的无限期监听。其次,这种方式对每一个XML文档都建立索引,这使总的索引块大 小非常大。而在无线广播中,索引大小的增加必然造成访问时间的增加。最后,这种方法的 每一个索引块仅携带了一个文档的信息且这些索引块与数据块一起分布在整个广播周期 中,用户监听的时候需要经常在数据与索引块之间切换状态,这种频繁切换带来的消耗也 不能忽视。 基于以上分析,在本专利技术之前尚没有一种有效的XML空中索引方法。
技术实现思路
本专利技术的目的在于提供一种On-demand模式下的XML空中索引方法,不仅可以产 生一个基于数据库中所有XML文档的完整索引,而且可以使该索引的大小縮减到一个很小 的程度。 本专利技术的目的通过下述方法和步骤实现 首先为每个XML文档建立基于DataGuide的索引。DataGuide作为XML的结构索 弓l ,是以XML文档树结构中节点的路径信息为基础,通过对XML文档树进行约简,使得约简 后的树结构仅仅维护不相同的路径信息,而不保留其它的具有相同路径的节点信息。例如 文档根节点/a下有两个同为/b的子结点,则该文档的DataGuide仅保留一个/b子节点。 DataGuide借鉴了自动机理论中的NFA转化到DFA的思想,可以在不损失文档结构信息的同 时得到原始XML文档最简洁的支持简单路径查询的结构索引。通过为原始的XML文档建立 DataGuide索弓|,由于保留了所有出现过的路径信息,因此,仅仅利用这些DataGuide索弓|, 就可以正确完成XML查询与原始XML文档之间的匹配。 其次,将构建好的所有文档的DataGuide合并,形成一个建立在数据库中所有文 档上的完整索引。这种完整索引结构具有两大优点,第一,用户下载完整索引后可以对数 据库中的所有文档进行查询,找到所有匹配的结构文档,这样可以使用户了解自己所需要 的文档集合,使用户能够判断自己的请求是否已经得到满足,解决了已有索引在on-demand广播模式下可能造成用户无限等待的问题。第二,通过合并可以进一步删除不同的 DataGuide索引之间存在相同的路径前缀造成的的冗余,进一步减少了索引的大小。例如两 个XML文档具有相同的路径/a/b,则在合并后的索引中只会保留一条路径,降低了索引的 冗余度。 通常情况下,数据库中的总文档数量相当巨大,但是并非每个文档都会被用户请 求。当用户的请求种类有限并且可以被服务器获得的时候,可以发现对于这些请求不会访4问到的数据没有广播的意义。例如在on-demand广播模式下,服务器收集所有的用户请求 存储在本地请求队列中,即是说请求队列中包括了当前所有的用户请求的集合。而广播的 时候也只需要广播这些请求会访问到的数据即可。因此我们进一步采用了索引剪枝技术, 将所有不会被用户访问到的分支从完整索引中删除。由于在一段时间内提交的用户请求数 量有限,所需访问的数据项很可能只占数据库中所有文档数量的一小部分,因此剪枝技术 可以大大减小索引的大小。 下面对建立索引的各个步骤作进一步的描述 步骤一 为数据库中的每一个XML文档构建DataGuide,具体方法为从根节点开始 顺序扫描每个层次的所有节点,若该节点含有一个以上相同子节点,只保留其中一个。 步骤二 将在步骤一中得到的DataGuide进行合并,建立一个基于数据库中所有 文档的完整索本文档来自技高网
...

【技术保护点】
一种无线广播中的XML空中索引方法,其特征在于由基于DataGuide的基本索引结构,索引合并技术和索引剪枝技术三部分组成。

【技术特征摘要】
一种无线广播中的XML空中索引方法,其特征在于由基于DataGuide的基本索引结构,索引合并技术和索引剪枝技术三部分组成。2. 根据权利要求l所述的无线广播中的XML空中索引方法,其特征在于所述的 DataGuide基本索引结构是提取数据库中每个XML文档的最简结构信息建立索引,在每个 XML文档的树形结构中,对于位于相同层次的相同标签仅保留一个,删除其余所有的冗余节 点和相应路径。3. 根据权利要求1所述的无线广播中...

【专利技术属性】
技术研发人员:孙未未覃泳睿余平张卓瑶
申请(专利权)人:复旦大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1