当前位置: 首页 > 专利查询>北京大学专利>正文

结构约束下获得可扩展标记语言频繁查询模式的方法技术

技术编号:2857349 阅读:147 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种结构约束下获得可扩展标记语言频繁查询模式的方法,包括:处理XML查询遵从的DTD,生成结构约束矩阵;将XML查询模式树转换成用于挖掘频繁模式的XML查询模式扩展树;在XML查询模式扩展树集合中计算频繁1阶扩展子树;从频繁1阶扩展子树出发,对子树进行满足结构约束矩阵的扩展,直到获得所有的频繁查询模式。本发明专利技术提出的结构约束下XML频繁查询模式的快速发现方法,能够自动、快速挖掘出海量XML查询中的频繁查询模式,可以直接应用于XML数据集成与交换系统,有效提高XML查询执行的性能。

【技术实现步骤摘要】

本专利技术涉及一种可扩展标记语言XML(eXtensible Markup Language)频繁查询模式的挖掘方法,尤其是一种在DTD(Document Type Definition,文档类型定义)结构约束下,即基于结构约束的可扩展标记语言频繁查询模式的挖掘方法。
技术介绍
可扩展标记语言XML已经成为Internet上数据表示和交换的标准,与传统的关系数据库不同,XML数据的结构更加复杂和灵活,适合于表达Internet上的数据;但是,XML的查询执行代价过高,尤其是面对互联网上海量的用户查询,这个问题更为突出;因此,如何有效地提高XML数据管理系统的查询性能,成为数据管理领域研究的重要的问题。挖掘Internet环境下海量用户查询中的公共的、频繁的查询模式,可以有效地提高系统的整体查询效率。例如,可以将这些频繁查询模式的结果进行存储,形成XML物化视图和语义缓存系统,从而提高后续查询执行的效率。由于XML查询语言的结构复杂(例如嵌套、递归等),不同于普通的频繁模式挖掘方法和技术,挖掘XML频繁查询模式还面临许多困难。文献提出了在大量的树集合中挖掘频繁子树的方法。给出了树的扩展子树的概念,并且使用特殊的数据结构简化了候选模式支持度的计算,但是该方法是针对一般树的概念提出的挖掘方法,XML查询树与普通树的概念还有很大差别,因此不能直接应用于XML查询树的挖掘。文献提出了通过挖掘XML频繁查询模式建立语义缓存来提高XML系统的查询效率的思想。与本专利方法不同的是该方法将多XML查询进行合并得到全局的查询树,利用全局的查询树指导频繁模式挖掘过程中候选模式的生成,由于查询树的差异很大(即使基于相同DTD的各个查询差异也很大),所以全局查询树的规模有可能会非常大,影响执行的效率。从上面的分析可以看出,现有的对于XML的频繁查询模式的挖掘过程需要进行代价很高的候选频繁模式的生成和查询包含或相等的判定;在生成候选模式过程中产生了大量的冗余,成为本
的一个急待解决的问题。下面首先介绍本专利技术的一些相关技术。1.树的编码。对于树的编码时,按照深度优先进行编码,当遇到新的节点时,将节点标号加入;如果回溯时,每回溯一次,将一个-1加入编码。如图2所示,是一个树的例子,对该树进行编码得到的结果为1(T)=62-1-145-12-1-1。2.节点的范围区间值a)令T(n1)表示以节点n1为根的树,并且令nr是T(n1)的最右叶节点,则节点n1的范围区间值用区间表示,其中l≤r;b)例如节点0的范围区间值s=。3.子树的编码区间表子树的编码区间表是一个三元组(tId,mLabel,sNode)序列,其中的tId表示该子树所属的查询树的ID,mLabel表示该子树结点(最右叶节点除外)在查询树上对应的节点标记,sNode表示该子树最右叶节点的scope值。4.扩展子树编码区间表的自连接操作由前缀相同(k子树的前k-1个节点编码相同)的频繁的k子树T1、T2生成频繁的k+1子树;令节点x、y的范围区间值分别用sx=和sy=表示,若T1、T2的编码区间表中分别有这样的元组(tx,mx,sx)、(ty,my,sy),并且tx=ty,mx=my,则1)如果lx≤ly并且rx≥ry,则y节点作为x节点的子节点加入到x节点所在的子树中,在新生成的子树中加入元组(ty,my∪lx,sy)2)如果rx<ly.,则y节点作为x节点的兄弟节点加入到x节点所在的子树中,在新生成的子树中加入元组(ty,my∪lx,sy)。5.XML查询模式扩展树XML查询是通过XPath表达式表示的,而XPath可以图形化的表示成模式树。用扩展树可以表达XPath。如果满足下面的条件i).Ns_Nii).b=(nx,ny)∈Bs当且仅当在T中nx≤1ny,则一个树S=(Ns,Bs)是XML查询模式树T=(N,B)的扩展树如图3所示,是一个合法的XML查询模式扩展树。6.DTD结构约束在DTD定义中,元素和其属性或子元素之间有四种结构约束关系,分别用符号A、B、C、D表示。 7.DTD标注图对于图G=(V,E),V是DTD中定义的元素或属性的有限集,每一个边e上标记有DTD结构约束关系。DTD标注图表示给定的DTD的相邻节点(元素或属性)之间的结构约束关系,当解析DTD的时候可以建立。解析DTD,从根元素开始分析每一个元素的类型,每当遇到一个新的元素或属性就在DTD标注图中添加一个节点,并在该节点和其父元素之间连一条有向边(由父元素指向该节点,根节点只有出边),边的标记即DTD元素类型定义中对应的结构约束关系的取值。解析过程结束时就建立了一个DTD标注图。如果将DTD标注图用邻接矩阵M存储,M表示节点之间的约束关系,根据M以及约束关系的合并规则,可以求出任意两个节点之间的约束关系,该结构约束关系可以用另一个矩阵M’(结构约束矩阵)表示。8.XML查询模式树的频繁子树挖掘对于给定的XML查询模式树集合和用户指定的最小支持度,频繁的扩展子树挖掘问题是从查询模式树中找出所有的满足用户条件的频繁的扩展子树。例如图4左边是两个查询模式扩展树,用户条件是支持度等于3,找出在上面两个查询中出现次数大于3的XML查询模式扩展子树;图4的右边即是一棵满足条件的扩展子树。
技术实现思路
本专利技术所要解决的技术问题在于,提出一种结构约束下快速获得可扩展标记语言频繁查询模式的方法,它能够降低生成候选频繁模式和查询包含或相等的判定的执行代价,减少生成候选模式过程中产生的冗余。本专利技术的,包括如下步骤步骤一、处理XML查询遵从的DTD,生成DTD结构约束矩阵;步骤二、将XML查询模式树转换成用于挖掘频繁模式的XML查询模式扩展树;步骤三、对XML查询模式扩展树编码并分析其编码,计算1阶扩展子树中大于或等于用户的最小支持度的频繁扩展子树; 步骤四、从频繁的1阶扩展子树出发,对树进行满足步骤一得到的结构约束矩阵的扩展,直到获得所有的频繁查询模式。本专利技术提出的方法,能够自动、快速挖掘出海量XML查询中的频繁查询模式,可以直接应用于XML数据集成与交换系统,有效提高XML查询执行的性能;这种基于DTD结构约束的XML频繁查询模式的快速挖掘方法,可以深层挖掘XML查询的规律,提高了挖掘效率。可以直接用于互联网环境下的大规模语义缓存系统和XML数据管理系统来提高互联网环境下的XML查询效率,具有广阔的应用前景。附图说明图1是本专利技术的整体步骤流程图;图2是一个XML查询模式扩展树的示例;图3所示是图2中树的一个合法的XML查询模式扩展子树;图4是给定XML查询模式树集合和最小支持度时找到的一个XML查询模式扩展子树的示意图;图5是查询遵从的DTD及解析得到的DTD标注图;图6是一个XPath查询的模式树对应的查询模式扩展树;图7是包括查询树T0的查询集合,基于图5所示的DTD;图8是包括查询树T1的查询集合,基于图5所示的DTD;图9是包括查询树T2的查询集合,基于图5所示的DTD。具体实施例方式可扩展标记语言XML已经成为Internet上数据表示和交换的标准,越来越多的应用系统采用XML作为标准格式来交换数据。但是XML的查询执行代价过高,尤其是面对互联网上海量的用户查询,这个问题更本文档来自技高网
...

【技术保护点】
一种结构约束下获得可扩展标记语言频繁查询模式的方法,其特征在于:包括如下步骤:步骤一、处理XML查询遵从的DTD,生成DTD结构约束矩阵;步骤二、将XML查询模式树转换成用于挖掘频繁模式的XML查询模式扩展树;步骤三 、对XML查询模式扩展树编码并分析其编码,计算1阶扩展子树中大于或等于用户的最小支持度的频繁扩展子树;步骤四、从频繁的1阶扩展子树出发,对树进行满足步骤一得到的结构约束矩阵的扩展,直到获得所有的频繁查询模式。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘云峰杨冬青唐世渭王腾蛟高军
申请(专利权)人:北京大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1