数据压缩器和数据解压缩器制造技术

技术编号:3422242 阅读:178 留言:0更新日期:2012-04-11 18:40
本申请涉及数据压缩器、数据解压缩器以及数据管理系统。具体来说,一种数据压缩器101的结构如下:一个分离器103将具有多个各有自己的类型和值的顶点、并具有顶点之间的引用信息的输入数据106,分离为具有顶点之间的引用信息的交叉引用数据以及顶点群;这样分离得到的顶点群的数据被输出,作为第二输出数据;一个模板存储器102存储具有特定模式的交叉引用信息作为模板,在模板中,可以共享顶点之间的引用信息;一个模板匹配检测器104从分离的交叉引用数据中检测与存储的模板匹配的部分;一个模板替换器105用所述模板替换交叉引用数据中被检测到的匹配部分,并输出所替换的交叉引用数据作为第一输出数据107。

【技术实现步骤摘要】

本专利技术涉及用于电子数据的压缩器、解压缩器以及数据管理系统。
技术介绍
近年来,WWW(万维网)的普及导致使用结构化文档比如HTML(超文本标记语言)和XML(可扩展标记语言)的数据交换增加。尤其是,XML作为补充HTML的下一代语言正在引起注意,预期在将来在因特网信息交换领域将最为普遍。XML是一种使用数据表达来表示元素的等级结构的语言,用XML写的文档(XML文档)的描述例如如图18所示。图18是一个示意图,图示了XML文档10。如图18所示,XML通常被分类为标记和文本信息。在示于图18的XML文档中,标记包括元素开始标记(开始标记,start tag)Ma,元素结束标记(结束标记,end tag)Mb,以及空元素标记(empty element tag,empty element mark)Mc。在图18中,<book>,<title>,<authors>,<author>,<contents>以及<chapter>表示元素开始标记Ma。另外,</book>,</title>,</authors>,</author>,</contents>和</chapter>表示元素结束标记Mb。<misc/>表示空元素标记Mc。从这些元素开始标记Ma到相应的元素结束标记Mb的每一个区域,或者空元素标记Mc表示一个元素(作为XML基础的一个信息单元)。在元素开始标记Ma和元素结束标记Mb之间,可以描述另一个元素标记和/或文本信息。在示于图18的XML文档10中,例如,被定义为文本信息的信息包括字符串元素<title>中的″Fundamentals ofXML″,以及出现在元素<authors>中的第一个元素<author>中的字符串″YAMADA TARO″。在元素和文本信息之间定义父子关系和同胞关系。在示于图18的XML文档10的情况下,以元素开始标记Ma<book>开始并以元素结束标记Mb</book>结束的元素(也就是元素<book>)包含以元素开始标记Ma<title>开始并以元素结束标记Mb</title>结束的元素(也就是元素<title>)。在这种情况下,元素<book>被称为元素<title>的父元素,元素<title>是元素<book>的子元素。这就是元素之间的父子关系。元素<title>和元素<authors>有同一个父元素<book>,并且是相邻的。在这种情况下,元素<title>和元素<authors>被称为同胞。元素<title>被称为元素<authors>的前同胞(previous sibling),元素<authors>是元素<title>的后同胞(next sibling)。这就是元素之间的同胞关系。一般,XML被表示为文本格式,就如图18所示的XML文档10,在计算机之间通信或者在硬盘设备或者山村中存储。另一方面,在用于计算机内部的搜索和校正时,将其解析、转换为适合计算机内部的数据结构。图19的示意示了解析图18所示的XML文档而将其转换为一种适合计算机内部使用的格式二获得的数据结构11。在图19中,元素和文本信息被描述为具有各自的类型和值的顶点(vertices)301到317。在每一个顶点301-317的左侧描述类型“E”表示元素,“T”表示文本信息。例如,顶点301的类型301a为“E”。在每一个顶点右侧描述值例如,顶点301的值301b为″book″。在顶点表示元素的情况下,在其值中描述元素的名称(元素名)。在顶点表示文本信息项目的情况下,在其值中描述字符串。例如,顶点302表示元素名<title>,顶点306表示文本信息″Fundamentals of XML″。每一个顶点301-317具有从四种引用信息中选择的引用信息父引用信息,子引用信息,后同胞引用信息以及前同胞引用信息,以便表达原始(未转换的)XML文档10的父子关系和同胞关系。在前述XML文档10的情况下,其中元素<title>是元素<book>的子元素,元素<book>是元素<title>的父元素,示于图19的数据结构11如下构建例如,对于顶点301、302,它们具有从<book>到<title>的子引用P1,以及从<title>到<book>的父引用P2,它们用箭头表示。元素<book>还有元素<authors>作为<title>的下一个子元素。在这种情况下,顶点302、303有从元素<title>到元素<authors>的后同胞引用P3,以及从元素<authors>到元素<title>的前同胞引用P4。除了首个子元素(例如元素<title>)之外,同胞关系中的元素被定义为没有直接的父引用。在数据结构中,顶点之间的引用信息的管理可以独立于元素名和文本信息。例如,它们可以分别表示为图20(a)所示和图20(b)所示。图20(a)的示意示了具有顶点之间的引用信息的交叉引用数据400,图20(b)的示意示了一个表格450,其中示出了类型和值分别被设置为元素和文本信息的顶点的集合(也称为顶点群)。但是,由于存储设备比如内存的容量有限,在数据结构的存储中要求有效地压缩数据结构而存储压缩数据。对此,文献″MathiasNeumuller and John N.Wilson″Compact In Memory Representationof XML″Internal Report of University of Strathclyde″(下称文献1)公开了一种压缩本文档来自技高网...

【技术保护点】
一种数据压缩器,包括:分离装置,用于:将具有多个各有自己的类型和值的顶点、并具有顶点之间的引用信息的输入数据,分离为具有顶点之间的引用信息的交叉引用数据以及由多个具有类型和值的顶点构成的顶点群,并用于输出这样分离出来的顶点群的数据; 模板存储装置,用于存储顶点之间的具有特定模式的引用信息作为模板,其中,所述模板可以与存储的其它模板共享顶点之间的引用信息;模板匹配检测装置,用于从所述分离装置分离出来的交叉引用数据中检测与在所述模板存储装置中存储的模板匹配的 部分;以及模板替换装置,用于:在能够引用顶点之间的引用信息的状态下,用模板替换由模板匹配检测装置在由分离装置分离出来的交叉引用数据中检测到的匹配部分,并输出所替换的交叉引用数据。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:行友英记中山雄大金野晃竹下敦
申请(专利权)人:株式会社NTT都科摩
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利