当前位置: 首页 > 专利查询>李朝中专利>正文

一种基于树结构的语言库压缩方法和系统技术方案

技术编号:6844245 阅读:178 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及数据压缩方法和系统,特别是一种基于树结构的语言库压缩方法和系统。它包括如下步骤:A通过搜索单元遍历存放于主树存储单元内的主树,选出压缩比最好的子树;B将步骤A搜索到的子树范例连接到子树集合存储单元的子树节点上,用当前编号赋予该子树节点并以该节点替代主树上该子树及其同类的出现,然后再将子树节点编号计数器加1;C循环执行步骤A,直到无法寻找到子树为止。它主要解决现有DAWG压缩法效率不高且不适合对大型数据库的压缩和快速搜索技术问题。

【技术实现步骤摘要】

本专利技术涉及数据压缩方法和系统,特别是一种基于树结构的语言库压缩方法和系统
技术介绍
树结构在载体上的实现有赖于一般树与二叉树的等价转换和在存储器中按深度搜索存放树节点。前者被用来设定节点的数据结构而后者对该结构优化并使之走向实际应用。例如从词汇add,adding, added, adds组成的一般树转换为二叉树可得出节点的数据结构。从一般树(图1)到对应的二叉树(图2)可得节点的数据结构为<KPXBPXE0WXL>。 将该二叉树按深度搜索存放(图3),可优化节点数据结构为<KXB><E0WXL>,省去了指针开销。但从某节点到其兄弟节点要越过该节点的所有子辈节点,比如从节点(i)到兄弟节点(e)要经过(i)所有子辈节点(n),(g)。当然也可以从词库直接生成二叉树。由于语言库树结构的深度与该库中最长的词汇有关而宽度与词库中词的总量有关,因此语言库树结构的特点是深度有限宽度很大。随着词汇量的加大更是如此。最后,在载体上引擎实现的方法是用一些数组或向量当作堆栈作为工作平台,从树的指定地点进入,按深度优先搜索扫描树节点,存入匹配的节点或指针信息入本文档来自技高网...

【技术保护点】
1.一种基于树结构的语言库压缩方法,其特征在于它包括如下步骤:A通过搜索单元遍历存放于主树存储单元内的主树,选出压缩比最好的子树;B将步骤A搜索到的子树范例连接到子树集合存储单元的子树节点上,用当前编号赋予该子树节点并以该节点替代主树上该子树及其同类的出现,然后再将子树节点编号计数器加1;C循环执行步骤A,直到无法寻找到子树为止。

【技术特征摘要】

【专利技术属性】
技术研发人员:李朝中
申请(专利权)人:李朝中
类型:发明
国别省市:CA

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1