一种适用于宽字符集文档的压缩方法技术

技术编号:3423722 阅读:188 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种适用于宽字符集文档的压缩方法,主要是先对文档的中、英文字符分别进行编码,忽略英文字符中重复的高字元0x00,且利用自订规则,对中文字符重新进行编码,并在每段英文之前及每段中文之前,分别加入不会与文档数据冲突的额外标记,用以区分中、英文字符,以便在后续压缩程序中,依其低字元在前、高字元在后的顺序及出现概率,据以分别进行压缩,本发明专利技术的压缩方法可有效减少中、英文字符在HUFFMAN树图中的节点数量,从而大幅提升文档的压缩率。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

【技术保护点】
一种适用于宽字符集文档的压缩方法,针对宽字符集文档进行压缩,该方法包括下列步骤: (1)首先,统计出宽离符集文档中不同字符的个数; (2)其次,藉所统计出不同中文字符的个数及各该中文字符的出现顺序,依一自订的规则,建立中文字符的码值转换表, 对这些中文字符进行重新编码,以降低其HUFFMAN树图中的节点数量;再利用LZSS运算法在处理重复字元的编码上较佳的处理能力,对英文字符进行重新编码,令在每段英文之前及每段中文之前,分别加入一不会与文档数据冲突的额外标记,用以区分中、英文字符,以便在后续对这些英文字符进行压缩时,不压缩其高字元0x00部份; (3)然后,再依各字符出现的次数及低字元在前、高字元在后的顺序,分别建立二个HUFFMAN树图; (4)最后,根据该HUFFMAN树图分别建立中、英文字符的编码对应表,以使文档的中、英文字符依该编码对应表完成编码及压缩程序。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈淮琰郑建锋
申请(专利权)人:无敌科技西安有限公司
类型:发明
国别省市:87[中国|西安]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1