信息压缩方法及其装置制造方法及图纸

技术编号:2889410 阅读:169 留言:0更新日期:2012-04-11 18:40
一种信息压缩方法及装置,该方法包含建立静态字典;由信息文件中读入一字元,加入一暂存字串;搜寻暂存字串;当暂存字串存在静态字典时,读入下一字元加入暂存字串中;当暂存字串不存在静态字典中时,输出一对应的代码,更新暂存字串为最后读入字元,并读入下一字元加入暂存字串中。也可进一步加入一字串频率统计步骤。信息压缩装置则包含一静态压缩信息存储装置及一压缩装置,以读入信息文件,用以进行压缩,产生一压缩信息。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种信息压缩方法及一种信息压缩装置,特别涉及一种可使用于电子辞典信息,具有高压缩率、快速解压缩特性的信息压缩方法及其装置。随着计算机科技的快速发展,大量的计算机设备已被广泛的应用于生活中,而随着所谓“无纸时代”的来临,大量的文件或书籍资料如商务文书、百科全书、甚至是辞典等,皆逐渐将其信息计算机化,不仅增加其保存的安全性及管理上的方便性,更藉由计算机在处理信息上易于查询、便于复制、容易携带及处理的特性,大幅度提高了使用上的便利性及信息运用上的效率。但是随着大量信息的计算机化,许多文字资料建立而成的档案资料或是文字档,其所需占用的容量亦相当的可观,过于庞大的档案,往往造成计算机硬件的存储空间如硬磁盘等过大的负荷,使管理及保存上较为不便,并导致处理及携带上的不便,也使得存取的效率及速度受到影响。虽然近年来大容量的存储设备如光盘、高容量软盘等的发展已使得存储容量大幅提高,但考虑软件信息的存取速度及方便性,缩减信息所占空间的应用技术发展,仍有相当迫切的需要。一般而言,为达到缩减信息所占空间,且不影响存储内容及信息的目的下,可采用特定的压缩方法,例如使用一数据编码技术,以较少的数据信息来代表较为多量的字元及字串信息,达到减少信息所占空间的目的。目前在缩减信息所占空间的压缩方法上,已有相当的进展,知名的压缩软件如ARJ或是PKZJP等,在作为文件压缩工具上已有相当的应用。但是以上述的压缩工具而言,对于大文件的整体压缩较为有效,但若使用于较小而多量的文件,或是将大文件分为许多个小文件时,压缩率则会大为降低,导致了对于小文件或分段式文件,高压缩率难以实现的缺点。尤其以目前的压缩技术而言,当需取得单一或特定文件中某一指定的段落或字串时,必须将压缩档中的整个文件解压,方能取得所需的信息,即必须花费将一整个文件解压缩的时间,来取得一个所需的段落或字串,相当的费时与不便。对于大多数的信息库而言,其内容多包含有具有许多笔独立的信息,例如一商业组织的客户信息、或是电子辞典的信息库等,以此种信息的使用特性来说,其内容包含了划分为许多段落或区间的个别信息,压缩后的压缩档,必须接受经常性的查询或是检出的工作,因此在应用传统的压缩方式上,受限于其压缩率过低,且取得文件中某一指定的段落或字串不易而速度极慢的缺点,无法同时达到压缩文件所占空间,且增进使用效率的要求。本专利技术的目的是提供一种信息压缩方法及装置。本专利技术的另一目的为提供一种信息压缩方法及装置,可达成较高的压缩率,并提高解压缩的速度,减少压缩文件所占空间,且增进使用效能。本专利技术的另一目的为提供一种可以适用于如电子辞典等信息库文件的信息压缩方法及装置,可提高查询或使用时即时解压缩的速度,且增进查询时解压缩的效率。本专利技术中的信息压缩方法用以压缩一信息文件,包含首先建立一静态压缩字典,静态压缩字典至少包含多个代码,一对一的相对应于多个字串;再由信息文件中读入一字元,加入一暂存字串;并于静态压缩字典中,搜寻暂存字串;当暂存字串存在于静态压缩字典时,由信息文件中读入下一字元,加入暂存字串中;而当暂存字串不存在于静态压缩字典中时,输出一对应于一前一暂存字串的一代码,以最后读入的字元取代为暂存字串,由信息文件中读入下一字元,加入暂存字串中。本专利技术的方法还可进一步选择性的加入一个字串频率统计步骤,针对信息文件中所有出现的字串,进行出现次数的统计,以将使用频率较高的字串加入静态压缩字典中,增加对信息文件的压缩率。也可藉由一分段结构的方式,加入可相互与一索引信息相对应的编码或存储位址,进一步可加快解压缩时,即时取得信息的速度。本专利技术中的信息压缩装置包含一静态压缩信息存储装置,静态压缩信息存储装置包含多个代码,一对一的相对应于多个字串;及一压缩装置,与静态压缩信息存储装置相连结,压缩装置读入信息文件与多个代码,用以进行压缩,以产生一压缩资料。信息压缩装置可进一步包含一动态压缩信息存储装置,与压缩装置相连,用以于压缩步骤中存储多个动态字串信息。附图说明图1为本专利技术中信息压缩装置结构及连接示意图。图2显示本专利技术中信息压缩方法的压缩处理过程的流程图。图3显示本专利技术中信息压缩方法的字串频率统计过程的流程图。图4为本专利技术中信息压缩方法所对应的解压缩处理过程的流程图。图5为本专利技术中信息压缩方法,采用分段压缩方式时的对应结构。本专利技术中提供一种信息压缩方法及装置,利用一静态压缩字典及一动态压缩字典的建立,使静态压缩字典包含使用频率高的字串,而将使用频率低的字串置于动态压缩字典中,并包含多数个一对一相互对应的编码或代码,增进对文件压缩的压缩率。并可进一步选择性的加入一字串频率统计过程,针对文件中所有出现的不定长字串,进行出现次数的统计,并将出现频率加以排列,加入静态压缩字典中,以进一步增加此信息压缩方法的压缩率。也可藉由一加入分段结构的特征及方法,加快解压缩的速度。参见图1所示,为本专利技术中信息压缩装置的结构及连接示意图。当对信息文件10进行压缩时,信息文件10内的信息,经过一压缩装置12将其信息内容、即字元或字串读入,处理后输出代码以产生一压缩信息14,压缩装置12与一静态压缩字典16及一动态压缩字典18连结。静态压缩字典16为一静态压缩信息存储装置,其中至少包含信息文件10中经常使用或出现的字串及字元,及这些字串或字元所对应的编码或代码,作为压缩时对应之用,在同一文件或段落中为一不受压缩装置12影响而变化的信息内容;动态压缩字典18为一动态压缩信息存储装置,用以存储压缩装置12处理过程中,不包含于静态压缩字典16中的字串,动态压缩字典18即作为一暂存区域,根据当时所处理的信息文件10中的字串所临时建立而成,其信息内容会随压缩过程的进行而变动。本专利技术中信息压缩方法所使用的装置还可进一步加入一字串频率统计装置20,如图1中所示,与信息文件10及静态压缩字典16相连结,以对信息文件10中所有出现的不定长度的字串,进行出现次数的统计,并以出现频率的多寡将字串依序加以排列,取出其中出现频率较高者,成为一高频字典,并加入静态压缩字典16中,做为常用字串,以更进一步增加压缩装置12处理信息时的速度及所得压缩信息14的压缩率。信息压缩装置中还可包含一对应的解压缩装置22,如图1中所示,解压缩装置22用以读入压缩信息14,藉由静态压缩字典16中字串或字元与代码对应,执行一解压缩步骤,以输出一还原信息文件,即为原来的信息文件10。本专利技术中的信息压缩方法,其压缩处理的流程可参照图2所示的流程图,压缩过程50开始之后,首先由信息文件10中的起始处读入一字元,存入一暂存字串中(步骤52);并于静态压缩字典16中,搜寻暂存字串(步骤54);当暂存字串存在于静态压缩字典时,由信息文件中读入下一字元,加入暂存字串中(步骤56);而当暂存字串不存在于静态压缩字典16中时,输出一对应于一前一暂存字串的一代码,以最后读入的字元取为代为暂存字串的内容,再由信息文件10中读入下一字元,加入暂存字串中(步骤58)。信息压缩方法即是反复进行上述的步骤54至步骤56(或步骤58),并于每一次读入下一字元时由读入字元判断是否到达结尾,当尚未到达信息文件10的分段处或结束处时,即重复的进行压缩过程;当已到达信息文件10的分段处或结束处时,即本文档来自技高网...

【技术保护点】
一种信息压缩方法,用以压缩一信息文件,该方法至少包含下列步骤:建立一静态压缩字典,该静态压缩字典至少包含多个代码,一对一的对应于多个字串;由该信息文件中读入一字元,加入一暂存字串;于该静态压缩字典中,搜寻该暂存字串;当该暂存 字串存在于该静态压缩字典时,由该信息文件中读入下一个该字元,加入该暂存字串中;及当该暂存字串不存在于该静态压缩字典中时,输出一对应于一前一个该暂存字串的一代码,且以最后读入的该字元取代为该暂存字串,并由该信息文件中读入下一个该字元,为入 该暂存字串中。

【技术特征摘要】

【专利技术属性】
技术研发人员:林光信卢凤顺李伯峰
申请(专利权)人:英业达股份有限公司
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1