压缩装置、压缩方法、词典生成装置、词典生成方法、解压装置、解压方法、解压程序以及信息处理系统制造方法及图纸

技术编号:12300586 阅读:77 留言:0更新日期:2015-11-11 11:01
根据一个侧面,目的在于抑制由书写差异的存在引起的压缩率的降低。根据一个实施方式,压缩装置包含:存储部,其存储对相互不同的多个字符信息分配的第一压缩编码与上述多个字符信息的每一个相关联的词典信息;获取部,其在获取了上述多个字符信息中的第一字符信息的情况下,从上述词典信息中获取与上述第一字符信息相关联的上述第一压缩编码;以及写入部,其将获取的上述第一压缩编码写入储存压缩数据的储存区域。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及数据的压缩技术或者解压技术的至少一方。
技术介绍
在使用了哈夫曼编码、算术压缩等可变长度压缩编码的压缩算法中,对压缩编码的分配对象的字符信息组,字符信息组所包含的每个字符信息分配与出现频率等统计信息相应的长度的压缩编码。在哈夫曼编码的压缩算法中,基于字符信息组所包含的字符信息间的出现频率的大小比较来进行压缩编码的生成。在算术压缩中,生成基于字符信息组整体的各字符信息的出现比例确定的编码长度的压缩编码。在这些压缩算法中,出现频率越高的字符信息越分配较短的压缩编码,从而短的压缩编码的使用频率升高,所以压缩数据整体的压缩率提高。哈夫曼编码、算术压缩等压缩算法中的可变长度压缩编码的分配对象是字符、数字等符号。另外,存在对压缩编码的分配对象进行扩长,对作为符号的组合的单词、标签等字符串分配可变长度压缩编码的技术。在该情况下,由于对多个符号的组合分配一个压缩编码,所以压缩率提高(例如,参照专利文献I)。现有技术文献专利文献专利文献1:日本特开2010-93414号公报专利文献2:日本特开平05-241777号公报
技术实现思路
专利技术要解决的课题文档数据由作为字符、数字等符号的组合的单词、标签等字符串构成。文档数据内的各字符串分别与特定的含义、语法上的功能等概念对应,但即使是与通用的概念对应的字符串,彼此也存在符号的组合(书写)不同,所谓的书写差异。作为书写差异的例子,可举出动词、形容词等活用词的活用、同义词、近义词等。在对单词、标签等字符串的可变长度压缩编码的分配中,越是出现频率较高的字符信息越分配较短的压缩编码。若产生书写相互不同的多个字符串(多个种类的字符串)与一个概念对应的书写差异,则与I种字符串与一个概念对应的没有书写差异的情况下的字符串的出现频率相比,多个种类的字符串的每一种的出现频率降低。因此,对多个种类的字符串的每一种分配的压缩编码变长,而成为压缩率降低的重要因素。根据本专利技术的一个侧面,目的在于抑制由书写差异的存在引起的压缩率的降低。用于解决课题的手段根据一个实施方式,压缩装置包含:存储部,其存储对相互不同的多个字符信息分配的第一压缩编码与上述多个字符信息的每一个相关联的词典信息;获取部,其在获取了上述多个字符信息中的第一字符信息的情况下,从上述词典信息中获取与上述第一字符信息相关联的上述第一压缩编码;以及写入部,其将获取的上述第一压缩编码写入储存压缩数据的储存区域。根据一个实施方式,解压装置包含:存储部,其存储使对相互不同的多个字符信息通用地分配的第一压缩编码和与上述多个字符信息对应的第一字符信息相关联的词典信息;获取部,其在从压缩数据中获取了上述第一压缩编码的情况下,从上述词典信息中获取在上述词典信息中与上述第一压缩编码相关联的上述第一字符信息;以及写入部,其将获取的上述第一字符信息写入储存上述压缩数据的解压结果的储存区域。根据一个实施方式,信息处理系统是包含存储有压缩数据的存储装置、和执行与针对上述压缩数据的处理请求相应的处理的处理装置的信息处理系统,上述处理装置包含:存储部,其存储使对相互不同的多个字符信息分配的第一压缩编码与上述多个字符信息的每一个相关联的词典信息;读出部,其根据上述处理请求,从上述存储装置中读出上述压缩数据;第一获取部,其在从上述压缩数据中获取了上述第一压缩编码的情况下,从上述词典信息中获取在上述词典信息中与上述第一压缩编码相关联的第一字符信息;第一写入部,其将获取的上述第一字符信息写入储存上述压缩数据的解压结果的第一储存区域;处理部,其对被储存至上述第一储存区域的解压结果执行与上述处理请求相应的处理;第二获取部,其在从进行了与上述处理请求相应的处理的数据中获取了上述第一字符信息的情况下,根据上述词典信息获取与上述第一字符信息相关联的上述第一压缩编码;第二写入部,其将获取的上述第一压缩编码写入第二储存区域;以及储存部,其将被写入上述第二区域的数据储存至上述存储装置。根据一个实施方式,词典生成装置包含:分配部,其对与相互不同的多个字符信息对应的I种通用字符信息进行压缩编码的分配处理;以及生成部,其生成使对上述通用字符信息分配的第一压缩编码与上述相互不同的多个字符信息的每一个相关联的词典信息。根据一个实施方式,词典生成装置包含生成部,该生成部生成使对相互不同的多个字符信息通用地分配的第一压缩编码和与上述多个种类的字符信息对应的第一字符信息相关联的词典信息。专利技术效果根据一个侧面,能够抑制由书写差异的存在引起的压缩率的降低。【附图说明】图1表示压缩处理以及解压处理的概要。图2表示朝向压缩编码的转换例。图3表示功能模块的结构例。图4表示压缩功能的处理步骤例。图5表示压缩词典生成的处理步骤例。图6表示频率汇总处理的处理步骤例。图7表不转换表Tl的例子。图8表示统计表T2的例子。图9表示压缩词典Dl的数据结构例。图10表示压缩数据生成处理的处理步骤例。图11表示解压功能的处理步骤例。图12表示解压词典生成的处理步骤例。图13表示解压词典D2的数据结构例。图14表示解压数据生成处理的处理步骤例。图15表示朝向压缩编码的转换例。图16表示压缩词典的数据结构例。图17表不解压词典的数据结构例。图18表示解压数据生成处理的处理步骤例。图19表示压缩编码的分配例。图20表示解压词典的数据结构例。图21表示解压数据生成处理的处理步骤例。图22表示解压数据生成处理的处理步骤例。图23表示解压数据生成处理的处理步骤例。图24表示解压数据生成处理的处理步骤例。图25表示解压数据生成处理的处理步骤例。图26表示解压数据生成处理的处理步骤例。图27表示解压数据生成处理的处理步骤例。图28表示计算机I的硬件构成例。图29表示通过计算机I运作的程序构成例。图30表示使用了计算机I的系统构成例。图31表示使用计算机I的系统构成例。【具体实施方式】图1表示压缩处理以及解压处理的概要。压缩文件F2的生成基于文件Fl和转换表Tl来进行。转换表Tl对与通用的概念对应的多个种类的字符信息的每一种与表示在该多个种类的字符信息中通用的概念的通用字符信息建立对应关系。例如,转换表Tl还可以使识别多个种类的字符信息彼此的识别符号与上述多个种类的字符信息(相互不同的多个字符信息)的每一种建立对应关系。对于各个分配压缩编码的对象的字符信息组,文件Fl中的频率汇总Hl基于转换表Tl来进行。在频率汇总Hl的处理中,将在转换表Tl中与通用字符信息建立有对应关系的字符信息作为通用字符信息来计数。另外,在频率汇总Hl的处理中,与识别符号建立有对应关系的字符信息也可以以通用字符信息以及识别符号双方来计数。频率汇总Hl的处理的汇总结果被储存至频率表T2。另外,例如,频率汇总Hl的处理也可以代替文件F1,基于估计较多地包含与文件Fl通用的字符信息的文件(例如,版数不同的书籍等)来进行。另外,频率汇总Hl例如也可以基于包含文件Fl的多个文件(对某个文件进行分割而得到的分割文件组(包含文件Fl)等)来进行。对被储存至频率表T2的字符信息组(包含通用字符信息、或者包含通用字符信息和识别符号双方),基于每一个的出现频率进行编码分配Η2的处理。例如,根据哈夫曼编码的算法,通过字符信息彼此的出现频率的比较来对各字符信息分配压缩编本文档来自技高网...

【技术保护点】
一种压缩装置,其特征在于,包含:存储部,其存储对相互不同的多个字符信息分配的第一压缩编码与所述多个字符信息的每一个相关联的词典信息;获取部,其在获取了所述多个字符信息中的第一字符信息的情况下,从所述词典信息获取与所述第一字符信息相关联的所述第一压缩编码;以及写入部,其将获取的所述第一压缩编码写入储存压缩数据的储存区域。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:村松千织西泽信一郎片冈正弘出内将夫
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1