转换装置和转换方法制造方法及图纸

技术编号:13426442 阅读:51 留言:0更新日期:2016-07-29 14:45
本发明专利技术涉及转换装置和转换方法。信息处理设备接收压缩文件,在该压缩文件中,以包括单个字符或多个字符的字符串为单位对具有第一字符代码的字符串数据进行压缩。信息处理设备将被包括在压缩文件中的压缩信息转换成经转换的压缩信息,所述压缩信息将所述压缩文件中的经压缩的字符串数据中的每一个映射至具有所述第一字符代码的字符串的相应单位中的每一个,从而所述经转换的压缩信息将所述压缩文件中的经压缩的字符串数据中的每一个映射至具有第二字符代码的字符串的相应单位中的每一个。信息处理设备根据被映射至经压缩和编码的字符数据串的压缩和编码的单位以及经转换的字符数据串的压缩和编码的单位的压缩信息来生成扩展文件。

【技术实现步骤摘要】
转换装置和转换方法
本文中讨论的实施方式涉及转换装置和转换方法。
技术介绍
当对压缩数据执行字符代码转换时,通常将该转换执行两遍。第一遍是扩展处理,并且第二遍是字符代码转换处理(例如,参考日本公开特许专利公报第2003-30030号)。该处理需要存储区域,其被准备以在其中存储扩展处理的结果。应用LZ77的ZIP被广泛用作压缩算法和扩展算法。在ZIP中,滑动窗口用于确定要被压缩的字符串的最长匹配字符串,以生成压缩数据。滑动窗口还用于确定要被扩展的压缩数据的最长匹配字符串,以生成扩展数据。通过使用以字节为单位的滑动窗口来确定最长匹配字符串。存在通过以下方法来生成压缩数据的已知技术:通过使用静态字典将要被压缩的字符串转换成被分配给静态字典中的日语单词或者汉语、日语或韩语(CJK)字符的压缩代码。专利文献1:日本公开特许专利公报第2003-30030号。然而,当对通过扩展压缩数据而获得的数据执行字符代码转换时,从压缩数据的扩展处理输出的数据的单位不同于要执行字符代码转换处理的数据的单位。为了解决该问题,作为单独的处理,首先通过扩展处理来开发全部的压缩数据,并且然后对所开发的数据执行字符代码转换处理。因此,作为示例,存在浪费地使用存储区域的问题。作为另一示例,存在该处理花费太多时间的问题。例如,在特定字符代码系统中,日语单词或者作为汉语、韩语和日语的字符的CJK字符被登记在传统技术中所使用的静态字典中。将登记在静态字典中的日语单词和CJK字符转换成被分配给其的压缩代码,以执行压缩处理。在这种情况下,如图1所示,在扩展处理中使用与静态字典相对应的扩展树来扩展全部的压缩数据,并且将完全地扩展的扩展数据存储在存储区域中。在字符代码转换处理中,对存储在存储区域中的全部扩展数据的字符代码进行转换,以生成经转换的数据。因此,在扩展处理中,将全部压缩数据的扩展结果存储在存储区域中。因此,浪费地使用了存储区域。此外,扩展处理和字符代码转换处理的处理花费了太多时间。在一个方面中,目的是防止浪费地使用用于扩展处理和字符代码转换处理的存储区域。在另一方面中,目的是减少扩展处理和字符代码转换处理的处理时间。
技术实现思路
根据实施方式的一个方面,非暂态计算机可读记录介质在其中存储计算机程序。计算机程序使计算机执行处理。该处理包括输入压缩文件,在该压缩文件中,以包括单个字符或多个字符的字符串为单位对具有第一字符代码的字符串数据进行压缩。该处理包括将压缩文件中包括的压缩信息转换成经转换的压缩信息,所述压缩信息将所述压缩文件中的经压缩的字符串数据中的每一个映射至具有所述第一字符代码的字符串的相应单位中的每一个,从而所述经转换的压缩信息将所述压缩文件中的经压缩的字符串数据中的每一个映射至具有第二字符代码的字符串的相应单位中的每一个。该处理包括根据所述经压缩的字符串数据中的每一个以及所述经转换的压缩信息来生成经转换的压缩文件。附图说明图1是扩展处理的示例;图2是示出了根据本实施方式由信息处理设备执行的压缩处理的示例性流程的图;图3是动态字典单元的示例;图4是压缩文件F2的框图的示例;图5A是示出了根据本实施方式由信息处理设备执行的扩展处理的示例性流程的图(1);图5B是示出了根据本实施方式由信息处理设备执行的扩展处理的另一示例性流程的图(2);图6是示出了根据本实施方式的信息处理设备的配置的功能框图;图7是根据本实施方式的字符代码表的数据结构的示例;图8A是示出了压缩树的数据结构的示例的图(1);图8B是示出了压缩树的数据结构的另一示例的图(2);图9是示出了扩展树的数据结构的示例的图;图10是示出了根据本实施方式的压缩单元的配置的示例的功能框图;图11是示出了根据本实施方式的扩展单元的配置的示例的功能框图;图12是示出了根据本实施方式由压缩单元执行的处理过程的流程图;图13是示出了根据本实施方式由扩展单元执行的处理过程的流程图;图14是计算机中的硬件的配置示例;图15是要在计算机中被操作的计算机程序的配置示例;以及图16是根据实施方式的系统中的装置的配置示例。具体实施方式将参考附图详细说明本专利技术中公开的计算机程序的优选实施方式。计算机程序例如包括压缩程序和扩展程序。然而,应当理解的是,本专利技术不限于所公开的实施方式。图2是示出了根据本实施方式由信息处理设备执行的压缩处理的示例性流程的图。信息处理设备在存储器中提供存储区域A1、存储区域A2、存储区域A3和存储区域A4作为用于压缩处理的工作区域。在下面的示例中,存储区域A1、存储区域A2和存储区域A3分别被称为编码单元、参考单元和动态字典单元。信息处理设备读出要被压缩的文件F1,并且如果要被压缩的文件F1中的文本是英文,则从文件F1中的文本中提取为从第一字符至终结符的部分的字符串作为英语单词。如果要被压缩的文件F1中的文本是CJK字符或日语单词,则信息处理设备从要被压缩的文件F1中的文本中以字符为单位从第一字符进行提取,以作为CJK字符或日语单词。例如,文件F1包括为特定字符代码系统的“……東……今日……KataokaΔ”的数据。存在单词如“東”、“今日”和“KataokaΔ”。“東”是CJK字符的示例,而“今日”是日语单词的示例,并且用取决于字符代码系统而不同的字符代码串来表示它们中的每一个。“Kataoka”是英文人名的示例,并且以不取决于字符代码系统而不同的字符代码串来表示。终结符是诸如空格()、逗号(,)和句号(。)的符号。在本实施方式中,作为示例,用“Δ”表示终结符。在本实施方式中,作为示例,假定文件F1中的文本的字符代码系统是8位统一码转换格式(UTF-8)。信息处理设备将字符代码串与位滤波器C1进行比较,并且确定字符代码串是否命中位滤波器C1。位滤波器是用于指定单词的字符代码串的滤波器,其中,单词要通过使用静态字典而被压缩。如果字符代码串命中位滤波器C1,则信息处理设备基于静态字典将字符代码串转换成与单词的字符代码串相对应的压缩代码,并且输出压缩数据。另一方面,如果字符代码串没有命中位滤波器C1的静态字典,则信息处理设备将字符代码串转换成与登记在动态字典中的单词的字符代码串相对应的压缩代码,并且输出压缩数据。静态字典是以下字典:基于通用英语字典、日语字典、教科书等来指定出现在文档中的单词或字符的出现频率,并且将较短的压缩代码分配给更频繁出现的单词或字符。在静态字典中,将压缩代码分配给日语单词的单位或者分配给CJK字符的单位。在动态字典中,没有命中位滤波器C1的字符代码串被存储在滑动窗口编码单元中,并且与累积在参考单元中的字符代码串进行核对。将匹配的字符代码串登记在动态字典中,并且给压缩代码分配登记号。下面将详细描述动态字典。现在将描述由信息处理设备执行的要被压缩的文件F1中的CJK字符“東”的压缩数据的生成处理。假定CJK字符的字符代码串命中位滤波器C1。信息处理设备将CJK字符“東”与位滤波器C1进行比较,并且确定CJK字符“東”是否命中位滤波器C1。由于CJK字符“東”命中位滤波器C1,所以信息处理设备将CJK字符“東”编码为静态字典中登记的压缩代码。然后,信息处理设备生成包括标识符“0”和CJK字符“東”的压缩代码的压缩数据d1。标识符“0”是表示基于静态字典对字符代本文档来自技高网
...

【技术保护点】
一种由计算机执行的转换方法,所述转换方法包括:输入压缩文件,在所述压缩文件中,以包括单个字符或多个字符的字符串为单位对具有第一字符代码的字符串数据进行压缩;将被包括在所述压缩文件中的压缩信息转换成经转换的压缩信息,所述压缩信息将所述压缩文件中的经压缩的字符串数据中的每一个映射至具有所述第一字符代码的字符串的相应单位中的每一个,从而所述经转换的压缩信息将所述压缩文件中的经压缩的字符串数据中的每一个映射至具有第二字符代码的字符串的相应单位中的每一个;以及根据所述经压缩的字符串数据中的每一个以及所述经转换的压缩信息来生成经转换的压缩文件。

【技术特征摘要】
2015.01.19 JP 2015-0080761.一种由计算机执行的转换方法,所述转换方法包括:输入压缩文件,在所述压缩文件中,以包括单个字符或多个字符的字符串为单位对由第一字符代码系统表示的字符串数据进行压缩;将被包括在所述压缩文件中的压缩信息转换成经转换的压缩信息,所述压缩信息将所述压缩文件中的经压缩的字符串数据中的每一个映射至由所述第一字符代码系统表示的字符串的相应单位中的每一个,从而所述经转换的压缩信息将所述压缩文件中的经压缩的字符串数据中的每一个映射至由第二字符代码系统表示的字符串的相应单位中的每一个;以及根据所述经压缩的字符串数据中的每一个以及所述经转换的压缩信息来生成经转换的压缩文件。2.根据权利要求1所述的转换方法,其中,所述转换包括:确定所述压缩信息的标识符是第一标识符还是第二标识符,以及当所述压缩信息的标识符是所述第一标识符时,指定到从所述压缩信息获得的第一字符代码系统中的字符串的位置,并且基于通过用第二字符代码表替换第一字符代码表所获得的字符代码表以及所指定的位置将所述压缩信息从所述第一字符代码系统中的字符串转换成所述第二字符代码系统中的字符串,其中,所述第一字符代码表中存储有所述第一字符代码系统中的字符串,所述第二字符代码表中存储有所述第二字符代码系统中的字符串。3.根据权利要求2所述的转换方法,其中,当所述压缩信息的标识符是所述第二标识符时,所述转换包括:...

【专利技术属性】
技术研发人员:片冈正弘宫下功川村洋之
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1